اکنون می‌توانید ویدیوهای هوش مصنوعی را تنها با ۶ گیگابایت VRAM تولید کنید

FramePack انتشار ویدیویی با کیفیت بالا را به طرز شگفت‌آوری سبک می‌کند.

رابط کاربری FramePack

به طور خلاصه: تولید ویدیوی هوش مصنوعی ممکن است به زودی دیگر محدود به اشتراک‌های گران‌قیمت یا سرورهای قدرتمند نباشد. به لطف یک پیشرفت اخیر، حتی یک لپ‌تاپ گیمینگ نیز می‌تواند ویدیوهای هوش مصنوعی کامل تولید کند.

این پیشرفت از سوی Lvmin Zhang از GitHub و Maneesh Agrawala از دانشگاه استنفورد حاصل شده است. این دو نفر FramePack را توسعه داده‌اند، یک معماری شبکه عصبی که انتشار ویدیویی با کیفیت بالا را با کمترین میزان VRAM، یعنی ۶ گیگابایت، امکان‌پذیر می‌کند. این یک دستاورد قابل توجه است، به ویژه با توجه به اندازه مدل - ۱۳ میلیارد پارامتر - که به آن اجازه می‌دهد کلیپ‌های کامل ۶۰ ثانیه‌ای را با سرعت ۳۰ فریم در ثانیه تنها با استفاده از یک پردازنده گرافیکی میان‌رده تولید کند.

نکته کلیدی در نحوه عملکرد FramePack است. مدل‌های انتشار ویدیویی سنتی برای پیش‌بینی فریم بعدی به فریم‌های تولید شده قبلی متکی هستند. با افزایش طول ویدیو، "زمینه زمانی" (temporal context) - تعداد فریم‌های گذشته که مدل باید در نظر بگیرد - نیز افزایش می‌یابد و در نتیجه تقاضای حافظه بالاتری ایجاد می‌شود. به همین دلیل است که بیشتر مدل‌ها برای اجرای کارآمد به ۱۲ گیگابایت VRAM یا بیشتر نیاز دارند.

FramePack این روند را معکوس می‌کند. به جای اینکه اجازه دهد استفاده از حافظه با کلیپ‌های طولانی‌تر افزایش یابد، فریم‌های ورودی را بر اساس اهمیت در یک زمینه با طول ثابت فشرده می‌کند و ردپای حافظه را صرف نظر از مدت زمان ویدیو، فشرده و سازگار نگه می‌دارد.

این نوآوری به مدل اجازه می‌دهد تا هزاران فریم را، حتی با معماری‌های بزرگ، روی پردازنده‌های گرافیکی سطح لپ‌تاپ پردازش کند. همچنین آموزش با اندازه‌های دسته‌ای قابل مقایسه با اندازه‌های مورد استفاده در مدل‌های انتشار تصویر را امکان‌پذیر می‌کند.

اما FramePack فقط تقاضای حافظه را کاهش نمی‌دهد، بلکه به مسئله رانش (drifting) نیز می‌پردازد - یک مسئله رایج که در آن کیفیت ویدیو با گذشت زمان کاهش می‌یابد. FramePack با استفاده از الگوهای فشرده‌سازی هوشمند و تکنیک‌های زمان‌بندی، به حفظ سازگاری بصری از ابتدا تا انتها کمک می‌کند.

برای تکمیل آن، این مدل شامل یک رابط کاربری (GUI) کاربرپسند است. کاربران می‌توانند تصاویر را آپلود کنند، درخواست‌های متنی را وارد کنند و یک پیش‌نمایش زنده را هنگام تولید فریم‌ها مشاهده کنند. در یک RTX 4090، سرعت تولید بهینه شده به ۰.۶ فریم در ثانیه می‌رسد. طبیعتاً، عملکرد در پردازنده‌های گرافیکی کمتر قدرتمند پایین‌تر است، اما حتی یک RTX 3060 نیز می‌تواند از عهده آن برآید.

در حال حاضر، FramePack از پردازنده‌های گرافیکی RTX 30، 40 و سری 50 جدید Nvidia پشتیبانی می‌کند، مشروط بر اینکه از فرمت‌های داده FP16 یا BF16 پشتیبانی کنند. هنوز هیچ پشتیبانی تأیید شده‌ای برای پردازنده‌های گرافیکی AMD یا Intel وجود ندارد، اما این مدل در چندین سیستم عامل، از جمله لینوکس، کار می‌کند.

می‌توانید جزئیات کامل مدل و کد منبع را در GitHub پیدا کنید.