به طور خلاصه: تولید ویدیوی هوش مصنوعی ممکن است به زودی دیگر محدود به اشتراکهای گرانقیمت یا سرورهای قدرتمند نباشد. به لطف یک پیشرفت اخیر، حتی یک لپتاپ گیمینگ نیز میتواند ویدیوهای هوش مصنوعی کامل تولید کند.
این پیشرفت از سوی Lvmin Zhang از GitHub و Maneesh Agrawala از دانشگاه استنفورد حاصل شده است. این دو نفر FramePack را توسعه دادهاند، یک معماری شبکه عصبی که انتشار ویدیویی با کیفیت بالا را با کمترین میزان VRAM، یعنی ۶ گیگابایت، امکانپذیر میکند. این یک دستاورد قابل توجه است، به ویژه با توجه به اندازه مدل - ۱۳ میلیارد پارامتر - که به آن اجازه میدهد کلیپهای کامل ۶۰ ثانیهای را با سرعت ۳۰ فریم در ثانیه تنها با استفاده از یک پردازنده گرافیکی میانرده تولید کند.
نکته کلیدی در نحوه عملکرد FramePack است. مدلهای انتشار ویدیویی سنتی برای پیشبینی فریم بعدی به فریمهای تولید شده قبلی متکی هستند. با افزایش طول ویدیو، "زمینه زمانی" (temporal context) - تعداد فریمهای گذشته که مدل باید در نظر بگیرد - نیز افزایش مییابد و در نتیجه تقاضای حافظه بالاتری ایجاد میشود. به همین دلیل است که بیشتر مدلها برای اجرای کارآمد به ۱۲ گیگابایت VRAM یا بیشتر نیاز دارند.
FramePack این روند را معکوس میکند. به جای اینکه اجازه دهد استفاده از حافظه با کلیپهای طولانیتر افزایش یابد، فریمهای ورودی را بر اساس اهمیت در یک زمینه با طول ثابت فشرده میکند و ردپای حافظه را صرف نظر از مدت زمان ویدیو، فشرده و سازگار نگه میدارد.
این نوآوری به مدل اجازه میدهد تا هزاران فریم را، حتی با معماریهای بزرگ، روی پردازندههای گرافیکی سطح لپتاپ پردازش کند. همچنین آموزش با اندازههای دستهای قابل مقایسه با اندازههای مورد استفاده در مدلهای انتشار تصویر را امکانپذیر میکند.
اما FramePack فقط تقاضای حافظه را کاهش نمیدهد، بلکه به مسئله رانش (drifting) نیز میپردازد - یک مسئله رایج که در آن کیفیت ویدیو با گذشت زمان کاهش مییابد. FramePack با استفاده از الگوهای فشردهسازی هوشمند و تکنیکهای زمانبندی، به حفظ سازگاری بصری از ابتدا تا انتها کمک میکند.
برای تکمیل آن، این مدل شامل یک رابط کاربری (GUI) کاربرپسند است. کاربران میتوانند تصاویر را آپلود کنند، درخواستهای متنی را وارد کنند و یک پیشنمایش زنده را هنگام تولید فریمها مشاهده کنند. در یک RTX 4090، سرعت تولید بهینه شده به ۰.۶ فریم در ثانیه میرسد. طبیعتاً، عملکرد در پردازندههای گرافیکی کمتر قدرتمند پایینتر است، اما حتی یک RTX 3060 نیز میتواند از عهده آن برآید.
در حال حاضر، FramePack از پردازندههای گرافیکی RTX 30، 40 و سری 50 جدید Nvidia پشتیبانی میکند، مشروط بر اینکه از فرمتهای داده FP16 یا BF16 پشتیبانی کنند. هنوز هیچ پشتیبانی تأیید شدهای برای پردازندههای گرافیکی AMD یا Intel وجود ندارد، اما این مدل در چندین سیستم عامل، از جمله لینوکس، کار میکند.
میتوانید جزئیات کامل مدل و کد منبع را در GitHub پیدا کنید.