تولید ویدیو، شاخهای از بینایی کامپیوتر و یادگیری ماشین (Machine Learning)، بر ایجاد توالیهایی از تصاویر تمرکز دارد که حرکت و واقعگرایی بصری را در طول زمان شبیهسازی میکنند. این امر نیازمند آن است که مدلها انسجام را در بین فریمها حفظ کنند، پویاییهای زمانی را ثبت کنند و تصاویر جدیدی را بر اساس فریمها یا ورودیهای قبلی ایجاد کنند. این حوزه شاهد پیشرفتهای سریعی بوده است، بهویژه با ادغام تکنیکهای یادگیری عمیق (DL) مانند مدلهای انتشار و ترانسفورمرها. این مدلها سیستمها را قادر ساختهاند تا توالیهای ویدیویی طولانیتر و با کیفیتتری تولید کنند. با این حال، تولید فریمهای منسجم در سراسر توالیهای طولانیتر از نظر محاسباتی فشرده باقی میماند و به دلیل مسائلی مانند محدودیتهای حافظه و خطاهای پیشبینی انباشته شده، مستعد کاهش کیفیت است.
یک چالش عمده در تولید ویدیو، حفظ سازگاری بصری و در عین حال به حداقل رساندن سربار محاسباتی است. از آنجایی که فریمها به صورت متوالی تولید میشوند، هر گونه خطا در فریمهای اولیه تمایل به انتشار دارد و منجر به رانش بصری قابل توجهی در توالیهای طولانیتر میشود. به طور همزمان، مدلها برای حفظ حافظه فریمهای اولیه با مشکل مواجه میشوند و باعث ناسازگاری در حرکت و ساختار میشوند، که اغلب به عنوان مشکل فراموشی شناخته میشود. تلاش برای رفع یک مسئله تمایل به بدتر کردن مسئله دیگر دارد. افزایش عمق حافظه، انسجام زمانی را افزایش میدهد، اما گسترش خطاها را نیز تسریع میکند. کاهش وابستگی به فریمهای قبلی به مهار انباشت خطا کمک میکند، اما احتمال ناسازگاری را افزایش میدهد. متعادل کردن این الزامات متضاد یک مانع اساسی در وظایف پیشبینی فریم بعدی است.
تکنیکهای مختلفی برای کاهش فراموشی و رانش پدید آمده است. روشهای زمانبندی و افزایش نویز، شرایط ورودی را برای تعدیل تأثیر فریمهای گذشته تعدیل میکنند، همانطور که در چارچوبهایی مانند DiffusionForcing و RollingDiffusion دیده میشود. روشهای برنامهریزی مبتنی بر لنگر و راهنمایی با استفاده از فریمهای تاریخچه نیز آزمایش شدهاند. همچنین، طیف وسیعی از معماریها با هدف بهبود کارایی، مکانیسمهای توجه خطی و پراکنده، محاسبات کمبیت و رویکردهای تقطیر به کاهش تقاضای منابع کمک میکنند. چارچوبهای تولید ویدیویی طولانی مانند Phenaki، NUWA-XL و StreamingT2V تغییرات ساختاری یا پارادایمهای تولید جدیدی را برای گسترش انسجام زمانی معرفی میکنند. علیرغم این نوآوریها، این حوزه هنوز فاقد یک رویکرد متحد و از نظر محاسباتی کارآمد است که بتواند به طور قابل اعتماد حافظه و کنترل خطا را متعادل کند.
محققان دانشگاه استنفورد یک معماری جدید به نام FramePack را معرفی کردند تا این چالشهای مرتبط را برطرف کنند. این ساختار به صورت سلسله مراتبی فریمهای ورودی را بر اساس اهمیت زمانی آنها فشرده میکند و اطمینان حاصل میکند که فریمهای اخیر بازنمایی با کیفیت بالاتری دریافت میکنند در حالی که فریمهای قدیمیتر به تدریج کاهش مییابند. با انجام این کار، این روش طول متن ترانسفورمر ثابت را بدون در نظر گرفتن مدت زمان ویدیو حفظ میکند. این امر به طور موثر گلوگاه طول متن را از بین میبرد و امکان مقیاسبندی کارآمد را بدون رشد نمایی در محاسبات فراهم میکند. به موازات آن، FramePack تکنیکهای نمونهبرداری ضد رانش را در خود جای داده است که از زمینه دوطرفه با تولید ابتدا فریمهای لنگر، به ویژه ابتدا و انتهای یک توالی، قبل از درونیابی محتوای بین آنها استفاده میکند. نوع دیگری حتی ترتیب تولید را معکوس میکند و از آخرین فریم شناخته شده با کیفیت بالا شروع میکند و به عقب کار میکند. این نمونهبرداری معکوس به ویژه در سناریوهایی مانند تولید تصویر به ویدیو موثر است، جایی که از یک تصویر ثابت برای تولید یک توالی حرکت کامل استفاده میشود.
طراحی FramePack حول یک سیستم فشردهسازی اولویتبندی شده ساخته شده است که طول کل متن ترانسفورمر را محدود میکند. در مدلهای انتشار ویدیویی استاندارد مانند Hunyuan یا Wan، هر فریم 480p تقریباً 1560 توکن متن تولید میکند. هنگام پیشبینی فریم بعدی با استفاده از یک ترانسفورمر انتشار (DiT)، طول کل متن به طور خطی با تعداد فریمهای ورودی و خروجی افزایش مییابد. به عنوان مثال، با 100 فریم ورودی و یک فریم پیشبینی شده، طول متن میتواند از 157000 توکن فراتر رود، که از نظر محاسباتی غیرعملی میشود.
FramePack این مشکل را با اعمال یک برنامه فشردهسازی تدریجی بر اساس اهمیت فریم برطرف میکند. فریمهای اخیر مرتبطتر در نظر گرفته میشوند و وضوح بالاتری به آنها اختصاص داده میشود، در حالی که فریمهای قدیمیتر به طور فزایندهای کاهش مییابند. فشردهسازی از یک پیشرفت هندسی پیروی میکند که توسط یک پارامتر کنترل میشود، که معمولاً روی 2 تنظیم میشود، که طول متن را برای هر فریم قبلی به نصف کاهش میدهد. به عنوان مثال، جدیدترین فریم ممکن است از وضوح کامل استفاده کند، فریم بعدی نصف، سپس یک چهارم و غیره. این طراحی تضمین میکند که طول کل متن در یک حد ثابت باقی میماند، مهم نیست که چه تعداد فریم وارد میشود.
فشردهسازی با استفاده از هستههای وصلهبندی سه بعدی، مانند (2، 4، 4)، (4، 8، 8) و (8، 16، 16) پیادهسازی میشود، که نحوه شکستن فریمها به وصلههای کوچکتر قبل از پردازش را کنترل میکنند. این هستهها با پارامترهای مستقل آموزش داده میشوند تا یادگیری تثبیت شود. در مواردی که توالی ورودی بسیار طولانی است، فریمهای دنباله کم اهمیت یا حذف میشوند، به حداقل میرسند یا به طور سراسری جمع میشوند تا از سربار غیر ضروری جلوگیری شود. این به FramePack اجازه میدهد تا فیلمها با طول دلخواه را به طور کارآمد مدیریت کند و در عین حال عملکرد بالای مدل را حفظ کند.
معیارهای عملکرد ارزش عملی FramePack را تأیید میکنند. هنگامی که FramePack در مدلهای انتشار از پیش آموزش داده شده مانند HunyuanVideo و Wan ادغام شد، استفاده از حافظه در هر مرحله را کاهش داد و در عین حال اندازههای دستهای بزرگتر را امکانپذیر کرد، تا مقیاسی که معمولاً در آموزش انتشار تصویر استفاده میشود. تکنیکهای ضد رانش به طور قابل توجهی کیفیت بصری را بهبود بخشید. با کاهش تهاجمی بودن زمانبند انتشار و متعادل کردن مراحل تغییر، مدلها مصنوعات کمتری و انسجام بیشتری از فریم به فریم نشان دادند. رویکرد نمونهبرداری معکوس، به ویژه، منجر به تقریب بهتر فریمهای شناخته شده شد و تولید با کیفیت بالا را در صورت مشخص بودن یک تصویر هدف امکانپذیر کرد. این پیشرفتها بدون آموزش اضافی از ابتدا رخ داد، که نشان دهنده انطباقپذیری ماژول FramePack به عنوان یک ارتقاء افزایشی برای معماریهای موجود است.
این تحقیق به طور کامل به بررسی و رفع مشکلات اصلی تولید ویدیوی فریم بعدی میپردازد. محققان FramePack را توسعه دادند، رویکردی که فشردهسازی ورودی پیشرونده و استراتژیهای نمونهبرداری اصلاحشده را برای اطمینان از تولید ویدیوی مقیاسپذیر و با کیفیت بالا اعمال میکند. FramePack از طریق طول متن ثابت، وصلهبندی تطبیقی و ترتیب نمونهبرداری نوآورانه، در حفظ حافظه و وضوح بصری در توالیهای طولانی موفق میشود. ادغام مدولار آن در مدلهای از پیش آموزش داده شده، سودمندی عملی و پتانسیل آینده آن را در کاربردهای مختلف تولید ویدیو برجسته میکند.
چند نکته کلیدی از تحقیق در مورد Framepack عبارتند از:
- FramePack طول متن ترانسفورمر ثابت را تضمین می کند و به مدل ها اجازه می دهد تا بدون افزایش هزینه های محاسباتی، به توالی های ویدیویی طولانی تر مقیاس شوند.
- از یک پیشرفت هندسی (? = 2) برای فشرده سازی فریم های قبلی استفاده می کند و به طور قابل توجهی طول متن را حتی برای تعداد زیادی فریم ورودی کاهش می دهد.
- هسته های وصله سه بعدی مانند (2، 4، 4)، (4، 8، 8) و (8، 16، 16) را اعمال می کند که هر کدام با پارامترهای مستقل آموزش داده شده اند تا از یادگیری پایدار اطمینان حاصل شود.
- روش های نمونه برداری ضد رانش از زمینه دو طرفه و تولید اولیه نقطه پایانی استفاده می کنند و کیفیت کلی ویدیو را بهبود می بخشند.
- نمونه برداری زمانی معکوس در وظایف تولید تصویر به ویدیو با لنگر انداختن روی فریم های ورودی کاربر با کیفیت بالا عالی است.
- اندازه های دسته ای مقیاس انتشار تصویر را در آموزش فعال می کند و منجر به یادگیری کارآمد و توان عملیاتی بالاتر می شود.
- با مدل های موجود مانند HunyuanVideo و Wan بدون نیاز به آموزش مجدد کامل ادغام می شود.
- استراتژی های متعدد برای مدیریت دنباله (به عنوان مثال، جمع آوری جهانی، درج حداقل) ارائه می دهد که تأثیر ناچیزی بر وفاداری بصری دارند.