محققان استنفورد FramePack را پیشنهاد می کنند: یک چارچوب هوش مصنوعی مبتنی بر فشرده سازی

تولید ویدیو، شاخه‌ای از بینایی کامپیوتر و یادگیری ماشین (Machine Learning)، بر ایجاد توالی‌هایی از تصاویر تمرکز دارد که حرکت و واقع‌گرایی بصری را در طول زمان شبیه‌سازی می‌کنند. این امر نیازمند آن است که مدل‌ها انسجام را در بین فریم‌ها حفظ کنند، پویایی‌های زمانی را ثبت کنند و تصاویر جدیدی را بر اساس فریم‌ها یا ورودی‌های قبلی ایجاد کنند. این حوزه شاهد پیشرفت‌های سریعی بوده است، به‌ویژه با ادغام تکنیک‌های یادگیری عمیق (DL) مانند مدل‌های انتشار و ترانسفورمرها. این مدل‌ها سیستم‌ها را قادر ساخته‌اند تا توالی‌های ویدیویی طولانی‌تر و با کیفیت‌تری تولید کنند. با این حال، تولید فریم‌های منسجم در سراسر توالی‌های طولانی‌تر از نظر محاسباتی فشرده باقی می‌ماند و به دلیل مسائلی مانند محدودیت‌های حافظه و خطاهای پیش‌بینی انباشته شده، مستعد کاهش کیفیت است.

یک چالش عمده در تولید ویدیو، حفظ سازگاری بصری و در عین حال به حداقل رساندن سربار محاسباتی است. از آنجایی که فریم‌ها به صورت متوالی تولید می‌شوند، هر گونه خطا در فریم‌های اولیه تمایل به انتشار دارد و منجر به رانش بصری قابل توجهی در توالی‌های طولانی‌تر می‌شود. به طور همزمان، مدل‌ها برای حفظ حافظه فریم‌های اولیه با مشکل مواجه می‌شوند و باعث ناسازگاری در حرکت و ساختار می‌شوند، که اغلب به عنوان مشکل فراموشی شناخته می‌شود. تلاش برای رفع یک مسئله تمایل به بدتر کردن مسئله دیگر دارد. افزایش عمق حافظه، انسجام زمانی را افزایش می‌دهد، اما گسترش خطاها را نیز تسریع می‌کند. کاهش وابستگی به فریم‌های قبلی به مهار انباشت خطا کمک می‌کند، اما احتمال ناسازگاری را افزایش می‌دهد. متعادل کردن این الزامات متضاد یک مانع اساسی در وظایف پیش‌بینی فریم بعدی است.

تکنیک‌های مختلفی برای کاهش فراموشی و رانش پدید آمده است. روش‌های زمان‌بندی و افزایش نویز، شرایط ورودی را برای تعدیل تأثیر فریم‌های گذشته تعدیل می‌کنند، همانطور که در چارچوب‌هایی مانند DiffusionForcing و RollingDiffusion دیده می‌شود. روش‌های برنامه‌ریزی مبتنی بر لنگر و راهنمایی با استفاده از فریم‌های تاریخچه نیز آزمایش شده‌اند. همچنین، طیف وسیعی از معماری‌ها با هدف بهبود کارایی، مکانیسم‌های توجه خطی و پراکنده، محاسبات کم‌بیت و رویکردهای تقطیر به کاهش تقاضای منابع کمک می‌کنند. چارچوب‌های تولید ویدیویی طولانی مانند Phenaki، NUWA-XL و StreamingT2V تغییرات ساختاری یا پارادایم‌های تولید جدیدی را برای گسترش انسجام زمانی معرفی می‌کنند. علیرغم این نوآوری‌ها، این حوزه هنوز فاقد یک رویکرد متحد و از نظر محاسباتی کارآمد است که بتواند به طور قابل اعتماد حافظه و کنترل خطا را متعادل کند.

محققان دانشگاه استنفورد یک معماری جدید به نام FramePack را معرفی کردند تا این چالش‌های مرتبط را برطرف کنند. این ساختار به صورت سلسله مراتبی فریم‌های ورودی را بر اساس اهمیت زمانی آنها فشرده می‌کند و اطمینان حاصل می‌کند که فریم‌های اخیر بازنمایی با کیفیت بالاتری دریافت می‌کنند در حالی که فریم‌های قدیمی‌تر به تدریج کاهش می‌یابند. با انجام این کار، این روش طول متن ترانسفورمر ثابت را بدون در نظر گرفتن مدت زمان ویدیو حفظ می‌کند. این امر به طور موثر گلوگاه طول متن را از بین می‌برد و امکان مقیاس‌بندی کارآمد را بدون رشد نمایی در محاسبات فراهم می‌کند. به موازات آن، FramePack تکنیک‌های نمونه‌برداری ضد رانش را در خود جای داده است که از زمینه دوطرفه با تولید ابتدا فریم‌های لنگر، به ویژه ابتدا و انتهای یک توالی، قبل از درون‌یابی محتوای بین آنها استفاده می‌کند. نوع دیگری حتی ترتیب تولید را معکوس می‌کند و از آخرین فریم شناخته شده با کیفیت بالا شروع می‌کند و به عقب کار می‌کند. این نمونه‌برداری معکوس به ویژه در سناریوهایی مانند تولید تصویر به ویدیو موثر است، جایی که از یک تصویر ثابت برای تولید یک توالی حرکت کامل استفاده می‌شود.

طراحی FramePack حول یک سیستم فشرده‌سازی اولویت‌بندی شده ساخته شده است که طول کل متن ترانسفورمر را محدود می‌کند. در مدل‌های انتشار ویدیویی استاندارد مانند Hunyuan یا Wan، هر فریم 480p تقریباً 1560 توکن متن تولید می‌کند. هنگام پیش‌بینی فریم بعدی با استفاده از یک ترانسفورمر انتشار (DiT)، طول کل متن به طور خطی با تعداد فریم‌های ورودی و خروجی افزایش می‌یابد. به عنوان مثال، با 100 فریم ورودی و یک فریم پیش‌بینی شده، طول متن می‌تواند از 157000 توکن فراتر رود، که از نظر محاسباتی غیرعملی می‌شود.

FramePack این مشکل را با اعمال یک برنامه فشرده‌سازی تدریجی بر اساس اهمیت فریم برطرف می‌کند. فریم‌های اخیر مرتبط‌تر در نظر گرفته می‌شوند و وضوح بالاتری به آنها اختصاص داده می‌شود، در حالی که فریم‌های قدیمی‌تر به طور فزاینده‌ای کاهش می‌یابند. فشرده‌سازی از یک پیشرفت هندسی پیروی می‌کند که توسط یک پارامتر کنترل می‌شود، که معمولاً روی 2 تنظیم می‌شود، که طول متن را برای هر فریم قبلی به نصف کاهش می‌دهد. به عنوان مثال، جدیدترین فریم ممکن است از وضوح کامل استفاده کند، فریم بعدی نصف، سپس یک چهارم و غیره. این طراحی تضمین می‌کند که طول کل متن در یک حد ثابت باقی می‌ماند، مهم نیست که چه تعداد فریم وارد می‌شود.

برنامه فشرده‌سازی FramePack
برنامه فشرده‌سازی FramePack

فشرده‌سازی با استفاده از هسته‌های وصله‌بندی سه بعدی، مانند (2، 4، 4)، (4، 8، 8) و (8، 16، 16) پیاده‌سازی می‌شود، که نحوه شکستن فریم‌ها به وصله‌های کوچکتر قبل از پردازش را کنترل می‌کنند. این هسته‌ها با پارامترهای مستقل آموزش داده می‌شوند تا یادگیری تثبیت شود. در مواردی که توالی ورودی بسیار طولانی است، فریم‌های دنباله کم اهمیت یا حذف می‌شوند، به حداقل می‌رسند یا به طور سراسری جمع می‌شوند تا از سربار غیر ضروری جلوگیری شود. این به FramePack اجازه می‌دهد تا فیلم‌ها با طول دلخواه را به طور کارآمد مدیریت کند و در عین حال عملکرد بالای مدل را حفظ کند.

معیارهای عملکرد ارزش عملی FramePack را تأیید می‌کنند. هنگامی که FramePack در مدل‌های انتشار از پیش آموزش داده شده مانند HunyuanVideo و Wan ادغام شد، استفاده از حافظه در هر مرحله را کاهش داد و در عین حال اندازه‌های دسته‌ای بزرگتر را امکان‌پذیر کرد، تا مقیاسی که معمولاً در آموزش انتشار تصویر استفاده می‌شود. تکنیک‌های ضد رانش به طور قابل توجهی کیفیت بصری را بهبود بخشید. با کاهش تهاجمی بودن زمان‌بند انتشار و متعادل کردن مراحل تغییر، مدل‌ها مصنوعات کمتری و انسجام بیشتری از فریم به فریم نشان دادند. رویکرد نمونه‌برداری معکوس، به ویژه، منجر به تقریب بهتر فریم‌های شناخته شده شد و تولید با کیفیت بالا را در صورت مشخص بودن یک تصویر هدف امکان‌پذیر کرد. این پیشرفت‌ها بدون آموزش اضافی از ابتدا رخ داد، که نشان دهنده انطباق‌پذیری ماژول FramePack به عنوان یک ارتقاء افزایشی برای معماری‌های موجود است.

این تحقیق به طور کامل به بررسی و رفع مشکلات اصلی تولید ویدیوی فریم بعدی می‌پردازد. محققان FramePack را توسعه دادند، رویکردی که فشرده‌سازی ورودی پیشرونده و استراتژی‌های نمونه‌برداری اصلاح‌شده را برای اطمینان از تولید ویدیوی مقیاس‌پذیر و با کیفیت بالا اعمال می‌کند. FramePack از طریق طول متن ثابت، وصله‌بندی تطبیقی ​​و ترتیب نمونه‌برداری نوآورانه، در حفظ حافظه و وضوح بصری در توالی‌های طولانی موفق می‌شود. ادغام مدولار آن در مدل‌های از پیش آموزش داده شده، سودمندی عملی و پتانسیل آینده آن را در کاربردهای مختلف تولید ویدیو برجسته می‌کند.

چند نکته کلیدی از تحقیق در مورد Framepack عبارتند از:

  • FramePack طول متن ترانسفورمر ثابت را تضمین می کند و به مدل ها اجازه می دهد تا بدون افزایش هزینه های محاسباتی، به توالی های ویدیویی طولانی تر مقیاس شوند.
  • از یک پیشرفت هندسی (? = 2) برای فشرده سازی فریم های قبلی استفاده می کند و به طور قابل توجهی طول متن را حتی برای تعداد زیادی فریم ورودی کاهش می دهد.
  • هسته های وصله سه بعدی مانند (2، 4، 4)، (4، 8، 8) و (8، 16، 16) را اعمال می کند که هر کدام با پارامترهای مستقل آموزش داده شده اند تا از یادگیری پایدار اطمینان حاصل شود.
  • روش های نمونه برداری ضد رانش از زمینه دو طرفه و تولید اولیه نقطه پایانی استفاده می کنند و کیفیت کلی ویدیو را بهبود می بخشند.
  • نمونه برداری زمانی معکوس در وظایف تولید تصویر به ویدیو با لنگر انداختن روی فریم های ورودی کاربر با کیفیت بالا عالی است.
  • اندازه های دسته ای مقیاس انتشار تصویر را در آموزش فعال می کند و منجر به یادگیری کارآمد و توان عملیاتی بالاتر می شود.
  • با مدل های موجود مانند HunyuanVideo و Wan بدون نیاز به آموزش مجدد کامل ادغام می شود.
  • استراتژی های متعدد برای مدیریت دنباله (به عنوان مثال، جمع آوری جهانی، درج حداقل) ارائه می دهد که تأثیر ناچیزی بر وفاداری بصری دارند.