مقاله جدیدی که این هفته در Arxiv منتشر شده است، به مسئلهای میپردازد که هر کسی که از ژنراتورهای ویدئویی هوش مصنوعی Hunyuan Video یا Wan 2.1 استفاده کرده باشد، با آن مواجه شده است: اختلالات زمانی، جایی که فرآیند تولید به طور ناگهانی سرعت میگیرد، ادغام میشود، حذف میشود یا به طور کلی لحظات مهم در یک ویدیو تولید شده را خراب میکند:
برای پخش کلیک کنید . برخی از اشکالات زمانی که برای کاربران موج جدید سیستمهای ویدیویی مولد آشنا شدهاند، در مقاله جدید برجسته شدهاند. در سمت راست، اثر بهبود دهنده رویکرد جدید FluxFlow. منبع: https://haroldchen19.github.io/FluxFlow/
ویدیوی بالا شامل گزیدههایی از ویدیوهای آزمایشی نمونه در سایت پروژه (هشدار: نسبتاً آشفته) برای مقاله است. ما میتوانیم چندین مسئله به طور فزاینده آشنا را ببینیم که توسط روش نویسندگان (که در سمت راست ویدیو نشان داده شده است) اصلاح میشوند، که در واقع یک تکنیک پیش پردازش مجموعه داده است که برای هر معماری ویدئویی مولد قابل استفاده است.
در اولین مثال، با عنوان "دو کودک در حال بازی با توپ"، که توسط CogVideoX تولید شده است، میبینیم (در سمت چپ ویدیوی گردآوری شده در بالا و در مثال خاص زیر) که تولید بومی به سرعت از طریق چندین میکرو-حرکت ضروری میپرد و فعالیت کودکان را به یک زمین "کارتونی" سرعت میبخشد. در مقابل، همان مجموعه داده و روش، نتایج بهتری را با تکنیک پیش پردازش جدید، به نام FluxFlow (در سمت راست تصویر در ویدیوی زیر) به دست میدهد:
برای پخش کلیک کنید.
در مثال دوم (با استفاده از NOVA-0.6B) میبینیم که یک حرکت مرکزی شامل یک گربه به نحوی خراب شده یا به طور قابل توجهی در مرحله آموزش کم نمونه برداری شده است، به طوری که سیستم تولیدی "فلج" میشود و قادر به حرکت دادن سوژه نیست:
برای پخش کلیک کنید.
این سندرم، که در آن حرکت یا سوژه "گیر" میکند، یکی از رایجترین شکایات HV و Wan در گروههای مختلف تصویر و سنتز ویدیو است.
برخی از این مشکلات مربوط به مسائل زیرنویس ویدیو در مجموعه داده منبع است، که ما این هفته به آن نگاهی انداختیم . اما نویسندگان کار جدید تلاش خود را بر کیفیت زمانی دادههای آموزشی متمرکز میکنند و استدلال قانعکنندهای میکنند که پرداختن به چالشها از این دیدگاه میتواند نتایج مفیدی به همراه داشته باشد.
همانطور که در مقاله قبلی در مورد زیرنویس ویدیو ذکر شد، برخی از ورزشها به ویژه دشوار است که به لحظات کلیدی تبدیل شوند، به این معنی که رویدادهای مهم (مانند یک slam-dunk) در زمان آموزش به توجهی که نیاز دارند نمیرسند:
برای پخش کلیک کنید.
در مثال بالا، سیستم تولیدی نمیداند چگونه به مرحله بعدی حرکت برسد و به طور غیرمنطقی از یک ژست به ژست بعدی منتقل میشود و نگرش و هندسه بازیکن را در این فرآیند تغییر میدهد.
اینها حرکات بزرگی هستند که در آموزش از دست رفتهاند - اما حرکات بسیار کوچکتر اما محوری نیز به همان اندازه آسیب پذیر هستند، مانند بال زدن بالهای یک پروانه:
برای پخش کلیک کنید.
برخلاف slam-dunk، بال زدن بالها یک رویداد "نادر" نیست، بلکه یک رویداد مداوم و یکنواخت است. با این حال، سازگاری آن در فرآیند نمونه برداری از دست میرود، زیرا حرکت آنقدر سریع است که ایجاد آن از نظر زمانی بسیار دشوار است.
اینها مسائل چندان جدیدی نیستند، اما اکنون که مدلهای ویدیویی مولد قدرتمند در دسترس علاقهمندان برای نصب محلی و تولید رایگان قرار دارند، توجه بیشتری را به خود جلب میکنند.
جوامع در Reddit و Discord در ابتدا با این مسائل به عنوان "مربوط به کاربر" برخورد کردهاند. این یک فرض قابل درک است، زیرا سیستمهای مورد بحث بسیار جدید و مستندات آنها حداقل است. بنابراین، متخصصان مختلف راه حلهای متنوعی (و نه همیشه مؤثر) را برای برخی از اشکالات مستند شده در اینجا پیشنهاد کردهاند، مانند تغییر تنظیمات در اجزای مختلف انواع مختلف گردش کار ComfyUI برای Hunyuan Video (HV) و Wan 2.1.
در برخی موارد، به جای تولید حرکت سریع، HV و Wan هر دو حرکت آهسته تولید میکنند. پیشنهادات Reddit و ChatGPT (که عمدتاً از Reddit استفاده میکند) شامل تغییر تعداد فریمها در تولید درخواستی یا کاهش شدید نرخ فریم است*.
اینها همه چیزهای ناامیدکنندهای هستند. حقیقت نوظهور این است که ما هنوز علت دقیق یا درمان دقیق این مسائل را نمیدانیم . بدیهی است که عذاب دادن تنظیمات تولید برای حل این مسائل (به ویژه هنگامی که این کار کیفیت خروجی را کاهش میدهد، به عنوان مثال با نرخ fps خیلی پایین) فقط یک توقف کوتاه است، و خوب است که ببینیم صحنه تحقیق به سرعت به مسائل نوظهور میپردازد.
بنابراین، علاوه بر نگاهی که این هفته به چگونگی تأثیر زیرنویس بر آموزش داشتیم، بیایید نگاهی به مقاله جدید در مورد تنظیم زمانی بیندازیم و ببینیم چه پیشرفتهایی ممکن است به صحنه ویدیویی مولد فعلی ارائه دهد.
ایده اصلی نسبتاً ساده و جزئی است و هیچ چیز بدتر از آن نیست. با این وجود، مقاله تا حدودی برای رسیدن به هشت صفحه مقرر شده است و ما در صورت لزوم از این پرکنندهها صرف نظر خواهیم کرد.
کار جدید با عنوان تنظیم زمانی ژنراتور ویدیویی شما را قویتر میکند، و از هشت محقق در Everlyn AI، دانشگاه علم و صنعت هنگ کنگ (HKUST)، دانشگاه مرکز فلوریدا (UCF) و دانشگاه هنگ کنگ (HKU) آمده است.
(در زمان نوشتن، برخی از مسائل مربوط به سایت پروژه همراه مقاله وجود دارد)
FluxFlow
ایده اصلی پشت FluxFlow، طرحواره جدید پیش آموزش نویسندگان، غلبه بر مشکلات گسترده سوسو زدن و ناهمگونی زمانی با تغییر ترتیب بلوکها و گروههای بلوکها در ترتیب قاب زمانی است، زیرا دادههای منبع در معرض فرآیند آموزش قرار میگیرند:
مقاله توضیح میدهد:
"[مصنوعات] ناشی از یک محدودیت اساسی است: علیرغم استفاده از مجموعه دادههای در مقیاس بزرگ، مدلهای فعلی اغلب به الگوهای زمانی ساده شده در دادههای آموزشی متکی هستند (به عنوان مثال، جهتهای پیادهروی ثابت یا انتقالهای قاب تکراری) به جای یادگیری پویاییهای زمانی متنوع و قابل قبول.
"این مسئله با عدم وجود افزایش زمانی صریح در طول آموزش تشدید میشود و مدلها را مستعد برازش بیش از حد با همبستگیهای زمانی جعلی میکند (به عنوان مثال، "قاب شماره 5 باید از #4 پیروی کند") به جای تعمیم در سناریوهای حرکتی متنوع."
نویسندگان توضیح میدهند که اکثر مدلهای تولید ویدیو هنوز بیش از حد از سنتز تصویر وام میگیرند و در حالی که تا حد زیادی محور زمانی را نادیده میگیرند، بر دقت فضایی تمرکز میکنند. اگرچه تکنیکهایی مانند برش، تلنگر زدن و لرزش رنگ به بهبود کیفیت تصویر ثابت کمک کرده است، اما هنگام اعمال بر روی ویدیوها راه حلهای کافی نیستند، جایی که توهم حرکت به انتقالهای مداوم در سراسر فریمها بستگی دارد.
مشکلات ناشی از آن شامل بافتهای سوسو زننده، برشهای ناهموار بین فریمها و الگوهای حرکتی تکراری یا بیش از حد ساده است.
برای پخش کلیک کنید.
مقاله استدلال میکند که اگرچه برخی از مدلها - از جمله Stable Video Diffusion و LlamaGen - با معماریهای به طور فزاینده پیچیده یا محدودیتهای مهندسی شده جبران میکنند، اما اینها به قیمت محاسبات و انعطاف پذیری تمام میشوند.
از آنجایی که افزایش دادههای زمانی در کارهای درک ویدیو (در چارچوبهایی مانند FineCliper، SeFAR و SVFormer) مفید بوده است، نویسندگان ادعا میکنند که جای تعجب است که این تاکتیک به ندرت در یک زمینه تولیدی اعمال میشود.
رفتار مخرب
محققان مدعی هستند که اختلالات ساختاریافته ساده در ترتیب زمانی در طول آموزش به مدلها کمک میکند تا بهتر به حرکت واقعی و متنوع تعمیم دهند:
"با آموزش بر روی توالیهای نامرتب، مولد یاد میگیرد که مسیرهای قابل قبولی را بازیابی کند و به طور مؤثر آنتروپی زمانی را تنظیم کند. FLUXFLOW شکاف بین افزایش زمانی تفکیکی و تولیدی را پر میکند و یک راه حل پیشرفته plug-and-play را برای تولید ویدیویی از نظر زمانی قابل قبول در حین بهبود [کیفیت] کلی ارائه میدهد.
"برخلاف روشهای موجود که تغییرات معماری را معرفی میکنند یا به پس پردازش متکی هستند، FLUXFLOW مستقیماً در سطح داده عمل میکند و اختلالات زمانی کنترل شده را در طول آموزش معرفی میکند."
برای پخش کلیک کنید.
نویسندگان بیان میکنند که اختلالات در سطح فریم، اختلالات ظریفی را در یک توالی ایجاد میکنند. این نوع اختلال مشابه افزایش پوشش نیست، جایی که بخشهایی از داده به طور تصادفی مسدود میشوند، تا از برازش بیش از حد سیستم روی نقاط داده جلوگیری شود و تعمیم بهتری تشویق شود.
تستها
اگرچه ایده اصلی در اینجا به دلیل سادگی آن به یک مقاله کامل نمیرسد، اما با این وجود یک بخش آزمایشی وجود دارد که میتوانیم نگاهی به آن بیندازیم.
نویسندگان برای چهار پرس و جو مربوط به بهبود کیفیت زمانی در عین حفظ دقت فضایی، توانایی یادگیری پویاییهای جریان حرکت/نوری، حفظ کیفیت زمانی در تولید خارج از محدوده و حساسیت به ابرپارامترهای کلیدی آزمایش کردند.
محققان FluxFlow را به سه معماری تولیدی اعمال کردند: مبتنی بر U-Net، در قالب VideoCrafter2. مبتنی بر DiT، در قالب CogVideoX-2B. و مبتنی بر AR، در قالب NOVA-0.6B.
برای مقایسه منصفانه، آنها مدلهای پایه معماریها را با FluxFlow به عنوان یک فاز آموزشی اضافی، برای یک دوره، در مجموعه داده OpenVidHD-0.4M تنظیم کردند.
مدلها در برابر دو معیار محبوب ارزیابی شدند: UCF-101. و VBench.
برای UCF، از معیارهای فاصله ویدیویی Fréchet (FVD) و امتیاز Inception (IS) استفاده شد. برای VBench، محققان بر کیفیت زمانی، کیفیت فریم به فریم و کیفیت کلی تمرکز کردند.
نویسندگان در مورد این نتایج اظهار نظر میکنند:
"هم FLUXFLOW-FRAME و هم FLUXFLOW-BLOCK به طور قابل توجهی کیفیت زمانی را بهبود میبخشند، همانطور که توسط معیارهای موجود در Tabs مشهود است. 1، 2 (به عنوان مثال، FVD، Subject، Flicker، Motion و Dynamic) و نتایج کیفی در [تصویر زیر].
"به عنوان مثال، حرکت ماشین دریفت در VC2، گربه ای که دم خود را در NOVA تعقیب میکند و موج سواری که موجی را در CVX سوار میشود، با FLUXFLOW به طور محسوسی روانتر میشوند. مهمتر از همه، این پیشرفتهای زمانی بدون قربانی کردن دقت فضایی به دست میآیند، همانطور که توسط جزئیات دقیق پاشیدن آب، مسیرهای دود و بافتهای موج، همراه با معیارهای دقت فضایی و کلی مشهود است."
در زیر گزیدههایی از نتایج کیفی را که نویسندگان به آن اشاره میکنند میبینیم (لطفاً برای نتایج کامل و وضوح بهتر به مقاله اصلی مراجعه کنید):
مقاله نشان میدهد که در حالی که هم اختلالات در سطح فریم و هم اختلالات در سطح بلوک کیفیت زمانی را افزایش میدهند، روشهای در سطح فریم تمایل به عملکرد بهتری دارند. این به دانه بندی ظریفتر آنها نسبت داده میشود که تنظیمات زمانی دقیقتری را امکان پذیر میکند. در مقابل، اختلالات در سطح بلوک ممکن است به دلیل الگوهای فضایی و زمانی به شدت جفت شده در داخل بلوکها، باعث ایجاد نویز شوند و اثربخشی آنها را کاهش دهند.
نتیجه گیری
این مقاله، همراه با همکاری زیرنویس Bytedance-Tsinghua که این هفته منتشر شد، برای من روشن کرده است که کمبودهای ظاهری در نسل جدید مدلهای ویدیویی تولیدی ممکن است ناشی از خطای کاربر، اشتباهات سازمانی یا محدودیتهای مالی نباشد، بلکه ناشی از تمرکز تحقیقاتی است که به طور قابل درک چالشهای فوریتری مانند انسجام و سازگاری زمانی را بر این نگرانیهای کمتر اولویت داده است.
تا همین اواخر، نتایج حاصل از سیستمهای ویدیویی تولیدی در دسترس و قابل دانلود به صورت رایگان آنقدر به خطر افتاده بود که هیچ کانون تلاش بزرگی از جامعه علاقهمند برای جبران این مسائل پدید نیامد (نه کمترین به این دلیل که مسائل اساسی و غیرقابل حل بودند).
اکنون که بسیار به عصر پیشبینیشده تولید ویدیویی فوتورئالیستی صرفاً هوش مصنوعی نزدیکتر هستیم، واضح است که هم جوامع تحقیقاتی و هم جوامع غیررسمی علاقه عمیقتر و سازندهتری به حل مسائل باقیمانده دارند. با کمی شانس، اینها موانع غیرقابل حلی نیستند.
* نرخ فریم بومی Wan یک نرخ ناچیز 16 فریم در ثانیه است و در پاسخ به مسائل خودم، خاطرنشان میکنم که انجمنها پیشنهاد کردهاند که نرخ فریم را تا 12 فریم در ثانیه کاهش دهند و سپس از FlowFrames یا سایر سیستمهای جریان مجدد مبتنی بر هوش مصنوعی برای درونیابی شکاف بین چنین تعداد کمی از فریمها استفاده کنند.
اولین بار جمعه، 21 مارس 2025 منتشر شد