بهبود ویدیوهای هوش مصنوعی مولد با تغییر ترتیب فریم‌ها در حین آموزش

مقاله جدیدی که این هفته در Arxiv منتشر شده است، به مسئله‌ای می‌پردازد که هر کسی که از ژنراتورهای ویدئویی هوش مصنوعی Hunyuan Video یا Wan 2.1 استفاده کرده باشد، با آن مواجه شده است: اختلالات زمانی، جایی که فرآیند تولید به طور ناگهانی سرعت می‌گیرد، ادغام می‌شود، حذف می‌شود یا به طور کلی لحظات مهم در یک ویدیو تولید شده را خراب می‌کند:

برای پخش کلیک کنید . برخی از اشکالات زمانی که برای کاربران موج جدید سیستم‌های ویدیویی مولد آشنا شده‌اند، در مقاله جدید برجسته شده‌اند. در سمت راست، اثر بهبود دهنده رویکرد جدید FluxFlow. منبع: https://haroldchen19.github.io/FluxFlow/

ویدیوی بالا شامل گزیده‌هایی از ویدیوهای آزمایشی نمونه در سایت پروژه (هشدار: نسبتاً آشفته) برای مقاله است. ما می‌توانیم چندین مسئله به طور فزاینده آشنا را ببینیم که توسط روش نویسندگان (که در سمت راست ویدیو نشان داده شده است) اصلاح می‌شوند، که در واقع یک تکنیک پیش پردازش مجموعه داده است که برای هر معماری ویدئویی مولد قابل استفاده است.

در اولین مثال، با عنوان "دو کودک در حال بازی با توپ"، که توسط CogVideoX تولید شده است، می‌بینیم (در سمت چپ ویدیوی گردآوری شده در بالا و در مثال خاص زیر) که تولید بومی به سرعت از طریق چندین میکرو-حرکت ضروری می‌پرد و فعالیت کودکان را به یک زمین "کارتونی" سرعت می‌بخشد. در مقابل، همان مجموعه داده و روش، نتایج بهتری را با تکنیک پیش پردازش جدید، به نام FluxFlow (در سمت راست تصویر در ویدیوی زیر) به دست می‌دهد:

برای پخش کلیک کنید.

در مثال دوم (با استفاده از NOVA-0.6B) می‌بینیم که یک حرکت مرکزی شامل یک گربه به نحوی خراب شده یا به طور قابل توجهی در مرحله آموزش کم نمونه برداری شده است، به طوری که سیستم تولیدی "فلج" می‌شود و قادر به حرکت دادن سوژه نیست:

برای پخش کلیک کنید.

این سندرم، که در آن حرکت یا سوژه "گیر" می‌کند، یکی از رایج‌ترین شکایات HV و Wan در گروه‌های مختلف تصویر و سنتز ویدیو است.

برخی از این مشکلات مربوط به مسائل زیرنویس ویدیو در مجموعه داده منبع است، که ما این هفته به آن نگاهی انداختیم . اما نویسندگان کار جدید تلاش خود را بر کیفیت زمانی داده‌های آموزشی متمرکز می‌کنند و استدلال قانع‌کننده‌ای می‌کنند که پرداختن به چالش‌ها از این دیدگاه می‌تواند نتایج مفیدی به همراه داشته باشد.

همانطور که در مقاله قبلی در مورد زیرنویس ویدیو ذکر شد، برخی از ورزش‌ها به ویژه دشوار است که به لحظات کلیدی تبدیل شوند، به این معنی که رویدادهای مهم (مانند یک slam-dunk) در زمان آموزش به توجهی که نیاز دارند نمی‌رسند:

برای پخش کلیک کنید.

در مثال بالا، سیستم تولیدی نمی‌داند چگونه به مرحله بعدی حرکت برسد و به طور غیرمنطقی از یک ژست به ژست بعدی منتقل می‌شود و نگرش و هندسه بازیکن را در این فرآیند تغییر می‌دهد.

اینها حرکات بزرگی هستند که در آموزش از دست رفته‌اند - اما حرکات بسیار کوچکتر اما محوری نیز به همان اندازه آسیب پذیر هستند، مانند بال زدن بال‌های یک پروانه:

برای پخش کلیک کنید.

برخلاف slam-dunk، بال زدن بال‌ها یک رویداد "نادر" نیست، بلکه یک رویداد مداوم و یکنواخت است. با این حال، سازگاری آن در فرآیند نمونه برداری از دست می‌رود، زیرا حرکت آنقدر سریع است که ایجاد آن از نظر زمانی بسیار دشوار است.

اینها مسائل چندان جدیدی نیستند، اما اکنون که مدل‌های ویدیویی مولد قدرتمند در دسترس علاقه‌مندان برای نصب محلی و تولید رایگان قرار دارند، توجه بیشتری را به خود جلب می‌کنند.

جوامع در Reddit و Discord در ابتدا با این مسائل به عنوان "مربوط به کاربر" برخورد کرده‌اند. این یک فرض قابل درک است، زیرا سیستم‌های مورد بحث بسیار جدید و مستندات آنها حداقل است. بنابراین، متخصصان مختلف راه حل‌های متنوعی (و نه همیشه مؤثر) را برای برخی از اشکالات مستند شده در اینجا پیشنهاد کرده‌اند، مانند تغییر تنظیمات در اجزای مختلف انواع مختلف گردش کار ComfyUI برای Hunyuan Video (HV) و Wan 2.1.

در برخی موارد، به جای تولید حرکت سریع، HV و Wan هر دو حرکت آهسته تولید می‌کنند. پیشنهادات Reddit و ChatGPT (که عمدتاً از Reddit استفاده می‌کند) شامل تغییر تعداد فریم‌ها در تولید درخواستی یا کاهش شدید نرخ فریم است*.

اینها همه چیزهای ناامیدکننده‌ای هستند. حقیقت نوظهور این است که ما هنوز علت دقیق یا درمان دقیق این مسائل را نمی‌دانیم . بدیهی است که عذاب دادن تنظیمات تولید برای حل این مسائل (به ویژه هنگامی که این کار کیفیت خروجی را کاهش می‌دهد، به عنوان مثال با نرخ fps خیلی پایین) فقط یک توقف کوتاه است، و خوب است که ببینیم صحنه تحقیق به سرعت به مسائل نوظهور می‌پردازد.

بنابراین، علاوه بر نگاهی که این هفته به چگونگی تأثیر زیرنویس بر آموزش داشتیم، بیایید نگاهی به مقاله جدید در مورد تنظیم زمانی بیندازیم و ببینیم چه پیشرفت‌هایی ممکن است به صحنه ویدیویی مولد فعلی ارائه دهد.

ایده اصلی نسبتاً ساده و جزئی است و هیچ چیز بدتر از آن نیست. با این وجود، مقاله تا حدودی برای رسیدن به هشت صفحه مقرر شده است و ما در صورت لزوم از این پرکننده‌ها صرف نظر خواهیم کرد.

<em>ماهی در نسل بومی چارچوب VideoCrafter ثابت است، در حالی که نسخه تغییر یافته FluxFlow تغییرات لازم را ثبت می‌کند.</em> منبع: <a>https://arxiv.org/pdf/2503.15417</a>

کار جدید با عنوان تنظیم زمانی ژنراتور ویدیویی شما را قوی‌تر می‌کند، و از هشت محقق در Everlyn AI، دانشگاه علم و صنعت هنگ کنگ (HKUST)، دانشگاه مرکز فلوریدا (UCF) و دانشگاه هنگ کنگ (HKU) آمده است.

(در زمان نوشتن، برخی از مسائل مربوط به سایت پروژه همراه مقاله وجود دارد)

FluxFlow

ایده اصلی پشت FluxFlow، طرحواره جدید پیش آموزش نویسندگان، غلبه بر مشکلات گسترده سوسو زدن و ناهمگونی زمانی با تغییر ترتیب بلوک‌ها و گروه‌های بلوک‌ها در ترتیب قاب زمانی است، زیرا داده‌های منبع در معرض فرآیند آموزش قرار می‌گیرند:

مقاله توضیح می‌دهد:

"[مصنوعات] ناشی از یک محدودیت اساسی است: علیرغم استفاده از مجموعه داده‌های در مقیاس بزرگ، مدل‌های فعلی اغلب به الگوهای زمانی ساده شده در داده‌های آموزشی متکی هستند (به عنوان مثال، جهت‌های پیاده‌روی ثابت یا انتقال‌های قاب تکراری) به جای یادگیری پویایی‌های زمانی متنوع و قابل قبول.

"این مسئله با عدم وجود افزایش زمانی صریح در طول آموزش تشدید می‌شود و مدل‌ها را مستعد برازش بیش از حد با همبستگی‌های زمانی جعلی می‌کند (به عنوان مثال، "قاب شماره 5 باید از #4 پیروی کند") به جای تعمیم در سناریوهای حرکتی متنوع."

نویسندگان توضیح می‌دهند که اکثر مدل‌های تولید ویدیو هنوز بیش از حد از سنتز تصویر وام می‌گیرند و در حالی که تا حد زیادی محور زمانی را نادیده می‌گیرند، بر دقت فضایی تمرکز می‌کنند. اگرچه تکنیک‌هایی مانند برش، تلنگر زدن و لرزش رنگ به بهبود کیفیت تصویر ثابت کمک کرده است، اما هنگام اعمال بر روی ویدیوها راه حل‌های کافی نیستند، جایی که توهم حرکت به انتقال‌های مداوم در سراسر فریم‌ها بستگی دارد.

مشکلات ناشی از آن شامل بافت‌های سوسو زننده، برش‌های ناهموار بین فریم‌ها و الگوهای حرکتی تکراری یا بیش از حد ساده است.

برای پخش کلیک کنید.

مقاله استدلال می‌کند که اگرچه برخی از مدل‌ها - از جمله Stable Video Diffusion و LlamaGen - با معماری‌های به طور فزاینده پیچیده یا محدودیت‌های مهندسی شده جبران می‌کنند، اما اینها به قیمت محاسبات و انعطاف پذیری تمام می‌شوند.

از آنجایی که افزایش داده‌های زمانی در کارهای درک ویدیو (در چارچوب‌هایی مانند FineCliper، SeFAR و SVFormer) مفید بوده است، نویسندگان ادعا می‌کنند که جای تعجب است که این تاکتیک به ندرت در یک زمینه تولیدی اعمال می‌شود.

رفتار مخرب

محققان مدعی هستند که اختلالات ساختاریافته ساده در ترتیب زمانی در طول آموزش به مدل‌ها کمک می‌کند تا بهتر به حرکت واقعی و متنوع تعمیم دهند:

"با آموزش بر روی توالی‌های نامرتب، مولد یاد می‌گیرد که مسیرهای قابل قبولی را بازیابی کند و به طور مؤثر آنتروپی زمانی را تنظیم کند. FLUXFLOW شکاف بین افزایش زمانی تفکیکی و تولیدی را پر می‌کند و یک راه حل پیشرفته plug-and-play را برای تولید ویدیویی از نظر زمانی قابل قبول در حین بهبود [کیفیت] کلی ارائه می‌دهد.

"برخلاف روش‌های موجود که تغییرات معماری را معرفی می‌کنند یا به پس پردازش متکی هستند، FLUXFLOW مستقیماً در سطح داده عمل می‌کند و اختلالات زمانی کنترل شده را در طول آموزش معرفی می‌کند."

برای پخش کلیک کنید.

نویسندگان بیان می‌کنند که اختلالات در سطح فریم، اختلالات ظریفی را در یک توالی ایجاد می‌کنند. این نوع اختلال مشابه افزایش پوشش نیست، جایی که بخش‌هایی از داده به طور تصادفی مسدود می‌شوند، تا از برازش بیش از حد سیستم روی نقاط داده جلوگیری شود و تعمیم بهتری تشویق شود.

تست‌ها

اگرچه ایده اصلی در اینجا به دلیل سادگی آن به یک مقاله کامل نمی‌رسد، اما با این وجود یک بخش آزمایشی وجود دارد که می‌توانیم نگاهی به آن بیندازیم.

نویسندگان برای چهار پرس و جو مربوط به بهبود کیفیت زمانی در عین حفظ دقت فضایی، توانایی یادگیری پویایی‌های جریان حرکت/نوری، حفظ کیفیت زمانی در تولید خارج از محدوده و حساسیت به ابرپارامترهای کلیدی آزمایش کردند.

محققان FluxFlow را به سه معماری تولیدی اعمال کردند: مبتنی بر U-Net، در قالب VideoCrafter2. مبتنی بر DiT، در قالب CogVideoX-2B. و مبتنی بر AR، در قالب NOVA-0.6B.

برای مقایسه منصفانه، آنها مدل‌های پایه معماری‌ها را با FluxFlow به عنوان یک فاز آموزشی اضافی، برای یک دوره، در مجموعه داده OpenVidHD-0.4M تنظیم کردند.

مدل‌ها در برابر دو معیار محبوب ارزیابی شدند: UCF-101. و VBench.

برای UCF، از معیارهای فاصله ویدیویی Fréchet (FVD) و امتیاز Inception (IS) استفاده شد. برای VBench، محققان بر کیفیت زمانی، کیفیت فریم به فریم و کیفیت کلی تمرکز کردند.

<em>ارزیابی اولیه کمی FluxFlow-Frame. "+ اصلی" نشان دهنده آموزش بدون FLUXFLOW است، در حالی که "+ Num × 1" پیکربندی‌های مختلف FluxFlow-Frame را نشان می‌دهد. بهترین نتایج سایه دار هستند. دومین بهترین نتایج برای هر مدل خط کشی شده اند.</em>

نویسندگان در مورد این نتایج اظهار نظر می‌کنند:

"هم FLUXFLOW-FRAME و هم FLUXFLOW-BLOCK به طور قابل توجهی کیفیت زمانی را بهبود می‌بخشند، همانطور که توسط معیارهای موجود در Tabs مشهود است. 1، 2 (به عنوان مثال، FVD، Subject، Flicker، Motion و Dynamic) و نتایج کیفی در [تصویر زیر].

"به عنوان مثال، حرکت ماشین دریفت در VC2، گربه ای که دم خود را در NOVA تعقیب می‌کند و موج سواری که موجی را در CVX سوار می‌شود، با FLUXFLOW به طور محسوسی روان‌تر می‌شوند. مهمتر از همه، این پیشرفت‌های زمانی بدون قربانی کردن دقت فضایی به دست می‌آیند، همانطور که توسط جزئیات دقیق پاشیدن آب، مسیرهای دود و بافت‌های موج، همراه با معیارهای دقت فضایی و کلی مشهود است."

در زیر گزیده‌هایی از نتایج کیفی را که نویسندگان به آن اشاره می‌کنند می‌بینیم (لطفاً برای نتایج کامل و وضوح بهتر به مقاله اصلی مراجعه کنید):

مقاله نشان می‌دهد که در حالی که هم اختلالات در سطح فریم و هم اختلالات در سطح بلوک کیفیت زمانی را افزایش می‌دهند، روش‌های در سطح فریم تمایل به عملکرد بهتری دارند. این به دانه بندی ظریف‌تر آنها نسبت داده می‌شود که تنظیمات زمانی دقیق‌تری را امکان پذیر می‌کند. در مقابل، اختلالات در سطح بلوک ممکن است به دلیل الگوهای فضایی و زمانی به شدت جفت شده در داخل بلوک‌ها، باعث ایجاد نویز شوند و اثربخشی آنها را کاهش دهند.

نتیجه گیری

این مقاله، همراه با همکاری زیرنویس Bytedance-Tsinghua که این هفته منتشر شد، برای من روشن کرده است که کمبودهای ظاهری در نسل جدید مدل‌های ویدیویی تولیدی ممکن است ناشی از خطای کاربر، اشتباهات سازمانی یا محدودیت‌های مالی نباشد، بلکه ناشی از تمرکز تحقیقاتی است که به طور قابل درک چالش‌های فوری‌تری مانند انسجام و سازگاری زمانی را بر این نگرانی‌های کمتر اولویت داده است.

تا همین اواخر، نتایج حاصل از سیستم‌های ویدیویی تولیدی در دسترس و قابل دانلود به صورت رایگان آنقدر به خطر افتاده بود که هیچ کانون تلاش بزرگی از جامعه علاقه‌مند برای جبران این مسائل پدید نیامد (نه کمترین به این دلیل که مسائل اساسی و غیرقابل حل بودند).

اکنون که بسیار به عصر پیش‌بینی‌شده تولید ویدیویی فوتورئالیستی صرفاً هوش مصنوعی نزدیک‌تر هستیم، واضح است که هم جوامع تحقیقاتی و هم جوامع غیررسمی علاقه عمیق‌تر و سازنده‌تری به حل مسائل باقی‌مانده دارند. با کمی شانس، اینها موانع غیرقابل حلی نیستند.

* نرخ فریم بومی Wan یک نرخ ناچیز 16 فریم در ثانیه است و در پاسخ به مسائل خودم، خاطرنشان می‌کنم که انجمن‌ها پیشنهاد کرده‌اند که نرخ فریم را تا 12 فریم در ثانیه کاهش دهند و سپس از FlowFrames یا سایر سیستم‌های جریان مجدد مبتنی بر هوش مصنوعی برای درونیابی شکاف بین چنین تعداد کمی از فریم‌ها استفاده کنند.

اولین بار جمعه، 21 مارس 2025 منتشر شد

https://www.unite.ai/better-generative-ai-video-by-shuffling-frames-during-training/