ترکیب تصاویر: ChatGPT-4o، Adobe Firefly: پایین سمت راست، تصاویری از مقاله FullDiT: مدل پایه مولد ویدیوی چند وظیفه‌ای با توجه کامل (https://arxiv.org/pdf/2503.19907)
ترکیب تصاویر: ChatGPT-4o، Adobe Firefly: پایین سمت راست، تصاویری از مقاله FullDiT: مدل پایه مولد ویدیوی چند وظیفه‌ای با توجه کامل (https://arxiv.org/pdf/2503.19907)

به سوی کنترل کامل در تولید ویدیوی هوش مصنوعی

مدل‌های پایه ویدیو مانند Hunyuan و Wan 2.1، اگرچه قدرتمند هستند، اما آن نوع کنترل دقیقی را که تولید فیلم و تلویزیون (به ویژه تولید جلوه‌های بصری VFX) نیاز دارد، به کاربران ارائه نمی‌دهند.

در استودیوهای حرفه‌ای جلوه‌های بصری، مدل‌های متن‌باز مانند این‌ها، به همراه مدل‌های قدیمی‌تر مبتنی بر تصویر (به جای ویدیو) مانند Stable Diffusion، Kandinsky و Flux، معمولاً در کنار مجموعه‌ای از ابزارهای پشتیبان استفاده می‌شوند که خروجی خام آن‌ها را برای پاسخگویی به نیازهای خلاقانه خاص تطبیق می‌دهند. وقتی کارگردانی می‌گوید: «عالی به نظر می‌رسد، اما می‌توانیم کمی بیشتر [ن] آن را تغییر دهیم؟» نمی‌توانید پاسخ دهید که مدل به اندازه کافی دقیق نیست تا چنین درخواست‌هایی را برآورده کند.

در عوض، یک تیم VFX هوش مصنوعی از طیف وسیعی از تکنیک‌های سنتی گرافیک کامپیوتری (CGI) و ترکیب‌بندی، همراه با رویه‌ها و گردش‌کارهای سفارشی توسعه‌یافته در طول زمان، استفاده می‌کند تا سعی کند مرزهای سنتز ویدیو را کمی فراتر ببرد.

بنابراین، به قیاس، یک مدل پایه ویدیو بسیار شبیه به نصب پیش‌فرض یک مرورگر وب مانند کروم است؛ کارهای زیادی را به صورت پیش‌فرض انجام می‌دهد، اما اگر می‌خواهید آن را با نیازهای خود تطبیق دهید، به جای اینکه برعکس عمل کنید، به چند افزونه نیاز خواهید داشت.

نمونه‌های مختلف ControlNet شامل تبدیل عمق به تصویر، تقسیم‌بندی معنایی به تصویر و تولید تصویر هدایت‌شده با ژست برای انسان و حیوان.
<em>روش‌های مختلف ControlNet امکان تبدیل عمق به تصویر (ردیف بالا)، تقسیم‌بندی معنایی به تصویر (پایین چپ) و تولید تصویر هدایت‌شده با ژست برای انسان‌ها و حیوانات (پایین راست) را فراهم می‌کنند.</em>
با استفاده از یک ژست راهنما، می‌توان انواع مختلفی از خروجی‌های دقیق را از طریق ControlNet به دست آورد.
<em>با یک ژست راهنما، می‌توان انواع مختلفی از خروجی‌های دقیق را از طریق ControlNet به دست آورد.</em> منبع: https://arxiv.org/pdf/2302.05543

شیفتگان کنترل

در دنیای سنتز تصویر مبتنی بر مدل‌های انتشاری، مهم‌ترین سیستم شخص ثالث از این دست، ControlNet است.

ControlNet تکنیکی برای افزودن کنترل ساختاریافته به مدل‌های مولد مبتنی بر انتشار است که به کاربران امکان می‌دهد تولید تصویر یا ویدیو را با ورودی‌های اضافی مانند نقشه‌های لبه، نقشه‌های عمق یا اطلاعات ژست هدایت کنند.

به جای تکیه صرف بر اعلان‌های متنی، ControlNet شاخه‌های شبکه عصبی جداگانه یا آداپتورها (adapters) را معرفی می‌کند که این سیگنال‌های شرطی‌سازی را پردازش می‌کنند و در عین حال قابلیت‌های مولد مدل پایه را حفظ می‌کنند.

این امر خروجی‌های تنظیم‌شده دقیقی را امکان‌پذیر می‌سازد که به مشخصات کاربر نزدیک‌تر هستند و آن را به ویژه در کاربردهایی که ترکیب‌بندی، ساختار یا کنترل حرکت دقیق مورد نیاز است، مفید می‌سازد:

با این حال، چارچوب‌های مبتنی بر آداپتور از این نوع، به صورت خارجی بر روی مجموعه‌ای از فرآیندهای عصبی عمل می‌کنند که بسیار درون‌گرا هستند. این رویکردها دارای چندین نقطه ضعف هستند.

اولاً، آداپتورها به طور مستقل آموزش داده می‌شوند که منجر به تداخل شاخه‌ها (branch conflicts) هنگام ترکیب چندین آداپتور می‌شود که می‌تواند کیفیت تولید را کاهش دهد.

ثانیاً، آن‌ها افزونگی پارامتر (parameter redundancy) را ایجاد می‌کنند که نیاز به محاسبات و حافظه اضافی برای هر آداپتور دارد و مقیاس‌پذیری را ناکارآمد می‌سازد.

ثالثاً، علی‌رغم انعطاف‌پذیری، آداپتورها اغلب نتایج زیربهینه (sub-optimal) را در مقایسه با مدل‌هایی تولید می‌کنند که به طور کامل برای تولید چند شرطی تنظیم دقیق (fine-tuned) شده‌اند. این مسائل باعث می‌شود روش‌های مبتنی بر آداپتور برای وظایفی که نیاز به ادغام یکپارچه چندین سیگنال کنترلی دارند، کمتر مؤثر باشند.

در حالت ایده‌آل، قابلیت‌های ControlNet باید به صورت بومی (natively) در مدل آموزش داده شوند، به روشی ماژولار که بتواند نوآوری‌های بعدی و بسیار مورد انتظار مانند تولید همزمان ویدیو/صدا یا قابلیت‌های همگام‌سازی لب بومی (برای صدای خارجی) را در خود جای دهد.

در حال حاضر، هر قطعه عملکرد اضافی یا یک وظیفه پس‌تولید را نشان می‌دهد یا یک رویه غیر بومی است که باید در میان وزنه‌های محکم و حساس هر مدل پایه‌ای که بر روی آن عمل می‌کند، حرکت کند.

نمونه‌هایی از مقاله FullDiT که نشان می‌دهد این رویکرد می‌تواند تحمیل هویت، عمق و حرکت دوربین را در یک تولید بومی ادغام کند.
<em>از مقاله جدید: رویکرد FullDiT می‌تواند تحمیل هویت، عمق و حرکت دوربین را در یک تولید بومی ادغام کند و می‌تواند هر ترکیبی از این موارد را به یکباره فراخوانی کند.</em> منبع: https://arxiv.org/pdf/2503.19907

FullDiT

در این بن‌بست، پیشنهاد جدیدی از چین مطرح می‌شود که سیستمی را ارائه می‌دهد که در آن معیارهای سبک ControlNet مستقیماً در زمان آموزش در یک مدل ویدیوی مولد گنجانده شده‌اند، به جای اینکه به عنوان یک فکر بعدی کنار گذاشته شوند.

این رویکرد جدید با عنوان FullDiT، شرایط چند وظیفه‌ای مانند انتقال هویت، نقشه‌برداری عمق و حرکت دوربین را در بخشی یکپارچه از یک مدل ویدیوی مولد آموزش‌دیده ادغام می‌کند که نویسندگان برای آن یک مدل اولیه آموزش‌دیده و کلیپ‌های ویدیویی همراه را در وب‌سایت پروژه تولید کرده‌اند.

در مثال زیر، تولیدهایی را می‌بینیم که حرکت دوربین، اطلاعات هویت و اطلاعات متنی (یعنی اعلان‌های متنی راهنمای کاربر) را در خود جای داده‌اند:

(ویدیو یا گیف در اینجا نمایش داده می‌شود - در HTML اصلی موجود نیست.)
برای پخش کلیک کنید. نمونه‌هایی از تحمیل کاربر به سبک ControlNet تنها با یک مدل پایه آموزش‌دیده بومی. منبع: https://fulldit.github.io/

لازم به ذکر است که نویسندگان مدل تجربی خود را به عنوان یک مدل پایه کاربردی پیشنهاد نمی‌کنند، بلکه به عنوان اثبات مفهومی برای مدل‌های بومی متن به ویدیو (T2V) و تصویر به ویدیو (I2V) ارائه می‌دهند که کنترل بیشتری نسبت به فقط یک اعلان تصویر یا یک اعلان متنی به کاربران ارائه می‌دهند.

از آنجایی که هنوز مدل‌های مشابهی از این نوع وجود ندارد، محققان معیار جدیدی با عنوان FullBench برای ارزیابی ویدیوهای چند وظیفه‌ای ایجاد کردند و ادعا می‌کنند که در آزمایش‌های مشابهی که در برابر رویکردهای قبلی طراحی کرده‌اند، عملکرد پیشرفته‌ای دارند. با این حال، از آنجایی که FullBench توسط خود نویسندگان طراحی شده است، عینیت آن آزمایش نشده است و مجموعه داده آن با 1400 مورد ممکن است برای نتیجه‌گیری‌های گسترده‌تر بسیار محدود باشد.

تصویری از مقاله FullDiT که معماری یکپارچه مدل را نشان می‌دهد.
<em>معماری یکپارچه FullDiT، همانطور که در مقاله نشان داده شده است.</em>

یکپارچگی بومی

نویسندگان FullDiT بر بهبود قابل توجهی در کارایی پارامتر تأکید می‌کنند. با یکپارچه‌سازی شرایط کنترلی متعدد در یک معماری واحد، FullDiT به پارامترهای کمتری نسبت به روش‌های مبتنی بر آداپتور نیاز دارد که برای هر نوع کنترل به آداپتورهای جداگانه متکی هستند. این رویکرد نه تنها حافظه و بار محاسباتی را کاهش می‌دهد، بلکه با به حداقل رساندن تداخل شاخه‌ها، کیفیت تولید را نیز بهبود می‌بخشد.

معماری FullDiT بر اساس Transformer انتشار (Diffusion Transformer یا DiT) است که برای جایگزینی ستون فقرات سنتی U-Net در مدل‌های انتشار طراحی شده است. این مدل از بلوک‌های DiT برای پردازش ورودی‌ها استفاده می‌کند و شرایط اضافی را از طریق لایه‌های نرمال‌سازی تطبیقی (Adaptive Normalization یا AdaLN) ادغام می‌کند. این ادغام به مدل اجازه می‌دهد تا سیگنال‌های کنترلی مختلف را به طور مؤثر مدیریت کند و تولید ویدیوی با کیفیت بالا و قابل کنترل را امکان‌پذیر سازد.

این تحقیق شامل آموزش FullDiT بر روی مجموعه‌ای از مجموعه داده‌های ویدئویی متنوع، از جمله WebVid-10M، Panda-70M و داده‌های ویدئویی با وضوح بالا و کیفیت بالا که به صورت داخلی جمع‌آوری شده‌اند، می‌شود. فرآیند آموزش در دو مرحله انجام شد: پیش‌آموزش در مقیاس بزرگ و سپس تنظیم دقیق چند وظیفه‌ای.

در مرحله اول، مدل بر روی WebVid-10M برای قابلیت‌های تولید ویدیوی عمومی آموزش داده شد. در مرحله دوم، مدل بر روی مجموعه داده‌های تخصصی‌تر برای انتقال هویت، شرایط عمق و کنترل حرکت دوربین تنظیم دقیق شد.

ارزیابی‌های کمی و کیفی نشان می‌دهد که FullDiT از روش‌های مبتنی بر آداپتور و مدل‌های پایه فعلی بهتر عمل می‌کند. FullBench نشان می‌دهد که FullDiT دقت بالاتری در پایبندی به سیگنال‌های کنترلی متعدد و حفظ کیفیت بصری و انسجام زمانی در ویدیوهای تولید شده به دست می‌آورد.

به ویژه، این مدل در حفظ هویت چهره و انطباق دقیق با نقشه‌های عمق و مسیرهای حرکت دوربین مشخص شده توسط کاربر، برتری دارد. این قابلیت‌ها گامی مهم به سوی تولید ویدیوی مولد بسیار کنترل‌شده و قابل اعتماد نشان می‌دهند.

همانطور که در ابتدای این مقاله اشاره شد، صنعت خلاق به طور گسترده‌ای منتظر جهش بعدی در کنترل تولید ویدیوی هوش مصنوعی است؛ و به نظر می‌رسد که رویکردی یکپارچه و چندوجهی مانند FullDiT ممکن است یکی از راه‌های رسیدن به آن باشد.