اگر سال ۲۰۲۲ سالی بود که هوش مصنوعی مولد (Generative AI) تخیل عمومی گستردهتری را تسخیر کرد، سال ۲۰۲۵ سالی است که به نظر میرسد نسل جدیدی از چارچوبهای مولد ویدیو که از چین میآیند، قرار است همین کار را انجام دهند.
Hunyuan Video شرکت Tencent با انتشار متنباز یک مدل انتشار ویدیویی کامل از جهان که کاربران میتوانند آن را مطابق با نیازهای خود سفارشی کنند، تأثیر بزرگی بر جامعه هوش مصنوعی تفریحی گذاشته است.
به دنبال آن Wan 2.1 شرکت Alibaba قرار دارد، که یکی از قدرتمندترین راهکارهای FOSS تصویر به ویدیو در این دوره است - که اکنون از طریق Wan LoRAs از سفارشیسازی پشتیبانی میکند.
علاوه بر در دسترس بودن مدل پایه انسانمحور اخیر SkyReels، در زمان نگارش این مقاله، ما همچنین منتظر انتشار مجموعه جامع ایجاد و ویرایش ویدیوی VACE شرکت Alibaba هستیم:
برای پخش کلیک کنید.انتشار قریب الوقوع مجموعه چند منظوره ویرایش هوش مصنوعی VACE شرکت Alibaba، جامعه کاربری را هیجان زده کرده است. منبع: https://ali-vilab.github.io/VACE-Page/
تأثیر ناگهانی
صحنه تحقیقات هوش مصنوعی ویدیویی مولد (generative video AI) خود نیز به همان اندازه انفجاری است؛ هنوز نیمه اول ماه مارس است و ارسالهای روز سهشنبه به بخش بینایی کامپیوتر Arxiv (مرکزی برای مقالات هوش مصنوعی مولد) به نزدیک به ۳۵۰ ورودی رسید - رقمی که بیشتر با اوج فصل کنفرانس مرتبط است.
دو سال پس از راهاندازی Stable Diffusion در تابستان سال ۲۰۲۲ (و توسعه متعاقب آن روشهای سفارشیسازی Dreambooth و LoRA) با فقدان تحولات عمده بیشتر مشخص شده است، تا اینکه در چند هفته گذشته، نسخههای جدید و نوآوریها با سرعتی سرسامآور پیش رفتهاند که تقریباً غیرممکن است از همه آنها مطلع بود، چه رسد به پوشش همه آنها.
مدلهای انتشار ویدیویی مانند Hunyuan و Wan 2.1، سرانجام و پس از سالها تلاش ناموفق از صدها طرح تحقیقاتی، مسئله ثبات زمانی را در رابطه با تولید انسانها و همچنین تا حد زیادی محیطها و اشیاء حل کردهاند.
شکی نیست که استودیوهای VFX در حال حاضر کارمندان و منابع خود را برای انطباق مدلهای ویدیویی جدید چینی برای حل چالشهای فوری مانند تعویض چهره به کار میگیرند، علیرغم فقدان فعلی مکانیسمهای کمکی به سبک ControlNet برای این سیستمها.
باید بسیار تسکین دهنده باشد که یکی از موانع مهم اینچنینی بهطور بالقوه برطرف شده است، هرچند نه از طریق راههای پیشبینی شده.
از میان مشکلاتی که باقی ماندهاند، این یکی، با این حال، ناچیز نیست:
برای پخش کلیک کنید.بر اساس اعلان "سنگ کوچکی از تپه صخرهای شیبدار به پایین میغلتد، خاک و سنگهای کوچک را جابجا میکند"، Wan 2.1، که بالاترین امتیازات را در مقاله جدید کسب کرد، یک اشتباه ساده مرتکب میشود. منبع: https://videophy2.github.io/
به سمت بالا در خلاف جهت
تمام سیستمهای متن به ویدیو (text-to-video) و تصویر به ویدیو (image-to-video) موجود، از جمله مدلهای تجاری بسته منبع، تمایل به تولید اشتباهات فیزیکی مانند مورد فوق دارند، جایی که ویدیو سنگی را نشان میدهد که به بالا میغلتد، بر اساس اعلان 'سنگ کوچکی از تپه صخرهای شیبدار به پایین میغلتد، خاک و سنگهای کوچک را جابجا میکند'.
یک نظریه در مورد اینکه چرا این اتفاق میافتد، که اخیراً پیشنهاد شده در یک همکاری آکادمیک بین Alibaba و امارات متحده عربی، این است که مدلها همیشه روی تصاویر تکی آموزش میبینند، به یک معنا، حتی زمانی که روی ویدیوها آموزش میبینند (که به توالی فریمهای تکی برای اهداف آموزشی نوشته میشوند)؛ و ممکن است لزوماً ترتیب زمانی صحیح تصاویر "قبل" و "بعد" را یاد نگیرند.
با این حال، محتملترین راه حل این است که مدلهای مورد نظر از روتینهای تقویت داده (data augmentation) استفاده کردهاند که شامل قرار دادن یک کلیپ آموزشی منبع در معرض مدل هم به صورت جلو و هم به صورت عقب، بهطور مؤثر دو برابر کردن دادههای آموزشی است.
مدتهاست که مشخص شده است که این کار نباید بهطور دلخواه انجام شود، زیرا برخی از حرکات در جهت معکوس کار میکنند، اما بسیاری از آنها اینگونه نیستند. یک مطالعه سال ۲۰۱۹ از دانشگاه بریستول بریتانیا به دنبال توسعه روشی بود که بتواند کلیپهای ویدیویی داده منبع هموردایی (equivariant)، ناوردا (invariant) و غیرقابلبرگشت (irreversible) را که در یک مجموعه داده واحد همزیستی دارند (تصویر زیر را ببینید) تشخیص دهد، با این تصور که کلیپهای منبع نامناسب ممکن است از روتینهای تقویت داده فیلتر شوند.
نویسندگان آن کار مشکل را به وضوح چارچوببندی میکنند:
"ما متوجه میشویم که واقعگرایی ویدیوهای معکوس شده توسط مصنوعات معکوس، جنبههایی از صحنه که در دنیای طبیعی ممکن نیست، لو میرود. برخی از مصنوعات ظریف هستند، در حالی که برخی دیگر به راحتی قابل تشخیص هستند، مانند یک عمل "پرتاب" معکوس که در آن شی پرتاب شده به طور خود به خود از زمین بلند میشود.
"ما دو نوع مصنوع معکوس را مشاهده میکنیم، فیزیکی، آنهایی که نقض قوانین طبیعت را نشان میدهند، و غیرمحتمل، آنهایی که یک سناریوی ممکن اما نامحتمل را به تصویر میکشند. اینها منحصر به فرد نیستند، و بسیاری از اقدامات معکوس شده از هر دو نوع مصنوع رنج میبرند، مانند زمانی که یک تکه کاغذ را باز میکنیم.
"مثالهایی از مصنوعات فیزیکی عبارتند از: گرانش معکوس (به عنوان مثال، "انداختن چیزی")، تکانههای خود به خودی روی اشیاء (به عنوان مثال، "چرخاندن یک قلم")، و تغییرات حالت غیرقابلبرگشت (به عنوان مثال، "سوزاندن یک شمع"). یک مثال از یک مصنوع غیرمحتمل: برداشتن یک بشقاب از کابینت، خشک کردن آن و قرار دادن آن روی قفسه خشککن.
"این نوع استفاده مجدد از دادهها در زمان آموزش بسیار رایج است، و میتواند مفید باشد - به عنوان مثال، برای اطمینان از اینکه مدل فقط یک نمای از یک تصویر یا شی را یاد نمیگیرد که میتواند بدون از دست دادن انسجام و منطق مرکزی خود چرخانده یا چرخیده شود.
"البته این فقط برای اشیایی که واقعاً متقارن هستند کار میکند؛ و یادگیری فیزیک از یک ویدیوی "معکوس" فقط در صورتی کار میکند که نسخه معکوس به اندازه نسخه جلو منطقی باشد."
معکوسهای موقت
ما هیچ مدرکی مبنی بر اینکه سیستمهایی مانند Hunyuan Video و Wan 2.1 اجازه دادهاند که کلیپهای "معکوس" دلخواه در طول آموزش در معرض مدل قرار گیرند، نداریم (هیچیک از گروههای محقق در مورد روتینهای تقویت داده مشخص نبودهاند).
با این حال، تنها احتمال جایگزین منطقی، در مواجهه با گزارشهای بسیار زیاد (و تجربه عملی خودم)، به نظر میرسد این است که مجموعهدادههای فوقمقیاسی که به این مدل نیرو میدهند ممکن است حاوی کلیپهایی باشند که در واقع حرکاتی را نشان میدهند که در جهت معکوس رخ میدهند.
سنگ موجود در ویدیوی مثال که در بالا جاسازی شده است با استفاده از Wan 2.1 تولید شده است، و در یک مطالعه جدید که بررسی میکند مدلهای انتشار ویدیویی چقدر فیزیک را مدیریت میکنند، به نمایش درآمده است.
در آزمایشهای این پروژه، Wan 2.1 تنها امتیاز ۲۲٪ را از نظر توانایی خود در پایبندی مداوم به قوانین فیزیکی به دست آورد.
با این حال، این بهترین امتیاز هر سیستمی است که برای این کار آزمایش شده است، که نشان میدهد ممکن است مانع بعدی خود را برای هوش مصنوعی ویدیویی پیدا کرده باشیم:
نویسندگان کار جدید یک سیستم محکزنی را توسعه دادهاند، که اکنون در دومین تکرار خود قرار دارد، به نام VideoPhy، با کدی که در GitHub در دسترس است.
اگرچه دامنه این کار فراتر از آن چیزی است که ما بتوانیم بهطور جامع در اینجا پوشش دهیم، اجازه دهید نگاهی کلی به روششناسی آن و پتانسیل آن برای ایجاد یک معیار بیندازیم که بتواند به هدایت مسیر جلسات آموزش مدل آینده به دور از این نمونههای عجیب و غریب معکوسسازی کمک کند.
مطالعه، که توسط شش محقق از UCLA و Google Research انجام شده است، VideoPhy-2: یک ارزیابی دشوار حس مشترک فیزیکی عملمحور در تولید ویدیو نام دارد. یک سایت پروژه شلوغ نیز در دسترس است، همراه با کد و مجموعهدادهها در GitHub، و یک نمایشگر مجموعهداده در Hugging Face.
برای پخش کلیک کنید.در اینجا، مدل تحسین شده OpenAI Sora در درک تعاملات بین پاروها و انعکاسها ناکام است و قادر به ارائه یک جریان فیزیکی منطقی برای فردی که در قایق است یا نحوه تعامل قایق با او نیست.
روش
نویسندگان آخرین نسخه از کار خود، VideoPhy-2، را به عنوان یک "مجموعهداده ارزیابی حس مشترک چالشبرانگیز برای اقدامات دنیای واقعی" توصیف میکنند. این مجموعه شامل ۱۹۷ اقدام در طیف وسیعی از فعالیتهای فیزیکی متنوع مانند حلقهزنی، ژیمناستیک و تنیس، و همچنین تعاملات شیئی مانند خم کردن یک شی تا زمانی که بشکند است.
یک مدل زبانی بزرگ (LLM) برای تولید ۳۸۴۰ اعلان از این اقدامات بذری استفاده میشود، و سپس از این اعلانها برای سنتز ویدیوها از طریق چارچوبهای مختلف مورد آزمایش استفاده میشود.
در طول این فرایند، نویسندگان فهرستی از قوانین و قوانین فیزیکی "کاندید" را توسعه دادهاند که ویدیوهای تولید شده توسط هوش مصنوعی باید آنها را برآورده کنند، با استفاده از مدلهای بینایی-زبانی برای ارزیابی.
نویسندگان اظهار میکنند:
"به عنوان مثال، در یک ویدیوی ورزشکاری که تنیس بازی میکند، یک قانون فیزیکی این خواهد بود که یک توپ تنیس باید یک مسیر سهموی را تحت گرانش دنبال کند. برای قضاوتهای استاندارد طلایی، ما از حاشیهنویسان انسانی میخواهیم که هر ویدیو را بر اساس پایبندی کلی به معنا و حس مشترک فیزیکی امتیازدهی کنند، و مطابقت آن را با قوانین فیزیکی مختلف علامتگذاری کنند."
در ابتدا محققان مجموعهای از اقدامات را برای ارزیابی حس مشترک فیزیکی در ویدیوهای تولید شده توسط هوش مصنوعی انتخاب کردند. آنها با بیش از ۶۰۰ اقدام که از مجموعهدادههای Kinetics، UCF-101 و Something-Something V2 گردآوری شده بود شروع کردند، اما در نهایت به ۱۹۷ مورد برای مجموعهداده خود بسنده کردند.
نویسندگان اظهار میکنند که این اقدامات بر اساس سه عامل تعیین شدند:
- بهترین نمایش حرکات قابل تشخیص به صورت بصری.
- دامنه تنوع در تعاملات بدنی.
- پوشش انواع "نقض حس مشترک" که در ویدیوهای تولید شده با هوش مصنوعی مشاهده میشود.
پس از انتخاب اقدامات مورد نظر، تیم با استفاده از یک مدل زبانی بزرگ، طیف وسیعی از اعلانهای بالقوه را برای هر اقدام توسعه داد. برای مثال، برای اقدام "بستن پنجره"، اعلانهای مختلف شامل:
"یک شخص پنجره را میبندد."
"زنی پنجره اتاق را میبندد."
"یک شخص به سمت پنجره خم میشود تا آن را ببندد."
این اعلانها برای تولید خروجیهای ویدیویی آزمایشی با سیستمهای تولید ویدیویی مختلف از متن مورد استفاده قرار گرفتند، که برای بررسی و علامتگذاری توسط حاشیهنویسان انسانی و سیستمهای ارزیابی مدل بینایی-زبانی (VLM) در مراحل بعدی در صف قرار گرفتند.