تصویر تولید شده توسط ChatGPT/Firefly که جت‌اسکی‌سواری را نشان می‌دهد که به طور غیرممکن موجی در جلوی خود
 بر جای می‌گذارد.
تصویر تولید شده توسط ChatGPT/Firefly که جت‌اسکی‌سواری را نشان می‌دهد که به طور غیرممکن موجی در جلوی خود بر جای می‌گذارد.

چرا ویدیوهای هوش مصنوعی گاهی اوقات برعکس می‌شوند؟

اگر سال ۲۰۲۲ سالی بود که هوش مصنوعی مولد (Generative AI) تخیل عمومی گسترده‌تری را تسخیر کرد، سال ۲۰۲۵ سالی است که به نظر می‌رسد نسل جدیدی از چارچوب‌های مولد ویدیو که از چین می‌آیند، قرار است همین کار را انجام دهند.

Hunyuan Video شرکت Tencent با انتشار متن‌باز یک مدل انتشار ویدیویی کامل از جهان که کاربران می‌توانند آن را مطابق با نیازهای خود سفارشی کنند، تأثیر بزرگی بر جامعه هوش مصنوعی تفریحی گذاشته است.

به دنبال آن Wan 2.1 شرکت Alibaba قرار دارد، که یکی از قدرتمندترین راهکارهای FOSS تصویر به ویدیو در این دوره است - که اکنون از طریق Wan LoRAs از سفارشی‌سازی پشتیبانی می‌کند.

علاوه بر در دسترس بودن مدل پایه انسان‌محور اخیر SkyReels، در زمان نگارش این مقاله، ما همچنین منتظر انتشار مجموعه جامع ایجاد و ویرایش ویدیوی VACE شرکت Alibaba هستیم:

برای پخش کلیک کنید.انتشار قریب الوقوع مجموعه چند منظوره ویرایش هوش مصنوعی VACE شرکت Alibaba، جامعه کاربری را هیجان زده کرده است. منبع: https://ali-vilab.github.io/VACE-Page/

تأثیر ناگهانی

صحنه تحقیقات هوش مصنوعی ویدیویی مولد (generative video AI) خود نیز به همان اندازه انفجاری است؛ هنوز نیمه اول ماه مارس است و ارسال‌های روز سه‌شنبه به بخش بینایی کامپیوتر Arxiv (مرکزی برای مقالات هوش مصنوعی مولد) به نزدیک به ۳۵۰ ورودی رسید - رقمی که بیشتر با اوج فصل کنفرانس مرتبط است.

دو سال پس از راه‌اندازی Stable Diffusion در تابستان سال ۲۰۲۲ (و توسعه متعاقب آن روش‌های سفارشی‌سازی Dreambooth و LoRA) با فقدان تحولات عمده بیشتر مشخص شده است، تا اینکه در چند هفته گذشته، نسخه‌های جدید و نوآوری‌ها با سرعتی سرسام‌آور پیش رفته‌اند که تقریباً غیرممکن است از همه آن‌ها مطلع بود، چه رسد به پوشش همه آن‌ها.

مدل‌های انتشار ویدیویی مانند Hunyuan و Wan 2.1، سرانجام و پس از سال‌ها تلاش ناموفق از صدها طرح تحقیقاتی، مسئله ثبات زمانی را در رابطه با تولید انسان‌ها و همچنین تا حد زیادی محیط‌ها و اشیاء حل کرده‌اند.

شکی نیست که استودیوهای VFX در حال حاضر کارمندان و منابع خود را برای انطباق مدل‌های ویدیویی جدید چینی برای حل چالش‌های فوری مانند تعویض چهره به کار می‌گیرند، علی‌رغم فقدان فعلی مکانیسم‌های کمکی به سبک ControlNet برای این سیستم‌ها.

باید بسیار تسکین دهنده باشد که یکی از موانع مهم این‌چنینی به‌طور بالقوه برطرف شده است، هرچند نه از طریق راه‌های پیش‌بینی شده.

از میان مشکلاتی که باقی مانده‌اند، این یکی، با این حال، ناچیز نیست:

برای پخش کلیک کنید.بر اساس اعلان "سنگ کوچکی از تپه صخره‌ای شیب‌دار به پایین می‌غلتد، خاک و سنگ‌های کوچک را جابجا می‌کند"، Wan 2.1، که بالاترین امتیازات را در مقاله جدید کسب کرد، یک اشتباه ساده مرتکب می‌شود. منبع: https://videophy2.github.io/

به سمت بالا در خلاف جهت

تمام سیستم‌های متن به ویدیو (text-to-video) و تصویر به ویدیو (image-to-video) موجود، از جمله مدل‌های تجاری بسته منبع، تمایل به تولید اشتباهات فیزیکی مانند مورد فوق دارند، جایی که ویدیو سنگی را نشان می‌دهد که به بالا می‌غلتد، بر اساس اعلان 'سنگ کوچکی از تپه صخره‌ای شیب‌دار به پایین می‌غلتد، خاک و سنگ‌های کوچک را جابجا می‌کند'.

یک نظریه در مورد اینکه چرا این اتفاق می‌افتد، که اخیراً پیشنهاد شده در یک همکاری آکادمیک بین Alibaba و امارات متحده عربی، این است که مدل‌ها همیشه روی تصاویر تکی آموزش می‌بینند، به یک معنا، حتی زمانی که روی ویدیوها آموزش می‌بینند (که به توالی فریم‌های تکی برای اهداف آموزشی نوشته می‌شوند)؛ و ممکن است لزوماً ترتیب زمانی صحیح تصاویر "قبل" و "بعد" را یاد نگیرند.

با این حال، محتمل‌ترین راه حل این است که مدل‌های مورد نظر از روتین‌های تقویت داده (data augmentation) استفاده کرده‌اند که شامل قرار دادن یک کلیپ آموزشی منبع در معرض مدل هم به صورت جلو و هم به صورت عقب، به‌طور مؤثر دو برابر کردن داده‌های آموزشی است.

مدت‌هاست که مشخص شده است که این کار نباید به‌طور دلخواه انجام شود، زیرا برخی از حرکات در جهت معکوس کار می‌کنند، اما بسیاری از آن‌ها این‌گونه نیستند. یک مطالعه سال ۲۰۱۹ از دانشگاه بریستول بریتانیا به دنبال توسعه روشی بود که بتواند کلیپ‌های ویدیویی داده منبع هم‌وردایی (equivariant)، ناوردا (invariant) و غیرقابل‌برگشت (irreversible) را که در یک مجموعه داده واحد هم‌زیستی دارند (تصویر زیر را ببینید) تشخیص دهد، با این تصور که کلیپ‌های منبع نامناسب ممکن است از روتین‌های تقویت داده فیلتر شوند.

نمونه‌هایی از سه نوع حرکت، که تنها یکی از آن‌ها به صورت آزادانه قابل‌برگشت است در حالی که پویایی فیزیکی قابل قبول را حفظ می‌کند.
نمونه‌هایی از سه نوع حرکت، که تنها یکی از آن‌ها به صورت آزادانه قابل‌برگشت است در حالی که پویایی فیزیکی قابل قبول را حفظ می‌کند. منبع: https://arxiv.org/abs/1909.09422

نویسندگان آن کار مشکل را به وضوح چارچوب‌بندی می‌کنند:

"ما متوجه می‌شویم که واقع‌گرایی ویدیوهای معکوس شده توسط مصنوعات معکوس، جنبه‌هایی از صحنه که در دنیای طبیعی ممکن نیست، لو می‌رود. برخی از مصنوعات ظریف هستند، در حالی که برخی دیگر به راحتی قابل تشخیص هستند، مانند یک عمل "پرتاب" معکوس که در آن شی پرتاب شده به طور خود به خود از زمین بلند می‌شود.

"ما دو نوع مصنوع معکوس را مشاهده می‌کنیم، فیزیکی، آن‌هایی که نقض قوانین طبیعت را نشان می‌دهند، و غیرمحتمل، آن‌هایی که یک سناریوی ممکن اما نامحتمل را به تصویر می‌کشند. این‌ها منحصر به فرد نیستند، و بسیاری از اقدامات معکوس شده از هر دو نوع مصنوع رنج می‌برند، مانند زمانی که یک تکه کاغذ را باز می‌کنیم.

"مثال‌هایی از مصنوعات فیزیکی عبارتند از: گرانش معکوس (به عنوان مثال، "انداختن چیزی")، تکانه‌های خود به خودی روی اشیاء (به عنوان مثال، "چرخاندن یک قلم")، و تغییرات حالت غیرقابل‌برگشت (به عنوان مثال، "سوزاندن یک شمع"). یک مثال از یک مصنوع غیرمحتمل: برداشتن یک بشقاب از کابینت، خشک کردن آن و قرار دادن آن روی قفسه خشک‌کن.

"این نوع استفاده مجدد از داده‌ها در زمان آموزش بسیار رایج است، و می‌تواند مفید باشد - به عنوان مثال، برای اطمینان از اینکه مدل فقط یک نمای از یک تصویر یا شی را یاد نمی‌گیرد که می‌تواند بدون از دست دادن انسجام و منطق مرکزی خود چرخانده یا چرخیده شود.

"البته این فقط برای اشیایی که واقعاً متقارن هستند کار می‌کند؛ و یادگیری فیزیک از یک ویدیوی "معکوس" فقط در صورتی کار می‌کند که نسخه معکوس به اندازه نسخه جلو منطقی باشد."

معکوس‌های موقت

ما هیچ مدرکی مبنی بر اینکه سیستم‌هایی مانند Hunyuan Video و Wan 2.1 اجازه داده‌اند که کلیپ‌های "معکوس" دلخواه در طول آموزش در معرض مدل قرار گیرند، نداریم (هیچ‌یک از گروه‌های محقق در مورد روتین‌های تقویت داده مشخص نبوده‌اند).

با این حال، تنها احتمال جایگزین منطقی، در مواجهه با گزارش‌های بسیار زیاد (و تجربه عملی خودم)، به نظر می‌رسد این است که مجموعه‌داده‌های فوق‌مقیاسی که به این مدل نیرو می‌دهند ممکن است حاوی کلیپ‌هایی باشند که در واقع حرکاتی را نشان می‌دهند که در جهت معکوس رخ می‌دهند.

سنگ موجود در ویدیوی مثال که در بالا جاسازی شده است با استفاده از Wan 2.1 تولید شده است، و در یک مطالعه جدید که بررسی می‌کند مدل‌های انتشار ویدیویی چقدر فیزیک را مدیریت می‌کنند، به نمایش درآمده است.

در آزمایش‌های این پروژه، Wan 2.1 تنها امتیاز ۲۲٪ را از نظر توانایی خود در پایبندی مداوم به قوانین فیزیکی به دست آورد.

با این حال، این بهترین امتیاز هر سیستمی است که برای این کار آزمایش شده است، که نشان می‌دهد ممکن است مانع بعدی خود را برای هوش مصنوعی ویدیویی پیدا کرده باشیم:

امتیازات کسب شده توسط سیستم‌های پیشرو منبع‌باز و بسته‌منبع، با خروجی چارچوب‌هایی که توسط حاشیه‌نویسان انسانی ارزیابی شده‌اند.
امتیازات کسب شده توسط سیستم‌های پیشرو منبع‌باز و بسته‌منبع، با خروجی چارچوب‌هایی که توسط حاشیه‌نویسان انسانی ارزیابی شده‌اند. منبع: https://arxiv.org/pdf/2503.06800

نویسندگان کار جدید یک سیستم محک‌زنی را توسعه داده‌اند، که اکنون در دومین تکرار خود قرار دارد، به نام VideoPhy، با کدی که در GitHub در دسترس است.

اگرچه دامنه این کار فراتر از آن چیزی است که ما بتوانیم به‌طور جامع در اینجا پوشش دهیم، اجازه دهید نگاهی کلی به روش‌شناسی آن و پتانسیل آن برای ایجاد یک معیار بیندازیم که بتواند به هدایت مسیر جلسات آموزش مدل آینده به دور از این نمونه‌های عجیب و غریب معکوس‌سازی کمک کند.

مطالعه، که توسط شش محقق از UCLA و Google Research انجام شده است، VideoPhy-2: یک ارزیابی دشوار حس مشترک فیزیکی عمل‌محور در تولید ویدیو نام دارد. یک سایت پروژه شلوغ نیز در دسترس است، همراه با کد و مجموعه‌داده‌ها در GitHub، و یک نمایشگر مجموعه‌داده در Hugging Face.

برای پخش کلیک کنید.در اینجا، مدل تحسین شده OpenAI Sora در درک تعاملات بین پاروها و انعکاس‌ها ناکام است و قادر به ارائه یک جریان فیزیکی منطقی برای فردی که در قایق است یا نحوه تعامل قایق با او نیست.

روش

نویسندگان آخرین نسخه از کار خود، VideoPhy-2، را به عنوان یک "مجموعه‌داده ارزیابی حس مشترک چالش‌برانگیز برای اقدامات دنیای واقعی" توصیف می‌کنند. این مجموعه شامل ۱۹۷ اقدام در طیف وسیعی از فعالیت‌های فیزیکی متنوع مانند حلقه‌زنی، ژیمناستیک و تنیس، و همچنین تعاملات شیئی مانند خم کردن یک شی تا زمانی که بشکند است.

یک مدل زبانی بزرگ (LLM) برای تولید ۳۸۴۰ اعلان از این اقدامات بذری استفاده می‌شود، و سپس از این اعلان‌ها برای سنتز ویدیوها از طریق چارچوب‌های مختلف مورد آزمایش استفاده می‌شود.

در طول این فرایند، نویسندگان فهرستی از قوانین و قوانین فیزیکی "کاندید" را توسعه داده‌اند که ویدیوهای تولید شده توسط هوش مصنوعی باید آن‌ها را برآورده کنند، با استفاده از مدل‌های بینایی-زبانی برای ارزیابی.

نویسندگان اظهار می‌کنند:

"به عنوان مثال، در یک ویدیوی ورزشکاری که تنیس بازی می‌کند، یک قانون فیزیکی این خواهد بود که یک توپ تنیس باید یک مسیر سهموی را تحت گرانش دنبال کند. برای قضاوت‌های استاندارد طلایی، ما از حاشیه‌نویسان انسانی می‌خواهیم که هر ویدیو را بر اساس پایبندی کلی به معنا و حس مشترک فیزیکی امتیازدهی کنند، و مطابقت آن را با قوانین فیزیکی مختلف علامت‌گذاری کنند."

بالا: یک اعلان متنی از یک اقدام با استفاده از یک LLM تولید می‌شود و برای ایجاد یک ویدیو با یک تولیدکننده متن به ویدیو استفاده می‌شود. یک مدل بینایی-زبانی از ویدیو زیرنویس می‌گیرد و قوانین فیزیکی احتمالی در حال اجرا را شناسایی می‌کند. پایین: حاشیه‌نویسان انسانی واقع‌گرایی ویدیو را ارزیابی می‌کنند، نقض قوانین را تأیید می‌کنند، قوانین از دست رفته را اضافه می‌کنند و بررسی می‌کنند که آیا ویدیو با اعلان اصلی مطابقت دارد یا خیر.

در ابتدا محققان مجموعه‌ای از اقدامات را برای ارزیابی حس مشترک فیزیکی در ویدیوهای تولید شده توسط هوش مصنوعی انتخاب کردند. آن‌ها با بیش از ۶۰۰ اقدام که از مجموعه‌داده‌های Kinetics، UCF-101 و Something-Something V2 گردآوری شده بود شروع کردند، اما در نهایت به ۱۹۷ مورد برای مجموعه‌داده خود بسنده کردند.

نویسندگان اظهار می‌کنند که این اقدامات بر اساس سه عامل تعیین شدند:

  1. بهترین نمایش حرکات قابل تشخیص به صورت بصری.
  2. دامنه تنوع در تعاملات بدنی.
  3. پوشش انواع "نقض حس مشترک" که در ویدیوهای تولید شده با هوش مصنوعی مشاهده می‌شود.

پس از انتخاب اقدامات مورد نظر، تیم با استفاده از یک مدل زبانی بزرگ، طیف وسیعی از اعلان‌های بالقوه را برای هر اقدام توسعه داد. برای مثال، برای اقدام "بستن پنجره"، اعلان‌های مختلف شامل:

"یک شخص پنجره را می‌بندد."

"زنی پنجره اتاق را می‌بندد."

"یک شخص به سمت پنجره خم می‌شود تا آن را ببندد."

این اعلان‌ها برای تولید خروجی‌های ویدیویی آزمایشی با سیستم‌های تولید ویدیویی مختلف از متن مورد استفاده قرار گرفتند، که برای بررسی و علامت‌گذاری توسط حاشیه‌نویسان انسانی و سیستم‌های ارزیابی مدل بینایی-زبانی (VLM) در مراحل بعدی در صف قرار گرفتند.