تصویر ایجاد شده با Ideogram
تصویر ایجاد شده با Ideogram

چگونه هوش مصنوعی فیزیک شهودی را از تماشای ویدیوها می‌آموزد

این مقاله بخشی از پوشش ما از آخرین تحولات در تحقیقات هوش مصنوعی است.

انسان‌ها درکی ذاتی از نحوه کار جهان دارند. ما انتظار داریم توپی که رها می‌شود سقوط کند، اشیاء حتی زمانی که پنهان هستند به وجود خود ادامه دهند و اجسام جامد از درون یکدیگر عبور نکنند. این "فیزیک شهودی" برای شناخت ما اساسی است.

با این حال، بازآفرینی این حس مشترک در هوش مصنوعی همچنان یک چالش مهم است. اکنون، یک مطالعه جدید توسط محققان در متا هوش مصنوعی نشان می‌دهد که چگونه یک نوع خاص از مدل یادگیری عمیق می‌تواند با تماشای حجم عظیمی از داده‌های ویدیویی بدون برچسب، درکی از فیزیک شهودی ایجاد کند.

این کار بینش‌های ارزشمندی را در مورد ساخت مدل‌های جهانی بهتر ارائه می‌دهد، که گامی مهم به سوی هوش مصنوعی تواناتر و چندمنظوره‌تر است.

فیزیک شهودی و چالش هوش مصنوعی

فیزیک شهودی درک اساسی ما از نحوه کار دنیای فیزیکی است. ما انتظار داریم اشیاء به طور قابل پیش‌بینی رفتار کنند - آنها به طور ناگهانی ظاهر یا ناپدید نمی‌شوند، از موانع جامد عبور نمی‌کنند یا به طور تصادفی شکل یا رنگ خود را تغییر نمی‌دهند. این درک در اوایل دوران کودکی در انسان‌ها ایجاد می‌شود و حتی در بسیاری از گونه‌های حیوانی نیز وجود دارد.

علیرغم پیشرفت‌های سریع در حل وظایف پیچیده مانند کدنویسی، ریاضیات و تولید زبان، سیستم‌های هوش مصنوعی کنونی با استدلال فیزیکی مبتنی بر عقل سلیم مشکل دارند. این نشان‌دهنده یک شکاف مداوم است که اغلب به عنوان "پارادوکس موراویچ" شناخته می‌شود: وظایفی که برای موجودات زنده بی‌اهمیت هستند می‌توانند برای هوش مصنوعی فوق‌العاده دشوار باشند.

دو رویکرد اصلی برای القای درک فیزیکی به هوش مصنوعی وجود دارد. مدل‌های ساختاریافته اغلب از نمایش‌های کدگذاری‌شده دستی از اشیاء، ویژگی‌های آنها و روابط آنها در یک فضای سه بعدی استفاده می‌کنند، اساساً یک "موتور بازی" را در ذهن هوش مصنوعی برای شبیه‌سازی فیزیک ایجاد می‌کنند. این تا حدودی با نظریه‌هایی همسو است که نشان می‌دهند انسان‌ها سیستم‌های "دانش اصلی" ذاتی دارند. در طرف مقابل، مدل‌های تولیدی مبتنی بر پیکسل قرار دارند. این سیستم‌ها رویکرد کلی‌تری را در پیش می‌گیرند و با تلاش برای پیش‌بینی فریم‌های ویدیویی آینده به طور مستقیم در سطح پیکسل بر اساس فریم‌های گذشته، بدون هیچ ساختار از پیش تعریف‌شده‌ای در مورد اشیاء یا فیزیک، یاد می‌گیرند.

V-JEPA: یک نقطه میانی برای یادگیری فیزیک

مقاله متا هوش مصنوعی رویکرد سومی را بررسی می‌کند که یک نقطه میانی را پیدا می‌کند: معماری‌های پیش‌بینی جاسازی مشترک (JEPAs). JEPA برای اولین بار در سال ۲۰۲۲ توسط یان لکون، دانشمند ارشد هوش مصنوعی متا (که یکی از نویسندگان مقاله جدید نیز هست) معرفی شد. ایده اصلی پشت JEPAs این است که پیش‌بینی حالات آینده جهان باید در یک نمایش انتزاعی و داخلی که توسط خود مدل آموخته شده است، اتفاق بیفتد، نه اینکه مستقیماً ویژگی‌های سطح پایین را پیش‌بینی کند یا به ساختارهای کدگذاری‌شده دستی متکی باشد. برخلاف مدل‌های ساختاریافته، JEPAs نمایش‌های خود را از داده‌ها یاد می‌گیرند.

این مطالعه بر روی یک نسخه ویدیویی از این معماری متمرکز است که V-JEPA نامیده می‌شود. این مدل با تماشای ویدیوها و پیش‌بینی قسمت‌های گمشده، درباره جهان یاد می‌گیرد. نکته مهم این است که V-JEPA به جای پیش‌بینی صحنه‌ها در سطح پیکسل، در فضای نمایش انتزاعی آموخته‌شده خود کار می‌کند، مانند اینکه چگونه یک شیء باید با محیط و سایر اشیاء خود تعامل داشته باشد.

V-JEPA
معماری V-JEPA (منبع: arXiv)

در یک سطح بالا، V-JEPA از دو جزء اصلی تشکیل شده است: یک رمزگذار (encoder) و یک پیش‌بینی‌کننده (predictor). رمزگذار یک ویدیو را تجزیه و تحلیل می‌کند و نمایش‌های انتزاعی از محتوای آن را استخراج می‌کند. در طول آموزش، بخش‌هایی از ویدیوی ورودی به طور مصنوعی پوشانده می‌شوند (به عنوان مثال، بلوک‌های تصادفی در فضا و زمان، یا فریم‌های آینده). وظیفه پیش‌بینی‌کننده این است که نمایش این قسمت‌های گمشده را بر اساس قسمت‌های قابل مشاهده ارائه شده توسط رمزگذار پیش‌بینی کند.

از طریق این فرآیند، رمزگذار یاد می‌گیرد اطلاعات ضروری و قابل پیش‌بینی در مورد محتوا و پویایی‌های ویدیو را ثبت کند، در حالی که جزئیات سطح پایین نامربوط را دور می‌اندازد.

مزیت اصلی این روش آموزشی این است که خود-نظارت‌شده است، به این معنی که نیازی به برچسب‌گذاری فریم‌های ویدیو توسط انسان ندارد.

کاوش درک V-JEPA از جهان

هنگامی که V-JEPA بر روی مقادیر زیادی از داده‌های ویدیویی آموزش داده می‌شود، می‌توان از رمزگذار و پیش‌بینی‌کننده آموخته‌شده آن برای بررسی درک آن از فیزیک بدون هیچ آموزش یا تنظیم دقیق‌تری استفاده کرد.

محققان از روشی الهام گرفته از روانشناسی رشد به نام الگوی "نقض انتظار" استفاده کردند. در مطالعات نوزادان انسانی، محققان به نوزادان دو سناریو نشان می‌دهند: یکی از نظر فیزیکی معقول و دیگری غیرممکن (به عنوان مثال، شیئی که به ظاهر از یک دیوار جامد عبور می‌کند). افزایش زمان نگاه کردن به رویداد غیرممکن به عنوان "تعجب" تفسیر می‌شود، که نشان می‌دهد نوزاد اصل فیزیکی نقض شده را درک می‌کند.

نقض انتظار V-JEPA

به طور مشابه، به مدل هوش مصنوعی می‌توان جفت ویدیو نشان داد - یکی از نظر فیزیکی ممکن و دیگری غیرممکن. همانطور که در مقاله آمده است: "با درخواست از مدل برای تصور (نمایش) آینده یک ویدیو و مقایسه پیش‌بینی‌های آن با آینده مشاهده‌شده واقعی ویدیو، یک معیار کمی از تعجب به دست می‌آوریم که می‌تواند برای تشخیص نقض مفاهیم فیزیک شهودی استفاده شود."

نمره تعجب بالاتر برای ویدیوی غیرممکن نشان می‌دهد که مدل اصل فیزیکی مربوطه را یاد گرفته است.

عملکرد V-JEPA در مقایسه با سایر مدل‌ها چگونه است

محققان درک فیزیک شهودی V-JEPA را با استفاده از سه مجموعه داده معیار آزمایش کردند که شامل ویدیوهایی برای آزمایش مفاهیم خاصی مانند بقای شیء (اشیاء وقتی پنهان هستند به وجود خود ادامه می‌دهند)، پیوستگی (اشیاء در امتداد مسیرهای متصل حرکت می‌کنند)، ثبات شکل و رنگ، استحکام (اشیاء از درون یکدیگر عبور نمی‌کنند)، گرانش، پشتیبانی و لختی طراحی شده‌اند.

آنها V-JEPA را با سایر کلاس‌های مدل مقایسه کردند: یک مدل پیش‌بینی پیکسل (VideoMAEv2) و مدل‌های زبانی بزرگ چندوجهی (MLLMها مانند Qwen2-VL و Gemini 1.5 pro) که از طریق متن درباره ویدیوها استدلال می‌کنند.

نتایج خیره‌کننده بود. V-JEPA به طور مداوم و دقیق بین ویدیوهای معقول و نامعقول از نظر فیزیکی در تمام مجموعه داده‌ها تمایز قائل شد و به دقت بالایی دست یافت (به عنوان مثال، ۹۸٪ در IntPhys). در مقابل، هم مدل پیش‌بینی پیکسل و هم MLLMها بسیار نزدیک‌تر به شانس تصادفی عمل کردند.

نویسندگان نتیجه می‌گیرند: "این نتایج نشان می‌دهد که پیش‌بینی در یک فضای نمایش آموخته‌شده برای ایجاد درک از فیزیک شهودی کافی است." "این کار بدون هیچ گونه انتزاع از پیش تعریف‌شده و بدون دانش از معیارها در طول پیش‌آموزش یا توسعه روش انجام می‌شود."

محققان تأکید می‌کنند که این یافته‌ها "به این معنا نیست که LLMها یا مدل‌های پیش‌بینی پیکسل نمی‌توانند به درک فیزیک شهودی دست یابند، بلکه صرفاً به این معناست که این وظیفه به ظاهر ساده حتی برای مدل‌های پیشرو نیز دشوار است."

چرا V-JEPA موفق می‌شود

این مطالعه به بررسی این موضوع می‌پردازد که چگونه انتخاب‌های مختلف طراحی بر درک V-JEPA از فیزیک شهودی تأثیر می‌گذارد.

محققان دریافتند که استراتژی خاص پوشاندن در طول آموزش مهم‌ترین عامل نیست. حتی پوشاندن تصادفی ساده نیز به طور منطقی خوب عمل کرد. به نظر می‌رسد عنصر اصلی انجام وظیفه پیش‌بینی در یک فضای نمایش انتزاعی است، نه پیش‌بینی پیکسل‌های خام.

از نظر داده، نوع داده‌های ویدیویی مورد استفاده برای آموزش مهم است. مدل‌هایی که روی مجموعه‌های داده‌ای متمرکز شده‌اند که عمدتاً بر حرکت تمرکز دارند، عملکرد ضعیفی داشتند. آموزش بر روی مجموعه‌های داده‌ای متمرکز بر عمل، نتایجی بالاتر از شانس را به دست داد. بهترین عملکرد از آموزش بر روی ویدیوهای آموزشی به دست آمد، حتی زمانی که تنها از بخش کوچکی (به عنوان مثال، ۱۲۸ ساعت ویدیوی منحصربه‌فرد، معادل حدود یک هفته) از مجموعه داده کامل استفاده شود.

اندازه مدل نیز مهم بود و همانطور که در یادگیری عمیق رایج است، مدل‌های بزرگتر عموماً عملکرد بهتری داشتند. با این حال، توانایی یادگیری فیزیک شهودی منحصراً به مدل‌های عظیم نبود. یک مدل نسبتاً کوچک V-JEPA (۱۱۵ میلیون پارامتر) همچنان به دقت چشمگیری (بیش از ۸۵٪) دست یافت که نشان‌دهنده استحکام این رویکرد است.

محدودیت‌ها و مسیر پیش رو

V-JEPA علیرغم موفقیت خود، بی‌نقص نیست. این مدل با مفاهیم فیزیکی که نیاز به درک یک رویداد زمینه‌ای خاص دارند که قبلاً نشان داده شده است (مانند دانستن اینکه آیا یک ظرف دارای ته کاذب است قبل از دیدن افتادن یک شیء در آن) یا مدل‌سازی تعاملات دقیق مانند برخوردها مشکل دارد. مدل‌های فعلی همچنین فاقد توانایی شرطی کردن پیش‌بینی‌های خود بر عوامل خارجی مانند یک عمل در حال انجام هستند. آنها آینده را صرفاً به عنوان ناظران منفعل پیش‌بینی می‌کنند.

تحقیقات آینده می‌تواند به بررسی آموزش این مدل‌ها بر روی داده‌های ویدیویی که به طور خاص تنظیم شده‌اند تا آنچه را که نوزادان انسان می‌بینند تقلید کنند، بپردازد، که به طور بالقوه نوری بر چگونگی شکل‌گیری درک فیزیکی توسط تجربیات بصری اولیه می‌تاباند.

محققان نسبت به این رویکرد خوش‌بین هستند و می‌نویسند: "ما معتقدیم که چارچوب پیش‌بینی نهفته مسیری رو به جلو برای ساخت شبکه‌های عصبی است که دنیای فیزیکی را درک می‌کنند."