این مقاله بخشی از پوشش ما از آخرین تحولات در تحقیقات هوش مصنوعی است.
انسانها درکی ذاتی از نحوه کار جهان دارند. ما انتظار داریم توپی که رها میشود سقوط کند، اشیاء حتی زمانی که پنهان هستند به وجود خود ادامه دهند و اجسام جامد از درون یکدیگر عبور نکنند. این "فیزیک شهودی" برای شناخت ما اساسی است.
با این حال، بازآفرینی این حس مشترک در هوش مصنوعی همچنان یک چالش مهم است. اکنون، یک مطالعه جدید توسط محققان در متا هوش مصنوعی نشان میدهد که چگونه یک نوع خاص از مدل یادگیری عمیق میتواند با تماشای حجم عظیمی از دادههای ویدیویی بدون برچسب، درکی از فیزیک شهودی ایجاد کند.
این کار بینشهای ارزشمندی را در مورد ساخت مدلهای جهانی بهتر ارائه میدهد، که گامی مهم به سوی هوش مصنوعی تواناتر و چندمنظورهتر است.
فیزیک شهودی و چالش هوش مصنوعی
فیزیک شهودی درک اساسی ما از نحوه کار دنیای فیزیکی است. ما انتظار داریم اشیاء به طور قابل پیشبینی رفتار کنند - آنها به طور ناگهانی ظاهر یا ناپدید نمیشوند، از موانع جامد عبور نمیکنند یا به طور تصادفی شکل یا رنگ خود را تغییر نمیدهند. این درک در اوایل دوران کودکی در انسانها ایجاد میشود و حتی در بسیاری از گونههای حیوانی نیز وجود دارد.
علیرغم پیشرفتهای سریع در حل وظایف پیچیده مانند کدنویسی، ریاضیات و تولید زبان، سیستمهای هوش مصنوعی کنونی با استدلال فیزیکی مبتنی بر عقل سلیم مشکل دارند. این نشاندهنده یک شکاف مداوم است که اغلب به عنوان "پارادوکس موراویچ" شناخته میشود: وظایفی که برای موجودات زنده بیاهمیت هستند میتوانند برای هوش مصنوعی فوقالعاده دشوار باشند.
دو رویکرد اصلی برای القای درک فیزیکی به هوش مصنوعی وجود دارد. مدلهای ساختاریافته اغلب از نمایشهای کدگذاریشده دستی از اشیاء، ویژگیهای آنها و روابط آنها در یک فضای سه بعدی استفاده میکنند، اساساً یک "موتور بازی" را در ذهن هوش مصنوعی برای شبیهسازی فیزیک ایجاد میکنند. این تا حدودی با نظریههایی همسو است که نشان میدهند انسانها سیستمهای "دانش اصلی" ذاتی دارند. در طرف مقابل، مدلهای تولیدی مبتنی بر پیکسل قرار دارند. این سیستمها رویکرد کلیتری را در پیش میگیرند و با تلاش برای پیشبینی فریمهای ویدیویی آینده به طور مستقیم در سطح پیکسل بر اساس فریمهای گذشته، بدون هیچ ساختار از پیش تعریفشدهای در مورد اشیاء یا فیزیک، یاد میگیرند.
V-JEPA: یک نقطه میانی برای یادگیری فیزیک
مقاله متا هوش مصنوعی رویکرد سومی را بررسی میکند که یک نقطه میانی را پیدا میکند: معماریهای پیشبینی جاسازی مشترک (JEPAs). JEPA برای اولین بار در سال ۲۰۲۲ توسط یان لکون، دانشمند ارشد هوش مصنوعی متا (که یکی از نویسندگان مقاله جدید نیز هست) معرفی شد. ایده اصلی پشت JEPAs این است که پیشبینی حالات آینده جهان باید در یک نمایش انتزاعی و داخلی که توسط خود مدل آموخته شده است، اتفاق بیفتد، نه اینکه مستقیماً ویژگیهای سطح پایین را پیشبینی کند یا به ساختارهای کدگذاریشده دستی متکی باشد. برخلاف مدلهای ساختاریافته، JEPAs نمایشهای خود را از دادهها یاد میگیرند.
این مطالعه بر روی یک نسخه ویدیویی از این معماری متمرکز است که V-JEPA نامیده میشود. این مدل با تماشای ویدیوها و پیشبینی قسمتهای گمشده، درباره جهان یاد میگیرد. نکته مهم این است که V-JEPA به جای پیشبینی صحنهها در سطح پیکسل، در فضای نمایش انتزاعی آموختهشده خود کار میکند، مانند اینکه چگونه یک شیء باید با محیط و سایر اشیاء خود تعامل داشته باشد.
در یک سطح بالا، V-JEPA از دو جزء اصلی تشکیل شده است: یک رمزگذار (encoder) و یک پیشبینیکننده (predictor). رمزگذار یک ویدیو را تجزیه و تحلیل میکند و نمایشهای انتزاعی از محتوای آن را استخراج میکند. در طول آموزش، بخشهایی از ویدیوی ورودی به طور مصنوعی پوشانده میشوند (به عنوان مثال، بلوکهای تصادفی در فضا و زمان، یا فریمهای آینده). وظیفه پیشبینیکننده این است که نمایش این قسمتهای گمشده را بر اساس قسمتهای قابل مشاهده ارائه شده توسط رمزگذار پیشبینی کند.
از طریق این فرآیند، رمزگذار یاد میگیرد اطلاعات ضروری و قابل پیشبینی در مورد محتوا و پویاییهای ویدیو را ثبت کند، در حالی که جزئیات سطح پایین نامربوط را دور میاندازد.
مزیت اصلی این روش آموزشی این است که خود-نظارتشده است، به این معنی که نیازی به برچسبگذاری فریمهای ویدیو توسط انسان ندارد.
کاوش درک V-JEPA از جهان
هنگامی که V-JEPA بر روی مقادیر زیادی از دادههای ویدیویی آموزش داده میشود، میتوان از رمزگذار و پیشبینیکننده آموختهشده آن برای بررسی درک آن از فیزیک بدون هیچ آموزش یا تنظیم دقیقتری استفاده کرد.
محققان از روشی الهام گرفته از روانشناسی رشد به نام الگوی "نقض انتظار" استفاده کردند. در مطالعات نوزادان انسانی، محققان به نوزادان دو سناریو نشان میدهند: یکی از نظر فیزیکی معقول و دیگری غیرممکن (به عنوان مثال، شیئی که به ظاهر از یک دیوار جامد عبور میکند). افزایش زمان نگاه کردن به رویداد غیرممکن به عنوان "تعجب" تفسیر میشود، که نشان میدهد نوزاد اصل فیزیکی نقض شده را درک میکند.
به طور مشابه، به مدل هوش مصنوعی میتوان جفت ویدیو نشان داد - یکی از نظر فیزیکی ممکن و دیگری غیرممکن. همانطور که در مقاله آمده است: "با درخواست از مدل برای تصور (نمایش) آینده یک ویدیو و مقایسه پیشبینیهای آن با آینده مشاهدهشده واقعی ویدیو، یک معیار کمی از تعجب به دست میآوریم که میتواند برای تشخیص نقض مفاهیم فیزیک شهودی استفاده شود."
نمره تعجب بالاتر برای ویدیوی غیرممکن نشان میدهد که مدل اصل فیزیکی مربوطه را یاد گرفته است.
عملکرد V-JEPA در مقایسه با سایر مدلها چگونه است
محققان درک فیزیک شهودی V-JEPA را با استفاده از سه مجموعه داده معیار آزمایش کردند که شامل ویدیوهایی برای آزمایش مفاهیم خاصی مانند بقای شیء (اشیاء وقتی پنهان هستند به وجود خود ادامه میدهند)، پیوستگی (اشیاء در امتداد مسیرهای متصل حرکت میکنند)، ثبات شکل و رنگ، استحکام (اشیاء از درون یکدیگر عبور نمیکنند)، گرانش، پشتیبانی و لختی طراحی شدهاند.
آنها V-JEPA را با سایر کلاسهای مدل مقایسه کردند: یک مدل پیشبینی پیکسل (VideoMAEv2) و مدلهای زبانی بزرگ چندوجهی (MLLMها مانند Qwen2-VL و Gemini 1.5 pro) که از طریق متن درباره ویدیوها استدلال میکنند.
نتایج خیرهکننده بود. V-JEPA به طور مداوم و دقیق بین ویدیوهای معقول و نامعقول از نظر فیزیکی در تمام مجموعه دادهها تمایز قائل شد و به دقت بالایی دست یافت (به عنوان مثال، ۹۸٪ در IntPhys). در مقابل، هم مدل پیشبینی پیکسل و هم MLLMها بسیار نزدیکتر به شانس تصادفی عمل کردند.
نویسندگان نتیجه میگیرند: "این نتایج نشان میدهد که پیشبینی در یک فضای نمایش آموختهشده برای ایجاد درک از فیزیک شهودی کافی است." "این کار بدون هیچ گونه انتزاع از پیش تعریفشده و بدون دانش از معیارها در طول پیشآموزش یا توسعه روش انجام میشود."
محققان تأکید میکنند که این یافتهها "به این معنا نیست که LLMها یا مدلهای پیشبینی پیکسل نمیتوانند به درک فیزیک شهودی دست یابند، بلکه صرفاً به این معناست که این وظیفه به ظاهر ساده حتی برای مدلهای پیشرو نیز دشوار است."
چرا V-JEPA موفق میشود
این مطالعه به بررسی این موضوع میپردازد که چگونه انتخابهای مختلف طراحی بر درک V-JEPA از فیزیک شهودی تأثیر میگذارد.
محققان دریافتند که استراتژی خاص پوشاندن در طول آموزش مهمترین عامل نیست. حتی پوشاندن تصادفی ساده نیز به طور منطقی خوب عمل کرد. به نظر میرسد عنصر اصلی انجام وظیفه پیشبینی در یک فضای نمایش انتزاعی است، نه پیشبینی پیکسلهای خام.
از نظر داده، نوع دادههای ویدیویی مورد استفاده برای آموزش مهم است. مدلهایی که روی مجموعههای دادهای متمرکز شدهاند که عمدتاً بر حرکت تمرکز دارند، عملکرد ضعیفی داشتند. آموزش بر روی مجموعههای دادهای متمرکز بر عمل، نتایجی بالاتر از شانس را به دست داد. بهترین عملکرد از آموزش بر روی ویدیوهای آموزشی به دست آمد، حتی زمانی که تنها از بخش کوچکی (به عنوان مثال، ۱۲۸ ساعت ویدیوی منحصربهفرد، معادل حدود یک هفته) از مجموعه داده کامل استفاده شود.
اندازه مدل نیز مهم بود و همانطور که در یادگیری عمیق رایج است، مدلهای بزرگتر عموماً عملکرد بهتری داشتند. با این حال، توانایی یادگیری فیزیک شهودی منحصراً به مدلهای عظیم نبود. یک مدل نسبتاً کوچک V-JEPA (۱۱۵ میلیون پارامتر) همچنان به دقت چشمگیری (بیش از ۸۵٪) دست یافت که نشاندهنده استحکام این رویکرد است.
محدودیتها و مسیر پیش رو
V-JEPA علیرغم موفقیت خود، بینقص نیست. این مدل با مفاهیم فیزیکی که نیاز به درک یک رویداد زمینهای خاص دارند که قبلاً نشان داده شده است (مانند دانستن اینکه آیا یک ظرف دارای ته کاذب است قبل از دیدن افتادن یک شیء در آن) یا مدلسازی تعاملات دقیق مانند برخوردها مشکل دارد. مدلهای فعلی همچنین فاقد توانایی شرطی کردن پیشبینیهای خود بر عوامل خارجی مانند یک عمل در حال انجام هستند. آنها آینده را صرفاً به عنوان ناظران منفعل پیشبینی میکنند.
تحقیقات آینده میتواند به بررسی آموزش این مدلها بر روی دادههای ویدیویی که به طور خاص تنظیم شدهاند تا آنچه را که نوزادان انسان میبینند تقلید کنند، بپردازد، که به طور بالقوه نوری بر چگونگی شکلگیری درک فیزیکی توسط تجربیات بصری اولیه میتاباند.
محققان نسبت به این رویکرد خوشبین هستند و مینویسند: "ما معتقدیم که چارچوب پیشبینی نهفته مسیری رو به جلو برای ساخت شبکههای عصبی است که دنیای فیزیکی را درک میکنند."