گوگل دیپمایند دو مدل هوش مصنوعی جدید توسعه داده است که نحوه تعامل رباتها با دنیای فیزیکی را بهبود میبخشد. هر دو سیستم بر پایه قابلیتهای جمینی ۲.۰ (Gemini 2.0) ساخته شدهاند.
مدل اول، جمینی رباتیک (Gemini Robotics)، به عنوان یک مدل پیشرفته دید-زبانی-کنش (Vision-Language-Action یا VLA) طراحی شده است که به طور خاص برای کنترل مستقیم رباتها به کار میرود. این مدل که بر اساس بنیاد جمینی ۲.۰ ساخته شده، دستورات زبان طبیعی را به چندین زبان پردازش و به آنها پاسخ میدهد.
این سیستم شکاف بین قابلیتهای هوش مصنوعی دیجیتال و تعاملات دنیای فیزیکی را پر میکند. در آزمایشها، جمینی رباتیک نشان داد که میتواند موقعیتها، اشیاء و محیطهای کاملاً ناآشنا را که در دادههای آموزشی آن گنجانده نشدهاند، مدیریت کند.
این سیستم به طور مداوم محیط خود را نظارت میکند و هنگام بروز چالشها، تنظیمات فوری را انجام میدهد - خواه شیئی از دستش لیز بخورد یا کسی وسایل موجود در فضای کاری آن را مرتب کند. گوگل دیپمایند گزارش میدهد که جمینی رباتیک در آزمایشهای رودررو در برابر مدلهای پیشرو، عملکرد آنها را در وظایف تعمیم دو برابر کرده است. این سیستم کنترل پیچیده را از طریق وظایف پیچیدهای مانند تا کردن اوریگامی و بستهبندی میان وعدهها در کیسههای زیپلاک نشان میدهد.
در حالی که این سیستم بیشتر مهارتهای خود را در پلتفرم ربات ALOHA 2 دو بازویی آموخته است، میتواند انواع مختلف رباتها، از جمله سیستمهای بازوی فرانکا (Franka arm systems) را که معمولاً در آزمایشگاههای تحقیقاتی دانشگاهی استفاده میشوند، کنترل کند.
پیشبرد قابلیتهای استدلال فضایی
مدل دوم، جمینی رباتیک-ایآر (Gemini Robotics-ER)، این قابلیتها را با درک فضایی پیشرفته افزایش میدهد. این مدل آگاهی فضایی را با مهارتهای برنامهنویسی ترکیب میکند تا عملکردهای جدیدی را در زمان واقعی ایجاد کند. به عنوان مثال، هنگام مواجهه با یک لیوان قهوه، سیستم میتواند به طور دقیق محاسبه کند که چگونه دسته را با دو انگشت بگیرد و امنترین مسیر نزدیک شدن را تعیین کند. گوگل دیپمایند گزارش میدهد که رباتیک-ایآر دو تا سه برابر بیشتر از جمینی ۲.۰ استاندارد در انجام وظایف کنترل ربات موفق است.
گوگل دیپمایند برای تنظیم رفتار ربات، چارچوبی را با استفاده از "قانون اساسی" داده محور - مجموعهای از قوانین که به زبان ساده نوشته شدهاند - توسعه داده است. این شرکت همچنین مجموعه داده ASIMOV را منتشر کرد تا به محققان کمک کند ایمنی اقدامات رباتیک را در موقعیتهای واقعی ارزیابی کنند.
این توسعه شامل چندین مشارکت کلیدی است: اپترونیک (Apptronik) تخصص خود را در رباتهای انساننما ارائه میدهد، در حالی که بوستون دینامیکس (Boston Dynamics) و اجیلیتی رباتز (Agility Robots) به عنوان شرکای آزمایشی برای جمینی رباتیک-ایآر فعالیت میکنند.
خلاصه
- گوگل دیپمایند دو مدل هوش مصنوعی را معرفی کرده است که هدف آنها افزایش توانایی رباتها در تعامل با محیط اطراف و انطباق با آن است، که هر دو از مدل زبانی جمینی ۲.۰ برای درک زبان طبیعی و اجرای دستورالعملها استفاده میکنند.
- مدل اول، جمینی رباتیک، به طور مداوم محیط خود را نظارت میکند و انعطافپذیری در پاسخ به تغییرات، مانند حرکت اشیاء یا لغزش از دست، را نشان میدهد.
- مدل دوم، جمینی رباتیک-ایآر، بر اساس مدل اول ساخته شده و قابلیتهای استدلال فضایی پیشرفته و توانایی ابداع مستقلانه اقدامات جدید بر اساس موقعیت موجود را در خود جای داده است.
منبع: گوگل دیپمایند