گوگل
گوگل

رونمایی گوگل دیپ‌مایند از مدل‌های جدید هوش مصنوعی برای کنترل رباتیک

گوگل دیپ‌مایند دو مدل هوش مصنوعی جدید توسعه داده است که نحوه تعامل ربات‌ها با دنیای فیزیکی را بهبود می‌بخشد. هر دو سیستم بر پایه قابلیت‌های جمینی ۲.۰ (Gemini 2.0) ساخته شده‌اند.

مدل اول، جمینی رباتیک (Gemini Robotics)، به عنوان یک مدل پیشرفته دید-زبانی-کنش (Vision-Language-Action یا VLA) طراحی شده است که به طور خاص برای کنترل مستقیم ربات‌ها به کار می‌رود. این مدل که بر اساس بنیاد جمینی ۲.۰ ساخته شده، دستورات زبان طبیعی را به چندین زبان پردازش و به آن‌ها پاسخ می‌دهد.

این سیستم شکاف بین قابلیت‌های هوش مصنوعی دیجیتال و تعاملات دنیای فیزیکی را پر می‌کند. در آزمایش‌ها، جمینی رباتیک نشان داد که می‌تواند موقعیت‌ها، اشیاء و محیط‌های کاملاً ناآشنا را که در داده‌های آموزشی آن گنجانده نشده‌اند، مدیریت کند.

این سیستم به طور مداوم محیط خود را نظارت می‌کند و هنگام بروز چالش‌ها، تنظیمات فوری را انجام می‌دهد - خواه شیئی از دستش لیز بخورد یا کسی وسایل موجود در فضای کاری آن را مرتب کند. گوگل دیپ‌مایند گزارش می‌دهد که جمینی رباتیک در آزمایش‌های رودررو در برابر مدل‌های پیشرو، عملکرد آن‌ها را در وظایف تعمیم دو برابر کرده است. این سیستم کنترل پیچیده را از طریق وظایف پیچیده‌ای مانند تا کردن اوریگامی و بسته‌بندی میان وعده‌ها در کیسه‌های زیپ‌لاک نشان می‌دهد.

در حالی که این سیستم بیشتر مهارت‌های خود را در پلتفرم ربات ALOHA 2 دو بازویی آموخته است، می‌تواند انواع مختلف ربات‌ها، از جمله سیستم‌های بازوی فرانکا (Franka arm systems) را که معمولاً در آزمایشگاه‌های تحقیقاتی دانشگاهی استفاده می‌شوند، کنترل کند.

پیشبرد قابلیت‌های استدلال فضایی

مدل دوم، جمینی رباتیک-ای‌آر (Gemini Robotics-ER)، این قابلیت‌ها را با درک فضایی پیشرفته افزایش می‌دهد. این مدل آگاهی فضایی را با مهارت‌های برنامه‌نویسی ترکیب می‌کند تا عملکردهای جدیدی را در زمان واقعی ایجاد کند. به عنوان مثال، هنگام مواجهه با یک لیوان قهوه، سیستم می‌تواند به طور دقیق محاسبه کند که چگونه دسته را با دو انگشت بگیرد و امن‌ترین مسیر نزدیک شدن را تعیین کند. گوگل دیپ‌مایند گزارش می‌دهد که رباتیک-ای‌آر دو تا سه برابر بیشتر از جمینی ۲.۰ استاندارد در انجام وظایف کنترل ربات موفق است.

گوگل دیپ‌مایند برای تنظیم رفتار ربات، چارچوبی را با استفاده از "قانون اساسی" داده محور - مجموعه‌ای از قوانین که به زبان ساده نوشته شده‌اند - توسعه داده است. این شرکت همچنین مجموعه داده ASIMOV را منتشر کرد تا به محققان کمک کند ایمنی اقدامات رباتیک را در موقعیت‌های واقعی ارزیابی کنند.

این توسعه شامل چندین مشارکت کلیدی است: اپترونیک (Apptronik) تخصص خود را در ربات‌های انسان‌نما ارائه می‌دهد، در حالی که بوستون دینامیکس (Boston Dynamics) و اجیلیتی رباتز (Agility Robots) به عنوان شرکای آزمایشی برای جمینی رباتیک-ای‌آر فعالیت می‌کنند.

خلاصه

  • گوگل دیپ‌مایند دو مدل هوش مصنوعی را معرفی کرده است که هدف آن‌ها افزایش توانایی ربات‌ها در تعامل با محیط اطراف و انطباق با آن است، که هر دو از مدل زبانی جمینی ۲.۰ برای درک زبان طبیعی و اجرای دستورالعمل‌ها استفاده می‌کنند.
  • مدل اول، جمینی رباتیک، به طور مداوم محیط خود را نظارت می‌کند و انعطاف‌پذیری در پاسخ به تغییرات، مانند حرکت اشیاء یا لغزش از دست، را نشان می‌دهد.
  • مدل دوم، جمینی رباتیک-ای‌آر، بر اساس مدل اول ساخته شده و قابلیت‌های استدلال فضایی پیشرفته و توانایی ابداع مستقلانه اقدامات جدید بر اساس موقعیت موجود را در خود جای داده است.

منبع: گوگل دیپ‌مایند