روبات‌ها با استفاده از هوش مصنوعی Gemini گوگل، اوریگامی را از دستورالعمل‌های ساده تا می‌کنند

Gemini Robotics به پر کردن شکاف نرم‌افزاری-سخت‌افزاری کمک می‌کند

نمایی از یک ربات که در حال تا کردن اوریگامی با استفاده از هوش مصنوعی Gemini است
ربات ALOHA 2 در حال تا کردن اوریگامی
ALOHA 2 در حال تا کردن اوریگامی

تصویر بزرگ: در حالی که شرکت‌ها به بهبود سخت‌افزار رباتیک ادامه می‌دهند، توسعه نرم‌افزار هوش مصنوعی برای زنده کردن واقعی این ماشین‌ها، هدفی دست نیافتنی باقی مانده است. این امر به ویژه با توجه به پیشرفت‌های چشمگیر در مدل‌های زبانی "هوشمند" ناامید کننده است. اکنون، آزمایشگاه تحقیقات هوش مصنوعی گوگل به پر کردن این شکاف نزدیک‌تر از همیشه شده است.

دیپ‌مایند (DeepMind) از Gemini Robotics، تکامل مدل زبانی قدرتمند Gemini 2.0 خود، رونمایی کرده است که می‌تواند قابلیت‌های جدیدی را برای روبات‌ها باز کند.

هدف Gemini Robotics ایجاد یک سیستم هوش مصنوعی تعمیم یافته است که قادر به کنترل مستقیم ربات‌ها و کمک به آنها برای تسلط بر سه گانه انعطاف‌پذیری، تعامل و مهارت است. نتیجه می‌تواند ربات‌هایی باشد که با موقعیت‌های جدید سازگار می‌شوند، به طور طبیعی به انسان‌ها و محیط آنها پاسخ می‌دهند و وظایف فیزیکی پیچیده را انجام می‌دهند.

و آنها در حال پیشرفت پیوسته هستند. فقط این ویدیو از ALOHA 2، یک ربات دو بازویی از دیپ‌مایند را بررسی کنید که مهارت‌های خود را به نمایش می‌گذارد. نه تنها می‌تواند یک شکل اوریگامی را به دقت تا کند، بلکه می‌تواند در مواقعی که اوضاع طبق برنامه پیش نمی‌رود نیز بداهه‌پردازی کند - مانند زمانی که محقق ظرفی را که قرار بود میوه در آن قرار دهد، جابجا کرد.

بهترین بخش این است که این کار را با دستورالعمل‌های ساده‌ای مانند "یک روباه اوریگامی تا کنید" انجام می‌دهد. محققان مجبور نبودند این توانایی را به صورت دستی برنامه ریزی کنند - ربات به سادگی از درک خود از اوریگامی و نحوه تا کردن کاغذ برای تکمیل کار استفاده کرد.

البته، اوریگامی فقط آغاز کار است. دیپ‌مایند ادعا می‌کند که Gemini Robotics نشان دهنده یک جهش قابل توجه در هر سه توانایی کلیدی رباتیک در مقایسه با کار قبلی آنها است. مدل هوش مصنوعی عملکرد خود را در معیارهای وظیفه عمومی در مقایسه با سایر سیستم‌های پیشرفته بیش از دو برابر کرده است.

این به چه معناست؟ Gemini Robotics می‌تواند نسل جدیدی از ربات‌ها را به وجود آورد که قادر به تعمیم و انطباق با موقعیت‌های غیرقابل پیش‌بینی دنیای واقعی بدون نیاز به آموزش متناسب با هر سناریو هستند. این تطبیق‌پذیری برای توسعه ربات‌های واقعاً مفید و چندمنظوره در آینده ضروری است.

برای تحقق این پتانسیل، گوگل همچنین با شرکتی به نام Apptronik همکاری می‌کند. Apptronik با ساخت ربات‌های انسان‌نمای نسل بعدی که توسط Gemini تغذیه می‌شوند، سخت‌افزار را مدیریت خواهد کرد.

البته انتظار نداشته باشید که به این زودی‌ها یک پیشخدمت ربات Gemini استخدام کنید. در حال حاضر، دیپ‌مایند این پروژه را در حالت تحقیقاتی نگه می‌دارد و یک سیستم "Gemini Robotics-ER" را منتشر می‌کند که به "آزمایش‌کنندگان مورد اعتماد" مانند Boston Dynamics اجازه می‌دهد تا به قابلیت‌های استدلال هوش مصنوعی برای پروژه‌های خود دسترسی داشته باشند. "ER" مخفف استدلال تجسم یافته است.

آزمایش‌کنندگان مورد اعتماد می‌توانند شرکت‌هایی مانند Boston Dynamics، Agility Robotics و Enchanted Tools را شامل شوند.

البته، ربات‌های دنیای واقعی که توسط هوش مصنوعی پیشرفته تغذیه می‌شوند، نگرانی‌های ایمنی مهمی را ایجاد می‌کنند. دیپ‌مایند می‌گوید که از قوانین رباتیک آسیموف الهام گرفته و یک رویکرد "جامع" را در پیش گرفته است و در حال توسعه استانداردهای ارزیابی از طریق مجموعه داده جدید "ASIMOV" است. هدف این است که آزمایش شود که آیا مدل‌های هوش مصنوعی پیامدهای گسترده‌تر اقدامات رباتیک را فراتر از آسیب فیزیکی درک می‌کنند یا خیر.