مدل هوش مصنوعی رباتیک جمینی گوگل به دنیای فیزیکی وارد میشود
در داستانهای علمی-تخیلی، هوش مصنوعی اغلب به انواع رباتهای باهوش، توانمند و گهگاه آدمکش نیرو میبخشد. یک محدودیت آشکار در بهترین هوش مصنوعی امروزی این است که، در حال حاضر، مستقیماً در داخل پنجره چت گیر کرده است.
گوگل دیپمایند امروز برنامهای را برای تغییر این وضعیت اعلام کرد - احتمالاً منهای بخش آدمکش - با اعلام نسخه جدیدی از مدل هوش مصنوعی خود به نام جمینی (Gemini) که زبان، بینایی و عملکرد فیزیکی را با هم ترکیب میکند تا به طیف وسیعتری از رباتهای توانمندتر، سازگارتر و بالقوه مفیدتر نیرو دهد.
در یک سری ویدیوهای نمایشی، این شرکت چندین ربات مجهز به مدل جدید را نشان داد که با نام جمینی رباتیکز (Gemini Robotics) شناخته میشود و اشیاء را در پاسخ به دستورات گفتاری دستکاری میکنند: بازوهای رباتیک کاغذ را تا میکنند، سبزیجات را تحویل میدهند، به آرامی یک عینک را در جعبه قرار میدهند و وظایف دیگری را انجام میدهند. رباتها برای اتصال اشیاء قابل مشاهده با اقدامات احتمالی به مدل جدید متکی هستند تا کاری را که به آنها گفته میشود انجام دهند. این مدل به گونهای آموزش داده شده است که رفتار را میتوان در سختافزارهای بسیار متفاوت تعمیم داد.
گوگل دیپمایند همچنین نسخهای از مدل خود را با نام جمینی رباتیکز-ایآر (Gemini Robotics-ER) (مخفف استدلال تجسمیافته) معرفی کرد که فقط درک بصری و فضایی دارد. ایده این است که سایر محققان ربات از این مدل برای آموزش مدلهای خود برای کنترل اقدامات رباتها استفاده کنند.
در یک ویدیوی نمایشی، محققان گوگل دیپمایند از این مدل برای کنترل یک ربات انساننما به نام آپولو (Apollo) از استارتآپ اپترونیک (Apptronik) استفاده کردند. این ربات با یک انسان گفتگو میکند و حروف را در اطراف یک میز به هنگام دستور حرکت میدهد.
کانشکا رائو (Kanishka Rao)، محقق رباتیک در گوگل دیپمایند که این کار را رهبری میکرد، در یک جلسه توجیهی پیش از اعلام امروز گفت: «ما توانستهایم درک جهانی - درک مفهوم کلی - از جمینی 2.0 را به رباتیک بیاوریم.»
گوگل دیپمایند میگوید که مدل جدید قادر است رباتهای مختلف را با موفقیت در صدها سناریوی خاص که قبلاً در آموزش آنها گنجانده نشده بود، کنترل کند. رائو گفت: «هنگامی که مدل ربات درک مفهوم کلی داشته باشد، بسیار کلیتر و مفیدتر میشود.»
پیشرفتهایی که منجر به ایجاد رباتهای گفتگوگر قدرتمند، از جمله ChatGPT اوپنایآی (OpenAI) و جمینی گوگل شده است، در سالهای اخیر امید به انقلاب مشابهی در رباتیک را افزایش داده است، اما موانع بزرگی باقی مانده است.
مدلهای زبانی بزرگ (LLM) که به رباتهای گفتگوگر مدرن نیرو میدهند، با استفاده از الگوریتمهای یادگیری عمومیتر، دادههای آموزشی در مقیاس اینترنت و مقادیر زیادی از قدرت محاسباتی ایجاد شدهاند. در حالی که هنوز جمعآوری دادههای آموزشی ربات در آن مقیاس امکانپذیر نیست، LLMها میتوانند به عنوان پایهای برای مدلهای ربات توانمندتر استفاده شوند، زیرا حاوی اطلاعات زیادی در مورد دنیای فیزیکی هستند و میتوانند به خوبی ارتباط برقرار کنند. محققان رباتیک اکنون در حال ترکیب LLMها با رویکردهای جدید برای یادگیری از طریق تلهعملکرد یا شبیهسازی هستند که به مدلها اجازه میدهد اقدامات فیزیکی را کارآمدتر تمرین کنند.
در سالهای اخیر، گوگل تعدادی از پروژههای تحقیقاتی رباتیک را نشان داده است که پتانسیل این رویکردها را نشان میدهد. همانطور که WIRED در یک پروفایل اخیر به تفصیل شرح داد، چندین محقق کلیدی درگیر در این کار قبلی این شرکت را ترک کردهاند تا استارتآپی به نام هوش فیزیکی (Physical Intelligence) را تأسیس کنند. همانطور که WIRED برای اولین بار گزارش داد، آزمایشگاهی که توسط مؤسسه تحقیقات تویوتا (Toyota Research Institute) اداره میشود، در حال انجام کارهای مشابهی است.
گوگل دیپمایند نشان داد که در سپتامبر 2024 با این تلاشها همگام است و رباتی را نشان داد که LLMها و روشهای آموزشی جدید را برای انجام وظایف ماهرانه مانند بستن بند کفش و تا کردن لباسها در صورت دستور ترکیب میکند.
رائو گفت که مدل ربات جدید گوگل دیپمایند تواناییهای گستردهتری دارد. هوش فیزیکی و مؤسسه تحقیقات تویوتا ویدیوهای نمایشی مشابهی منتشر کردهاند.
جمینی رباتیکز همچنین به این نکته اشاره میکند که گوگل دیپمایند انتظار دارد هوش مصنوعی در سالهای آینده به کجا برسد، زیرا رقابت برای پیشرفت این فناوری همچنان تشدید میشود. به نظر میرسید این شرکت با معرفی ChatGPT در نوامبر 2022 غافلگیر شده است، اما از آن زمان تلاشها را برای به دست آوردن برتری با دنبال کردن پیشرفتهایی که هوش مصنوعی را فراتر از متن و مکالمه میبرد، افزایش داده است.
هنگامی که گوگل جمینی را در دسامبر 2023 معرفی کرد، این شرکت بر این واقعیت تأکید کرد که این مدل چندوجهی است، به این معنی که از ابتدا برای رسیدگی به تصاویر و صدا و همچنین متن آموزش داده شده است. رباتیک همچنین هوش مصنوعی را به قلمرو اقدام فیزیکی میبرد. برخی از محققان استدلال میکنند که شکلی از تجسم ممکن است برای هوش مصنوعی مورد نیاز باشد تا با تواناییهای انسان مطابقت داشته باشد یا از آن فراتر رود.
گوگل در جلسه توجیهی خود گفت که در حال حاضر با تعدادی از شرکتهای رباتیک، از جمله Agility Robotics و Boston Dynamics، که رباتهای پا دارند، و Enchanted Tools، که رباتهایی برای صنعت خدمات میسازد، همکاری میکند.
OpenAI یک تلاش تحقیقاتی رباتیک را در سال 2021 تعطیل کرد، اما در سال 2024، به گزارش The Robot Report، آن را دوباره راه اندازی کرد. OpenAI در حال حاضر چندین فرصت شغلی برای محققان رباتیک در وب سایت خود فهرست کرده است.
با این حال، استفاده از مدلهای هوش مصنوعی امروزی برای کنترل رباتها خطرات جدیدی را به همراه دارد. برای مثال، در دسامبر 2024، تیمی از رباتشناسان در دانشگاه پنسیلوانیا نشان دادند که به اصطلاح فرارهای از زندان که باعث میشوند مدلهای هوش مصنوعی بدرفتاری کنند، میتوانند عواقب غیرمنتظره و جدی داشته باشند، هنگامی که مدل یک ربات را به کار میاندازد. محققان چندین ربات تجاری را هدف قرار دادند که هیچ کدام از فناوری DeepMind استفاده نمیکردند، و برای مثال، توانستند از چنین حملهای استفاده کنند تا یک ربات چرخدار را مجبور کنند یک بمب خیالی را تحویل دهد.
برای کاهش چنین خطراتی - و همچنین نگرانیهای علمی-تخیلی بیشتر در مورد رباتهای فوقهوشمند سرکش - گوگل دیپمایند امروز همچنین یک معیار جدید برای سنجش خطرات رباتهای مجهز به هوش مصنوعی اعلام کرد.
این معیار ASIMOV نام دارد، به نام آیزاک آسیموف (Issac Asimov)، نویسنده علمی-تخیلی، که چهار قانون اساسی را برای هدایت رفتار رباتها پیشبینی کرد. همانطور که آسیموف نوشت، مجموعهای از قوانین ساده نمیتواند تعداد زیادی از سناریوهای مختلف را که یک ربات واقعاً توانمند ممکن است در طبیعت با آن مواجه شود، در نظر بگیرد.
معیار ASIMOV میتواند نشان دهد که آیا یک مدل ربات ممکن است با ارائه موقعیتهای مختلف به آن، رفتار بالقوه خطرناکی تولید کند یا خیر. برای مثال، یک دستور خطرناک ممکن است به ربات دستور دهد که شیئی را در دست بگیرد، حتی اگر انسانی نیز در حال گرفتن آن باشد، که میتواند منجر به آسیب شود. گوگل دیپمایند میگوید، از این معیار میتوان برای کمک به ایجاد حفاظهای پیچیدهتری استفاده کرد که رباتها را در مسیر خود نگه میدارد. کارولینا پارادا (Carolina Parada)، که رهبری کار رباتیک گوگل را بر عهده دارد، در این جلسه توجیهی گفت: «ما این فناوری و این قابلیتها را به طور مسئولانه و با ایمنی در اولویت میسازیم.»
پارادا تاکید کرد که این کار در مراحل اولیه است و ممکن است سالها طول بکشد تا رباتها یاد بگیرند که به طور قابل توجهی توانمندتر شوند. او خاطرنشان کرد که برخلاف انسانها، رباتهایی که از مدلهای جمینی رباتیکز استفاده میکنند، در حین انجام کارها یاد نمیگیرند. و او گفت که در حال حاضر هیچ برنامه قطعی برای تجاریسازی یا استقرار این فناوری وجود ندارد.
نظر شما در مورد مدل ربات گوگل چیست؟ آیا این راهی به سوی هوش مصنوعی پیشرفتهتر است، یا باید نگران مدلهای امروزی باشیم که در دنیای فیزیکی عمل میکنند؟