تصویرسازی: WIRED Staff/Getty Images
تصویرسازی: WIRED Staff/Getty Images

مدل هوش مصنوعی رباتیک جمینی گوگل به دنیای فیزیکی وارد می‌شود

مدل هوش مصنوعی رباتیک جمینی گوگل به دنیای فیزیکی وارد می‌شود

در داستان‌های علمی-تخیلی، هوش مصنوعی اغلب به انواع ربات‌های باهوش، توانمند و گهگاه آدمکش نیرو می‌بخشد. یک محدودیت آشکار در بهترین هوش مصنوعی امروزی این است که، در حال حاضر، مستقیماً در داخل پنجره چت گیر کرده است.

گوگل دیپ‌مایند امروز برنامه‌ای را برای تغییر این وضعیت اعلام کرد - احتمالاً منهای بخش آدمکش - با اعلام نسخه جدیدی از مدل هوش مصنوعی خود به نام جمینی (Gemini) که زبان، بینایی و عملکرد فیزیکی را با هم ترکیب می‌کند تا به طیف وسیع‌تری از ربات‌های توانمندتر، سازگارتر و بالقوه مفیدتر نیرو دهد.

در یک سری ویدیوهای نمایشی، این شرکت چندین ربات مجهز به مدل جدید را نشان داد که با نام جمینی رباتیکز (Gemini Robotics) شناخته می‌شود و اشیاء را در پاسخ به دستورات گفتاری دستکاری می‌کنند: بازوهای رباتیک کاغذ را تا می‌کنند، سبزیجات را تحویل می‌دهند، به آرامی یک عینک را در جعبه قرار می‌دهند و وظایف دیگری را انجام می‌دهند. ربات‌ها برای اتصال اشیاء قابل مشاهده با اقدامات احتمالی به مدل جدید متکی هستند تا کاری را که به آنها گفته می‌شود انجام دهند. این مدل به گونه‌ای آموزش داده شده است که رفتار را می‌توان در سخت‌افزارهای بسیار متفاوت تعمیم داد.

گوگل دیپ‌مایند همچنین نسخه‌ای از مدل خود را با نام جمینی رباتیکز-ای‌آر (Gemini Robotics-ER) (مخفف استدلال تجسم‌یافته) معرفی کرد که فقط درک بصری و فضایی دارد. ایده این است که سایر محققان ربات از این مدل برای آموزش مدل‌های خود برای کنترل اقدامات ربات‌ها استفاده کنند.

در یک ویدیوی نمایشی، محققان گوگل دیپ‌مایند از این مدل برای کنترل یک ربات انسان‌نما به نام آپولو (Apollo) از استارت‌آپ اپترونیک (Apptronik) استفاده کردند. این ربات با یک انسان گفتگو می‌کند و حروف را در اطراف یک میز به هنگام دستور حرکت می‌دهد.

کانشکا رائو (Kanishka Rao)، محقق رباتیک در گوگل دیپ‌مایند که این کار را رهبری می‌کرد، در یک جلسه توجیهی پیش از اعلام امروز گفت: «ما توانسته‌ایم درک جهانی - درک مفهوم کلی - از جمینی 2.0 را به رباتیک بیاوریم.»

گوگل دیپ‌مایند می‌گوید که مدل جدید قادر است ربات‌های مختلف را با موفقیت در صدها سناریوی خاص که قبلاً در آموزش آنها گنجانده نشده بود، کنترل کند. رائو گفت: «هنگامی که مدل ربات درک مفهوم کلی داشته باشد، بسیار کلی‌تر و مفیدتر می‌شود.»

پیشرفت‌هایی که منجر به ایجاد ربات‌های گفتگوگر قدرتمند، از جمله ChatGPT اوپن‌ای‌آی (OpenAI) و جمینی گوگل شده است، در سال‌های اخیر امید به انقلاب مشابهی در رباتیک را افزایش داده است، اما موانع بزرگی باقی مانده است.

مدل‌های زبانی بزرگ (LLM) که به ربات‌های گفتگوگر مدرن نیرو می‌دهند، با استفاده از الگوریتم‌های یادگیری عمومی‌تر، داده‌های آموزشی در مقیاس اینترنت و مقادیر زیادی از قدرت محاسباتی ایجاد شده‌اند. در حالی که هنوز جمع‌آوری داده‌های آموزشی ربات در آن مقیاس امکان‌پذیر نیست، LLMها می‌توانند به عنوان پایه‌ای برای مدل‌های ربات توانمندتر استفاده شوند، زیرا حاوی اطلاعات زیادی در مورد دنیای فیزیکی هستند و می‌توانند به خوبی ارتباط برقرار کنند. محققان رباتیک اکنون در حال ترکیب LLMها با رویکردهای جدید برای یادگیری از طریق تله‌عملکرد یا شبیه‌سازی هستند که به مدل‌ها اجازه می‌دهد اقدامات فیزیکی را کارآمدتر تمرین کنند.

در سال‌های اخیر، گوگل تعدادی از پروژه‌های تحقیقاتی رباتیک را نشان داده است که پتانسیل این رویکردها را نشان می‌دهد. همانطور که WIRED در یک پروفایل اخیر به تفصیل شرح داد، چندین محقق کلیدی درگیر در این کار قبلی این شرکت را ترک کرده‌اند تا استارت‌آپی به نام هوش فیزیکی (Physical Intelligence) را تأسیس کنند. همانطور که WIRED برای اولین بار گزارش داد، آزمایشگاهی که توسط مؤسسه تحقیقات تویوتا (Toyota Research Institute) اداره می‌شود، در حال انجام کارهای مشابهی است.

گوگل دیپ‌مایند نشان داد که در سپتامبر 2024 با این تلاش‌ها همگام است و رباتی را نشان داد که LLMها و روش‌های آموزشی جدید را برای انجام وظایف ماهرانه مانند بستن بند کفش و تا کردن لباس‌ها در صورت دستور ترکیب می‌کند.

جمینی رباتیکز - استدلال فضایی. با حسن نیت گوگل

رائو گفت که مدل ربات جدید گوگل دیپ‌مایند توانایی‌های گسترده‌تری دارد. هوش فیزیکی و مؤسسه تحقیقات تویوتا ویدیوهای نمایشی مشابهی منتشر کرده‌اند.

جمینی رباتیکز همچنین به این نکته اشاره می‌کند که گوگل دیپ‌مایند انتظار دارد هوش مصنوعی در سال‌های آینده به کجا برسد، زیرا رقابت برای پیشرفت این فناوری همچنان تشدید می‌شود. به نظر می‌رسید این شرکت با معرفی ChatGPT در نوامبر 2022 غافلگیر شده است، اما از آن زمان تلاش‌ها را برای به دست آوردن برتری با دنبال کردن پیشرفت‌هایی که هوش مصنوعی را فراتر از متن و مکالمه می‌برد، افزایش داده است.

هنگامی که گوگل جمینی را در دسامبر 2023 معرفی کرد، این شرکت بر این واقعیت تأکید کرد که این مدل چندوجهی است، به این معنی که از ابتدا برای رسیدگی به تصاویر و صدا و همچنین متن آموزش داده شده است. رباتیک همچنین هوش مصنوعی را به قلمرو اقدام فیزیکی می‌برد. برخی از محققان استدلال می‌کنند که شکلی از تجسم ممکن است برای هوش مصنوعی مورد نیاز باشد تا با توانایی‌های انسان مطابقت داشته باشد یا از آن فراتر رود.

گوگل در جلسه توجیهی خود گفت که در حال حاضر با تعدادی از شرکت‌های رباتیک، از جمله Agility Robotics و Boston Dynamics، که ربات‌های پا دارند، و Enchanted Tools، که ربات‌هایی برای صنعت خدمات می‌سازد، همکاری می‌کند.

OpenAI یک تلاش تحقیقاتی رباتیک را در سال 2021 تعطیل کرد، اما در سال 2024، به گزارش The Robot Report، آن را دوباره راه اندازی کرد. OpenAI در حال حاضر چندین فرصت شغلی برای محققان رباتیک در وب سایت خود فهرست کرده است.

با این حال، استفاده از مدل‌های هوش مصنوعی امروزی برای کنترل ربات‌ها خطرات جدیدی را به همراه دارد. برای مثال، در دسامبر 2024، تیمی از ربات‌شناسان در دانشگاه پنسیلوانیا نشان دادند که به اصطلاح فرارهای از زندان که باعث می‌شوند مدل‌های هوش مصنوعی بدرفتاری کنند، می‌توانند عواقب غیرمنتظره و جدی داشته باشند، هنگامی که مدل یک ربات را به کار می‌اندازد. محققان چندین ربات تجاری را هدف قرار دادند که هیچ کدام از فناوری DeepMind استفاده نمی‌کردند، و برای مثال، توانستند از چنین حمله‌ای استفاده کنند تا یک ربات چرخ‌دار را مجبور کنند یک بمب خیالی را تحویل دهد.

برای کاهش چنین خطراتی - و همچنین نگرانی‌های علمی-تخیلی بیشتر در مورد ربات‌های فوق‌هوشمند سرکش - گوگل دیپ‌مایند امروز همچنین یک معیار جدید برای سنجش خطرات ربات‌های مجهز به هوش مصنوعی اعلام کرد.

این معیار ASIMOV نام دارد، به نام آیزاک آسیموف (Issac Asimov)، نویسنده علمی-تخیلی، که چهار قانون اساسی را برای هدایت رفتار ربات‌ها پیش‌بینی کرد. همانطور که آسیموف نوشت، مجموعه‌ای از قوانین ساده نمی‌تواند تعداد زیادی از سناریوهای مختلف را که یک ربات واقعاً توانمند ممکن است در طبیعت با آن مواجه شود، در نظر بگیرد.

معیار ASIMOV می‌تواند نشان دهد که آیا یک مدل ربات ممکن است با ارائه موقعیت‌های مختلف به آن، رفتار بالقوه خطرناکی تولید کند یا خیر. برای مثال، یک دستور خطرناک ممکن است به ربات دستور دهد که شیئی را در دست بگیرد، حتی اگر انسانی نیز در حال گرفتن آن باشد، که می‌تواند منجر به آسیب شود. گوگل دیپ‌مایند می‌گوید، از این معیار می‌توان برای کمک به ایجاد حفاظ‌های پیچیده‌تری استفاده کرد که ربات‌ها را در مسیر خود نگه می‌دارد. کارولینا پارادا (Carolina Parada)، که رهبری کار رباتیک گوگل را بر عهده دارد، در این جلسه توجیهی گفت: «ما این فناوری و این قابلیت‌ها را به طور مسئولانه و با ایمنی در اولویت می‌سازیم.»

پارادا تاکید کرد که این کار در مراحل اولیه است و ممکن است سال‌ها طول بکشد تا ربات‌ها یاد بگیرند که به طور قابل توجهی توانمندتر شوند. او خاطرنشان کرد که برخلاف انسان‌ها، ربات‌هایی که از مدل‌های جمینی رباتیکز استفاده می‌کنند، در حین انجام کارها یاد نمی‌گیرند. و او گفت که در حال حاضر هیچ برنامه قطعی برای تجاری‌سازی یا استقرار این فناوری وجود ندارد.

نظر شما در مورد مدل ربات گوگل چیست؟ آیا این راهی به سوی هوش مصنوعی پیشرفته‌تر است، یا باید نگران مدل‌های امروزی باشیم که در دنیای فیزیکی عمل می‌کنند؟