Figure AI از Helix، یک مدل Vision-Language-Action (VLM) که به رباتهای انساننما اجازه میدهد تا وظایف پیچیده را با استفاده از زبان طبیعی انجام دهند، رونمایی کرد.
این مدل نشان دهنده پیشرفت در رباتیک است و ربات ها را قادر می سازد تا دستورالعمل ها را در زمان واقعی درک و به آنها واکنش نشان دهند، اشیاء پیش بینی نشده را مدیریت کنند و همکاری کنند.
به گفته برت آدکاک، بنیانگذار Figure AI، "ما بیش از یک سال است که روی این پروژه کار می کنیم و هدفمان حل رباتیک عمومی است. مانند یک انسان، Helix گفتار را درک می کند، مشکلات را استدلال می کند و می تواند هر شیئی را درک کند - همه اینها بدون نیاز به آموزش یا کد."
این توسعه پس از آن صورت می گیرد که Adcock در پست X خود در 5 فوریه "تصمیم به ترک توافقنامه همکاری خود با OpenAI" را اعلام کرد. OpenAI قبلاً یک سرمایه گذار در این شرکت بوده است.
او همچنین در همان پست به توسعه Helix اشاره کرده بود و گفت: "ما هیجان زده هستیم که در 30 روز آینده چیزی را به شما نشان دهیم که هیچ کس تا به حال روی یک انسان نما ندیده است."
آدکاک در پست اخیر دیگری نیز گفت که این سال، سال پیشرفت رباتیک هوش مصنوعی است که ما منتظرش بوده ایم. او اشاره کرد که با Helix، سال 2025 سالی محوری خواهد بود زیرا این شرکت تولید را آغاز میکند، رباتهای بیشتری را ارسال میکند و رباتیک خانگی را مورد بررسی قرار میدهد.
Helix چیست؟
در ویدیویی که توسط این شرکت منتشر شده است، یک شبکه عصبی Helix به طور همزمان روی 2 ربات Figure در حال اجرا است. این شرکت گفت: "ربات های ما که مجهز به Helix هستند، اکنون می توانند تقریباً هر شیء خانگی را بدون هیچ کد یا آموزش قبلی بردارند."
هر دو ربات می توانند از طریق اعلان های زبان طبیعی مانند "کیسه کلوچه را به ربات سمت راست خود بده" یا "کیسه کلوچه را از ربات سمت چپ خود دریافت کنید و آن را در کشوی باز قرار دهید" به هماهنگی دست یابند.
Helix یک مدل VLA "سیستم 1، سیستم 2" برای کنترل ماهرانه و با نرخ بالا کل قسمت بالایی بدن انسان نما است.
این اولین مدل VLA است که قسمت بالایی بدن انسان نما را کنترل می کند، همکاری چند رباتی را تسهیل می کند و هر شیء کوچک خانگی را برمی دارد.
این مدل از یک مجموعه وزن شبکه عصبی برای یادگیری رفتارها بدون تنظیم دقیق خاص وظیفه استفاده می کند. این مدل روی GPUهای کم مصرف اجرا می شود و آن را از نظر تجاری مقرون به صرفه می کند.
بر اساس مقاله فنی Figure AI، وضعیت فعلی رباتیک مستلزم "ساعت ها برنامه نویسی دستی متخصص در سطح دکترا یا هزاران نمایش" برای آموزش رفتارهای جدید به ربات ها است.
نگاهی به آینده برای مقیاس بندی Helix
این شرکت گفت: "Helix با سرعت سیاست های تخصصی شبیه سازی رفتاری تک وظیفه ای مطابقت دارد در حالی که به صورت صفر شات به هزاران شیء آزمایشی جدید تعمیم می یابد."
این شرکت همچنین خاطرنشان می کند که Helix "با یک مدل یکپارچه، عملکرد قوی در وظایف متنوع به دست می آورد."
این مدل با استفاده از تقریباً 500 ساعت رفتارهای دورکاری آموزش داده شد. در طول آموزش، VLM کلیپهای ویدیویی را از دوربینهای ربات داخلی پردازش میکند و با این سوال تحریک میشود: "چه دستوری به ربات میدادید تا عملی را که در این ویدیو دیده میشود انجام دهد؟"
Figure AI همچنین مشتاقانه منتظر مقیاس بندی Helix است و از مردم دعوت می کند تا به تیم آنها بپیوندند.
در مورد OpenAI، طبق صفحه مشاغل آن، این استارتاپ برای نقشهای مهندسی مکانیک، یکپارچهسازی سیستمهای رباتیک و مدیریت برنامه استخدام میکند. هدف این است که "سخت افزار و نرم افزار پیشرفته را برای کشف طیف گسترده ای از فاکتورهای شکل رباتیک ادغام کنیم".
سال گذشته، این شرکت Caitlin Kalinowski را برای رهبری بخش های رباتیک و سخت افزار مصرف کننده خود استخدام کرد. او قبلاً در متا بر توسعه عینک های واقعیت افزوده (AR) Orion نظارت داشت. OpenAI همچنین در استارتاپ هوش مصنوعی رباتیک Physical Intelligence سرمایه گذاری کرده است.
اخیراً، غول های فناوری Meta و Apple نیز برنامه هایی را برای گسترش به توسعه ربات های انسان نما اعلام کرده اند.