فیگور در هوش مصنوعی برای انسان نماها قبل از OpenAI پیشرفت می کند

Figure AI از Helix، یک مدل Vision-Language-Action (VLM) که به ربات‌های انسان‌نما اجازه می‌دهد تا وظایف پیچیده را با استفاده از زبان طبیعی انجام دهند، رونمایی کرد.

این مدل نشان دهنده پیشرفت در رباتیک است و ربات ها را قادر می سازد تا دستورالعمل ها را در زمان واقعی درک و به آنها واکنش نشان دهند، اشیاء پیش بینی نشده را مدیریت کنند و همکاری کنند.

به گفته برت آدکاک، بنیانگذار Figure AI، "ما بیش از یک سال است که روی این پروژه کار می کنیم و هدفمان حل رباتیک عمومی است. مانند یک انسان، Helix گفتار را درک می کند، مشکلات را استدلال می کند و می تواند هر شیئی را درک کند - همه اینها بدون نیاز به آموزش یا کد."

این توسعه پس از آن صورت می گیرد که Adcock در پست X خود در 5 فوریه "تصمیم به ترک توافقنامه همکاری خود با OpenAI" را اعلام کرد. OpenAI قبلاً یک سرمایه گذار در این شرکت بوده است.

او همچنین در همان پست به توسعه Helix اشاره کرده بود و گفت: "ما هیجان زده هستیم که در 30 روز آینده چیزی را به شما نشان دهیم که هیچ کس تا به حال روی یک انسان نما ندیده است."

آدکاک در پست اخیر دیگری نیز گفت که این سال، سال پیشرفت رباتیک هوش مصنوعی است که ما منتظرش بوده ایم. او اشاره کرد که با Helix، سال 2025 سالی محوری خواهد بود زیرا این شرکت تولید را آغاز می‌کند، ربات‌های بیشتری را ارسال می‌کند و رباتیک خانگی را مورد بررسی قرار می‌دهد.

Helix چیست؟

در ویدیویی که توسط این شرکت منتشر شده است، یک شبکه عصبی Helix به طور همزمان روی 2 ربات Figure در حال اجرا است. این شرکت گفت: "ربات های ما که مجهز به Helix هستند، اکنون می توانند تقریباً هر شیء خانگی را بدون هیچ کد یا آموزش قبلی بردارند."

هر دو ربات می توانند از طریق اعلان های زبان طبیعی مانند "کیسه کلوچه را به ربات سمت راست خود بده" یا "کیسه کلوچه را از ربات سمت چپ خود دریافت کنید و آن را در کشوی باز قرار دهید" به هماهنگی دست یابند.

Helix یک مدل VLA "سیستم 1، سیستم 2" برای کنترل ماهرانه و با نرخ بالا کل قسمت بالایی بدن انسان نما است.

این اولین مدل VLA است که قسمت بالایی بدن انسان نما را کنترل می کند، همکاری چند رباتی را تسهیل می کند و هر شیء کوچک خانگی را برمی دارد.

این مدل از یک مجموعه وزن شبکه عصبی برای یادگیری رفتارها بدون تنظیم دقیق خاص وظیفه استفاده می کند. این مدل روی GPUهای کم مصرف اجرا می شود و آن را از نظر تجاری مقرون به صرفه می کند.

بر اساس مقاله فنی Figure AI، وضعیت فعلی رباتیک مستلزم "ساعت ها برنامه نویسی دستی متخصص در سطح دکترا یا هزاران نمایش" برای آموزش رفتارهای جدید به ربات ها است.

نگاهی به آینده برای مقیاس بندی Helix

این شرکت گفت: "Helix با سرعت سیاست های تخصصی شبیه سازی رفتاری تک وظیفه ای مطابقت دارد در حالی که به صورت صفر شات به هزاران شیء آزمایشی جدید تعمیم می یابد."

این شرکت همچنین خاطرنشان می کند که Helix "با یک مدل یکپارچه، عملکرد قوی در وظایف متنوع به دست می آورد."

این مدل با استفاده از تقریباً 500 ساعت رفتارهای دورکاری آموزش داده شد. در طول آموزش، VLM کلیپ‌های ویدیویی را از دوربین‌های ربات داخلی پردازش می‌کند و با این سوال تحریک می‌شود: "چه دستوری به ربات می‌دادید تا عملی را که در این ویدیو دیده می‌شود انجام دهد؟"

Figure AI همچنین مشتاقانه منتظر مقیاس بندی Helix است و از مردم دعوت می کند تا به تیم آنها بپیوندند.

در مورد OpenAI، طبق صفحه مشاغل آن، این استارتاپ برای نقش‌های مهندسی مکانیک، یکپارچه‌سازی سیستم‌های رباتیک و مدیریت برنامه استخدام می‌کند. هدف این است که "سخت افزار و نرم افزار پیشرفته را برای کشف طیف گسترده ای از فاکتورهای شکل رباتیک ادغام کنیم".

سال گذشته، این شرکت Caitlin Kalinowski را برای رهبری بخش های رباتیک و سخت افزار مصرف کننده خود استخدام کرد. او قبلاً در متا بر توسعه عینک های واقعیت افزوده (AR) Orion نظارت داشت. OpenAI همچنین در استارتاپ هوش مصنوعی رباتیک Physical Intelligence سرمایه گذاری کرده است.

اخیراً، غول های فناوری Meta و Apple نیز برنامه هایی را برای گسترش به توسعه ربات های انسان نما اعلام کرده اند.

https://analyticsindiamag.com/ai-news-updates/figure-cracks-ai-for-humanoids-before-openai-can/