کنترل‌کننده عصبی یکپارچه HOVER
کنترل‌کننده عصبی یکپارچه HOVER

انویدیا ای‌آی HOVER را منتشر کرد: هوش مصنوعی پیشگامانه برای کنترل همه‌کاره ربات‌های انسان‌نما در رباتیک

آینده رباتیک پیشرفت چشمگیری داشته است. سال‌هاست که انتظاراتی مبنی بر وجود ربات‌های انسان‌نما وجود دارد که بتوانند در محیط‌های ما حرکت کنند، وظایف پیچیده را انجام دهند و در کنار انسان‌ها کار کنند. نمونه‌هایی از این ربات‌ها شامل انجام عمل‌های جراحی دقیق، ساخت سازه‌های پیچیده، کمک در واکنش به بلایا و همکاری کارآمد با انسان‌ها در محیط‌های مختلف مانند کارخانه‌ها، ادارات و خانه‌ها می‌شود. با این حال، پیشرفت واقعی در طول تاریخ محدود بوده است.

پژوهشگرانی از انویدیا، دانشگاه کارنگی ملون، دانشگاه کالیفرنیا برکلی، دانشگاه تگزاس در آستین و دانشگاه کالیفرنیا سن دیگو، HOVER را معرفی کردند؛ یک کنترل‌کننده عصبی یکپارچه با هدف افزایش قابلیت‌های ربات‌های انسان‌نما. این پژوهش یک چارچوب تقطیر سیاست چند حالته را پیشنهاد می‌کند که استراتژی‌های کنترلی مختلف را در یک سیاست منسجم ادغام می‌کند و بدین ترتیب پیشرفت قابل توجهی در رباتیک انسان‌نما ایجاد می‌نماید.

پاشنه آشیل رباتیک انسان‌نما: معمای کنترل

رباتی را تصور کنید که می‌تواند یک پشتک بی‌نقص بزند اما سپس برای گرفتن دستگیره در دچار مشکل می‌شود.

مشکل چیست؟ تخصص‌گرایی.

ربات‌های انسان‌نما پلتفرم‌های فوق‌العاده همه‌کاره‌ای هستند که قادر به پشتیبانی از طیف گسترده‌ای از وظایف، از جمله دستکاری با دو دست، حرکت دوپا و کنترل پیچیده کل بدن می‌باشند. با این حال، علی‌رغم پیشرفت‌های چشمگیر در این زمینه‌ها، پژوهشگران معمولاً از فرمول‌بندی‌های کنترلی متفاوتی استفاده کرده‌اند که برای سناریوهای خاص طراحی شده‌اند.

  • برخی کنترل‌کننده‌ها در حرکت (locomotion) عالی هستند و از «ردیابی سرعت ریشه» (root velocity tracking) برای هدایت حرکت استفاده می‌کنند. این رویکرد بر کنترل حرکت کلی ربات در فضا تمرکز دارد.
  • برخی دیگر دستکاری (manipulation) را در اولویت قرار می‌دهند و برای حرکات دقیق به «ردیابی زاویه مفصل» (joint angle tracking) تکیه می‌کنند. این رویکرد امکان کنترل دقیق اندام‌های ربات را فراهم می‌کند.
  • و برخی دیگر از «ردیابی سینماتیکی» (kinematic tracking) نقاط کلیدی برای تله‌اپریشن (teleoperation) استفاده می‌کنند. این روش به اپراتور انسانی امکان می‌دهد تا با ردیابی حرکات خود، ربات را کنترل کند.

هر کدام به زبان کنترلی متفاوتی صحبت می‌کنند و چشم‌انداز fragmentedی را ایجاد می‌کنند که در آن ربات‌ها در یک کار استاد و در کارهای دیگر ناتوان هستند. جابجایی بین وظایف، دست و پا گیر، ناکارآمد و اغلب غیرممکن بوده است. این تخصص‌گرایی محدودیت‌های عملی ایجاد می‌کند. به عنوان مثال، رباتی که برای حرکت دوپا در زمین ناهموار با استفاده از ردیابی سرعت ریشه طراحی شده است، برای انتقال روان به وظایف دستکاری دقیق با دو دست که نیاز به ردیابی زاویه مفصل یا ردیابی اند-افکتور (end-effector) دارند، با مشکل مواجه خواهد شد.

علاوه بر این، بسیاری از سیاست‌های دستکاری از پیش آموزش‌دیده در فضاهای پیکربندی مختلف، مانند زوایای مفاصل و موقعیت‌های اند-افکتور، عمل می‌کنند. این محدودیت‌ها نیاز به یک کنترل‌کننده سطح پایین یکپارچه انسان‌نما را برجسته می‌کند که قادر به سازگاری با حالت‌های کنترلی متنوع باشد.

HOVER: نظریه میدان یکپارچه کنترل رباتیک

HOVER یک تغییر پارادایم است. این یک «سیاست عمومی‌گرا» (generalist policy) است—یک شبکه عصبی واحد که حالت‌های کنترلی متنوع را هماهنگ می‌کند و امکان انتقال یکپارچه و همه‌کاره‌گی بی‌سابقه‌ای را فراهم می‌آورد. HOVER از حالت‌های کنترلی متنوعی پشتیبانی می‌کند، از جمله بیش از ۱۵ پیکربندی مفید برای کاربردهای دنیای واقعی بر روی یک ربات انسان‌نمای ۱۹ درجه آزادی (DOF). این فضای فرمان همه‌کاره، بیشتر حالت‌های مورد استفاده در تحقیقات قبلی را در بر می‌گیرد.

  • یادگیری از استادان: تقلید حرکت انسان

    نبوغ HOVER در بنیان آن نهفته است: یادگیری از خود حرکت انسان. با آموزش یک «تقلیدگر حرکت پیشگو» (oracle motion imitator) بر روی مجموعه داده عظیمی از داده‌های ضبط حرکت انسان (MoCap)، HOVER اصول اساسی تعادل، هماهنگی و حرکت کارآمد را جذب می‌کند. این رویکرد از سازگاری و کارایی طبیعی حرکات انسان استفاده می‌کند و پیش‌فرض‌های حرکتی (motor priors) غنی را در اختیار سیاست قرار می‌دهد که می‌توانند در چندین حالت کنترلی دوباره استفاده شوند.

    پژوهشگران فرایند آموزش را بر اساس حرکت شبیه به انسان پایه‌گذاری می‌کنند، که به سیاست اجازه می‌دهد درک عمیق‌تری از تعادل، هماهنگی و کنترل حرکت، عناصر حیاتی برای رفتار مؤثر کل بدن انسان‌نما، توسعه دهد.
  • از پیشگو تا نابغه: تقطیر سیاست
فرآیند تقطیر سیاست در HOVER
نمای کلی فرآیند تقطیر سیاست (Policy Distillation) در HOVER

جادوی واقعی از طریق «تقطیر سیاست» (policy distillation) اتفاق می‌افتد. سیاست پیشگو، یعنی تقلیدگر ماهر، مهارت‌های خود را به یک «سیاست دانش‌آموز» (HOVER) آموزش می‌دهد. از طریق فرآیندی شامل پوشش‌دهی فرمان (command masking) و چارچوب DAgger، HOVER یاد می‌گیرد که بر حالت‌های کنترلی متنوع، از ردیابی موقعیت سینماتیکی گرفته تا کنترل زاویه مفصل و ردیابی ریشه، مسلط شود. این امر یک «عمومی‌گرا» ایجاد می‌کند که قادر به مدیریت هر سناریوی کنترلی است.

از طریق تقطیر سیاست، این مهارت‌های حرکتی از سیاست پیشگو به یک «سیاست عمومی‌گرای» واحد منتقل می‌شوند که قادر به مدیریت چندین حالت کنترلی است. سیاست چند حالته حاصل از ورودی‌های کنترلی متنوعی پشتیبانی می‌کند و عملکرد بهتری نسبت به سیاست‌هایی دارد که به طور جداگانه برای هر حالت آموزش دیده‌اند. پژوهشگران فرض می‌کنند که این عملکرد برتر ناشی از استفاده سیاست از دانش فیزیکی مشترک در بین حالت‌ها، مانند حفظ تعادل، حرکت شبیه به انسان و کنترل دقیق اندام است. این مهارت‌های مشترک، تعمیم‌پذیری را افزایش می‌دهند و منجر به عملکرد بهتر در همه حالت‌ها می‌شوند، در حالی که سیاست‌های تک حالته اغلب با ساختارهای پاداش و محیط‌های آموزشی خاص، بیش‌برازش (overfit) پیدا می‌کنند.

پیاده‌سازی HOVER شامل آموزش یک سیاست پیشگو و سپس تقطیر دانش برای ایجاد یک کنترل‌کننده همه‌کاره است. سیاست پیشگو اطلاعات حس عمقی (proprioception)، از جمله موقعیت، جهت‌گیری، سرعت‌ها و اقدامات قبلی را به همراه ژست‌های مرجع پردازش می‌کند تا حرکات بهینه را تولید کند. پیشگو با استفاده از یک سیستم پاداش با دقت طراحی شده شامل مؤلفه‌های جریمه، تنظیم‌سازی (regularization) و وظیفه، به تقلید حرکت قوی دست می‌یابد. سپس سیاست دانش‌آموز از این پیشگو از طریق چارچوب DAgger یاد می‌گیرد و تکنیک‌های پوشش‌دهی مبتنی بر مدل و مبتنی بر پراکندگی (sparsity-based) را در بر می‌گیرد که امکان ردیابی انتخابی قسمت‌های مختلف بدن را فراهم می‌کند. این فرآیند تقطیر، تفاوت عمل بین معلم و دانش‌آموز را به حداقل می‌رساند و یک کنترل‌کننده یکپارچه قادر به مدیریت سناریوهای کنترلی متنوع ایجاد می‌کند.

پژوهشگران کنترل انسان‌نما را به عنوان یک وظیفه یادگیری تقویتی شرطی‌شده با هدف (goal-conditioned reinforcement learning) فرمول‌بندی می‌کنند که در آن سیاست برای ردیابی حرکت انسان در زمان واقعی آموزش داده می‌شود. حالت (state) شامل حس عمقی ربات و یک حالت هدف یکپارچه است. با استفاده از این ورودی‌ها، آنها یک تابع پاداش برای بهینه‌سازی سیاست تعریف می‌کنند. اقدامات (actions) نشان‌دهنده موقعیت‌های مفصلی هدف هستند که به یک کنترل‌کننده PD وارد می‌شوند. این سیستم از بهینه‌سازی سیاست پروگزیمال (Proximal Policy Optimization - PPO) برای به حداکثر رساندن پاداش‌های تجمعی تخفیف‌یافته استفاده می‌کند و اساساً ربات انسان‌نما را برای دنبال کردن دستورات هدف در هر گام زمانی آموزش می‌دهد.

انویدیا ای‌آی HOVER
انویدیا ای‌آی HOVER

ارزیابی و عملکرد

موفقیت هر سیاست رباتیک جدیدی به چگونگی عملکرد آن در آزمایش بستگی دارد. آیا HOVER می‌تواند وعده‌های خود را عملی کند؟

پژوهشگران HOVER را در طیف گسترده‌ای از وظایف—۲۶ مورد آزمایش—در آزمایش‌های شبیه‌سازی دقیق مورد آزمایش قرار دادند. این وظایف عملکردهای متفاوتی مانند تعقیب اند-افکتور و ردیابی مرکز ثقل (center-of-mass - CoM) و همچنین بازیابی از دستکاری خارجی شدید را شامل می‌شدند. نتایج به وضوح نشان داد که HOVER از عملکرد بهترین سیاست‌های تک‌حالته موجود بهتر عمل می‌کند و تعادل و پایداری قوی از خود نشان می‌دهد. برای مثال، HOVER عملکرد سیاست‌های تخصصی را در آزمایش‌های شبیه‌سازی ردیابی CoM بهبود بخشید که در آن ربات باید تعادل خود را در برابر ضربات خارجی حفظ کند.

مهم‌تر از همه، HOVER توانست این featها را بدون نیاز به تنظیم یا پیکربندی مجدد برای هر وظیفه انجام دهد. HOVER به معنای واقعی کلمه، قابلیت همه‌کاره‌گی را تجسم می‌بخشد.

ارزیابی کنترل همه‌کاره در HOVER
ارزیابی کنترل همه‌کاره (Versatile Control) در HOVER

نتیجه‌گیری

تلاش انویدیا با HOVER یک گام جسورانه در جهت باز کردن پتانسیل واقعی ربات‌های انسان‌نما است. HOVER با توانمندسازی ربات‌ها برای «صحبت کردن» به زبان‌های کنترلی متعدد، راه را برای نسل جدیدی از ماشین‌ها هموار می‌کند که می‌تواند به طور یکپارچه بین وظایف جابجا شود و با انعطاف‌پذیری و سازگاری بی‌سابقه‌ای با محیط‌های ما ادغام شود.

همان‌طور که HOVER تکامل پیدا می‌کند، انتظار داشته باشید که ربات‌های انسان‌نما در نقش‌های مختلف—از دستیارهای درمانی گرفته تا واکنش‌دهندگان اضطراری—بیشتر دیده شوند و توانایی‌های خود را با تمرکز بر یادگیری از حرکت انسان، ادغام استراتژیک حالت‌های کنترلی متنوع و یکپارچه‌سازی فرآیندهای یادگیری دانش‌آموز-معلم به‌طور فزاینده‌ای نمایش دهند.

این یک پیشرفت اساسی است که به طور بالقوه می‌تواند باعث فراگیر شدن ربات‌های انسان‌نما در سناریوهای دنیای واقعی شود، به این معنی که آنها قادر خواهند بود به کمک، انجام وظایف و همکاری با انسان‌ها در فضاهای مختلف و کارهای مختلف بپردازند.