آینده رباتیک پیشرفت چشمگیری داشته است. سالهاست که انتظاراتی مبنی بر وجود رباتهای انساننما وجود دارد که بتوانند در محیطهای ما حرکت کنند، وظایف پیچیده را انجام دهند و در کنار انسانها کار کنند. نمونههایی از این رباتها شامل انجام عملهای جراحی دقیق، ساخت سازههای پیچیده، کمک در واکنش به بلایا و همکاری کارآمد با انسانها در محیطهای مختلف مانند کارخانهها، ادارات و خانهها میشود. با این حال، پیشرفت واقعی در طول تاریخ محدود بوده است.
پژوهشگرانی از انویدیا، دانشگاه کارنگی ملون، دانشگاه کالیفرنیا برکلی، دانشگاه تگزاس در آستین و دانشگاه کالیفرنیا سن دیگو، HOVER را معرفی کردند؛ یک کنترلکننده عصبی یکپارچه با هدف افزایش قابلیتهای رباتهای انساننما. این پژوهش یک چارچوب تقطیر سیاست چند حالته را پیشنهاد میکند که استراتژیهای کنترلی مختلف را در یک سیاست منسجم ادغام میکند و بدین ترتیب پیشرفت قابل توجهی در رباتیک انساننما ایجاد مینماید.
پاشنه آشیل رباتیک انساننما: معمای کنترل
رباتی را تصور کنید که میتواند یک پشتک بینقص بزند اما سپس برای گرفتن دستگیره در دچار مشکل میشود.
مشکل چیست؟ تخصصگرایی.
رباتهای انساننما پلتفرمهای فوقالعاده همهکارهای هستند که قادر به پشتیبانی از طیف گستردهای از وظایف، از جمله دستکاری با دو دست، حرکت دوپا و کنترل پیچیده کل بدن میباشند. با این حال، علیرغم پیشرفتهای چشمگیر در این زمینهها، پژوهشگران معمولاً از فرمولبندیهای کنترلی متفاوتی استفاده کردهاند که برای سناریوهای خاص طراحی شدهاند.
- برخی کنترلکنندهها در حرکت (locomotion) عالی هستند و از «ردیابی سرعت ریشه» (root velocity tracking) برای هدایت حرکت استفاده میکنند. این رویکرد بر کنترل حرکت کلی ربات در فضا تمرکز دارد.
- برخی دیگر دستکاری (manipulation) را در اولویت قرار میدهند و برای حرکات دقیق به «ردیابی زاویه مفصل» (joint angle tracking) تکیه میکنند. این رویکرد امکان کنترل دقیق اندامهای ربات را فراهم میکند.
- و برخی دیگر از «ردیابی سینماتیکی» (kinematic tracking) نقاط کلیدی برای تلهاپریشن (teleoperation) استفاده میکنند. این روش به اپراتور انسانی امکان میدهد تا با ردیابی حرکات خود، ربات را کنترل کند.
هر کدام به زبان کنترلی متفاوتی صحبت میکنند و چشمانداز fragmentedی را ایجاد میکنند که در آن رباتها در یک کار استاد و در کارهای دیگر ناتوان هستند. جابجایی بین وظایف، دست و پا گیر، ناکارآمد و اغلب غیرممکن بوده است. این تخصصگرایی محدودیتهای عملی ایجاد میکند. به عنوان مثال، رباتی که برای حرکت دوپا در زمین ناهموار با استفاده از ردیابی سرعت ریشه طراحی شده است، برای انتقال روان به وظایف دستکاری دقیق با دو دست که نیاز به ردیابی زاویه مفصل یا ردیابی اند-افکتور (end-effector) دارند، با مشکل مواجه خواهد شد.
علاوه بر این، بسیاری از سیاستهای دستکاری از پیش آموزشدیده در فضاهای پیکربندی مختلف، مانند زوایای مفاصل و موقعیتهای اند-افکتور، عمل میکنند. این محدودیتها نیاز به یک کنترلکننده سطح پایین یکپارچه انساننما را برجسته میکند که قادر به سازگاری با حالتهای کنترلی متنوع باشد.
HOVER: نظریه میدان یکپارچه کنترل رباتیک
HOVER یک تغییر پارادایم است. این یک «سیاست عمومیگرا» (generalist policy) است—یک شبکه عصبی واحد که حالتهای کنترلی متنوع را هماهنگ میکند و امکان انتقال یکپارچه و همهکارهگی بیسابقهای را فراهم میآورد. HOVER از حالتهای کنترلی متنوعی پشتیبانی میکند، از جمله بیش از ۱۵ پیکربندی مفید برای کاربردهای دنیای واقعی بر روی یک ربات انساننمای ۱۹ درجه آزادی (DOF). این فضای فرمان همهکاره، بیشتر حالتهای مورد استفاده در تحقیقات قبلی را در بر میگیرد.
- یادگیری از استادان: تقلید حرکت انسان
نبوغ HOVER در بنیان آن نهفته است: یادگیری از خود حرکت انسان. با آموزش یک «تقلیدگر حرکت پیشگو» (oracle motion imitator) بر روی مجموعه داده عظیمی از دادههای ضبط حرکت انسان (MoCap)، HOVER اصول اساسی تعادل، هماهنگی و حرکت کارآمد را جذب میکند. این رویکرد از سازگاری و کارایی طبیعی حرکات انسان استفاده میکند و پیشفرضهای حرکتی (motor priors) غنی را در اختیار سیاست قرار میدهد که میتوانند در چندین حالت کنترلی دوباره استفاده شوند.
پژوهشگران فرایند آموزش را بر اساس حرکت شبیه به انسان پایهگذاری میکنند، که به سیاست اجازه میدهد درک عمیقتری از تعادل، هماهنگی و کنترل حرکت، عناصر حیاتی برای رفتار مؤثر کل بدن انساننما، توسعه دهد. - از پیشگو تا نابغه: تقطیر سیاست
جادوی واقعی از طریق «تقطیر سیاست» (policy distillation) اتفاق میافتد. سیاست پیشگو، یعنی تقلیدگر ماهر، مهارتهای خود را به یک «سیاست دانشآموز» (HOVER) آموزش میدهد. از طریق فرآیندی شامل پوششدهی فرمان (command masking) و چارچوب DAgger، HOVER یاد میگیرد که بر حالتهای کنترلی متنوع، از ردیابی موقعیت سینماتیکی گرفته تا کنترل زاویه مفصل و ردیابی ریشه، مسلط شود. این امر یک «عمومیگرا» ایجاد میکند که قادر به مدیریت هر سناریوی کنترلی است.
از طریق تقطیر سیاست، این مهارتهای حرکتی از سیاست پیشگو به یک «سیاست عمومیگرای» واحد منتقل میشوند که قادر به مدیریت چندین حالت کنترلی است. سیاست چند حالته حاصل از ورودیهای کنترلی متنوعی پشتیبانی میکند و عملکرد بهتری نسبت به سیاستهایی دارد که به طور جداگانه برای هر حالت آموزش دیدهاند. پژوهشگران فرض میکنند که این عملکرد برتر ناشی از استفاده سیاست از دانش فیزیکی مشترک در بین حالتها، مانند حفظ تعادل، حرکت شبیه به انسان و کنترل دقیق اندام است. این مهارتهای مشترک، تعمیمپذیری را افزایش میدهند و منجر به عملکرد بهتر در همه حالتها میشوند، در حالی که سیاستهای تک حالته اغلب با ساختارهای پاداش و محیطهای آموزشی خاص، بیشبرازش (overfit) پیدا میکنند.
پیادهسازی HOVER شامل آموزش یک سیاست پیشگو و سپس تقطیر دانش برای ایجاد یک کنترلکننده همهکاره است. سیاست پیشگو اطلاعات حس عمقی (proprioception)، از جمله موقعیت، جهتگیری، سرعتها و اقدامات قبلی را به همراه ژستهای مرجع پردازش میکند تا حرکات بهینه را تولید کند. پیشگو با استفاده از یک سیستم پاداش با دقت طراحی شده شامل مؤلفههای جریمه، تنظیمسازی (regularization) و وظیفه، به تقلید حرکت قوی دست مییابد. سپس سیاست دانشآموز از این پیشگو از طریق چارچوب DAgger یاد میگیرد و تکنیکهای پوششدهی مبتنی بر مدل و مبتنی بر پراکندگی (sparsity-based) را در بر میگیرد که امکان ردیابی انتخابی قسمتهای مختلف بدن را فراهم میکند. این فرآیند تقطیر، تفاوت عمل بین معلم و دانشآموز را به حداقل میرساند و یک کنترلکننده یکپارچه قادر به مدیریت سناریوهای کنترلی متنوع ایجاد میکند.
پژوهشگران کنترل انساننما را به عنوان یک وظیفه یادگیری تقویتی شرطیشده با هدف (goal-conditioned reinforcement learning) فرمولبندی میکنند که در آن سیاست برای ردیابی حرکت انسان در زمان واقعی آموزش داده میشود. حالت (state) شامل حس عمقی ربات و یک حالت هدف یکپارچه است. با استفاده از این ورودیها، آنها یک تابع پاداش برای بهینهسازی سیاست تعریف میکنند. اقدامات (actions) نشاندهنده موقعیتهای مفصلی هدف هستند که به یک کنترلکننده PD وارد میشوند. این سیستم از بهینهسازی سیاست پروگزیمال (Proximal Policy Optimization - PPO) برای به حداکثر رساندن پاداشهای تجمعی تخفیفیافته استفاده میکند و اساساً ربات انساننما را برای دنبال کردن دستورات هدف در هر گام زمانی آموزش میدهد.
ارزیابی و عملکرد
موفقیت هر سیاست رباتیک جدیدی به چگونگی عملکرد آن در آزمایش بستگی دارد. آیا HOVER میتواند وعدههای خود را عملی کند؟
پژوهشگران HOVER را در طیف گستردهای از وظایف—۲۶ مورد آزمایش—در آزمایشهای شبیهسازی دقیق مورد آزمایش قرار دادند. این وظایف عملکردهای متفاوتی مانند تعقیب اند-افکتور و ردیابی مرکز ثقل (center-of-mass - CoM) و همچنین بازیابی از دستکاری خارجی شدید را شامل میشدند. نتایج به وضوح نشان داد که HOVER از عملکرد بهترین سیاستهای تکحالته موجود بهتر عمل میکند و تعادل و پایداری قوی از خود نشان میدهد. برای مثال، HOVER عملکرد سیاستهای تخصصی را در آزمایشهای شبیهسازی ردیابی CoM بهبود بخشید که در آن ربات باید تعادل خود را در برابر ضربات خارجی حفظ کند.
مهمتر از همه، HOVER توانست این featها را بدون نیاز به تنظیم یا پیکربندی مجدد برای هر وظیفه انجام دهد. HOVER به معنای واقعی کلمه، قابلیت همهکارهگی را تجسم میبخشد.
نتیجهگیری
تلاش انویدیا با HOVER یک گام جسورانه در جهت باز کردن پتانسیل واقعی رباتهای انساننما است. HOVER با توانمندسازی رباتها برای «صحبت کردن» به زبانهای کنترلی متعدد، راه را برای نسل جدیدی از ماشینها هموار میکند که میتواند به طور یکپارچه بین وظایف جابجا شود و با انعطافپذیری و سازگاری بیسابقهای با محیطهای ما ادغام شود.
همانطور که HOVER تکامل پیدا میکند، انتظار داشته باشید که رباتهای انساننما در نقشهای مختلف—از دستیارهای درمانی گرفته تا واکنشدهندگان اضطراری—بیشتر دیده شوند و تواناییهای خود را با تمرکز بر یادگیری از حرکت انسان، ادغام استراتژیک حالتهای کنترلی متنوع و یکپارچهسازی فرآیندهای یادگیری دانشآموز-معلم بهطور فزایندهای نمایش دهند.
این یک پیشرفت اساسی است که به طور بالقوه میتواند باعث فراگیر شدن رباتهای انساننما در سناریوهای دنیای واقعی شود، به این معنی که آنها قادر خواهند بود به کمک، انجام وظایف و همکاری با انسانها در فضاهای مختلف و کارهای مختلف بپردازند.