از پاداش‌های پراکنده تا تسلط دقیق: چگونه DEMO3 انقلابی در دستکاری رباتیک ایجاد می‌کند

چارچوب DEMO3
چارچوب DEMO3

وظایف دستکاری رباتیک با افق طولانی، به دلیل پاداش‌های پراکنده، فضاهای حالت-کنش با ابعاد بالا و چالش طراحی توابع پاداش مفید، یک چالش جدی برای یادگیری تقویتی هستند. یادگیری تقویتی مرسوم برای مدیریت اکتشاف کارآمد مناسب نیست، زیرا عدم وجود بازخورد مانع از یادگیری سیاست‌های بهینه می‌شود. این مسئله در وظایف کنترل رباتیک استدلال چند مرحله‌ای اهمیت دارد، جایی که دستیابی به اهداف فرعی متوالی برای موفقیت کلی ضروری است. ساختارهای پاداش ضعیف طراحی شده می‌توانند باعث شوند که عوامل در بهینه‌های محلی گیر کنند یا از میانبرهای جعلی سوء استفاده کنند، که منجر به فرآیندهای یادگیری غیربهینه می‌شود. علاوه بر این، بیشتر روش‌های موجود دارای پیچیدگی نمونه بالایی هستند و برای تعمیم به وظایف دستکاری متنوع، به حجم زیادی از داده‌های آموزشی نیاز دارند. چنین محدودیت‌هایی یادگیری تقویتی را برای وظایف دنیای واقعی غیرممکن می‌کند، جایی که کارایی داده و سیگنال‌های یادگیری ساختاریافته برای موفقیت کلیدی هستند.

عملکرد DEMO3
عملکرد DEMO3

تحقیقات قبلی که به این مسائل پرداخته‌اند، یادگیری تقویتی مبتنی بر مدل، یادگیری مبتنی بر نمایش و یادگیری تقویتی معکوس را بررسی کرده‌اند. روش‌های مبتنی بر مدل، از جمله TD-MPC2، با بهره‌گیری از مدل‌های دنیای پیش‌بینی‌کننده، کارایی نمونه را بهبود می‌بخشند، اما برای بهینه‌سازی سیاست‌ها به میزان زیادی اکتشاف نیاز دارند. روش‌های مبتنی بر نمایش، از جمله MoDem و CoDER، با بهره‌گیری از مسیرهای متخصص، مشکلات اکتشاف را کاهش می‌دهند، اما به دلیل نیاز به مجموعه‌های داده بزرگ، مقیاس‌بندی خوبی برای وظایف با ابعاد بالا و افق طولانی ندارند. روش‌های یادگیری تقویتی معکوس تلاش می‌کنند تا توابع پاداش را از نمایش‌ها یاد بگیرند، اما فاقد توانایی تعمیم خوب و پیچیدگی محاسباتی هستند. علاوه بر این، بیشتر رویکردها در این زمینه از ساختار ذاتی وظایف چند مرحله‌ای استفاده نمی‌کنند و از این رو از امکان تجزیه اهداف پیچیده به اهداف فرعی قابل مدیریت‌تر بهره نمی‌برند.

نتایج DEMO3
نتایج DEMO3

برای غلبه بر این چالش‌ها، محققان یادگیری پاداش، سیاست و مدل جهانی تقویت‌شده با نمایش (DEMO3) را معرفی کرده‌اند، یک چارچوب یادگیری تقویتی که دستیابی به پاداش ساختاریافته، بهینه‌سازی سیاست و تصمیم‌گیری مبتنی بر مدل را یکپارچه می‌کند. این چارچوب سه نوآوری اصلی را معرفی می‌کند: تبدیل شاخص‌های مرحله پراکنده به پاداش‌های پیوسته و ساختاریافته که بازخورد مطمئن‌تری را ارائه می‌دهند؛ یک برنامه آموزشی دو فازی که در ابتدا از شبیه‌سازی رفتاری و به دنبال آن یک فرآیند یادگیری تقویتی تعاملی استفاده می‌کند؛ و یکپارچه‌سازی یادگیری مدل جهانی آنلاین، که امکان انطباق پویای جریمه در طول آموزش را فراهم می‌کند. برخلاف رویکردهای فعلی، این روش امکان دستیابی به پاداش ساختاریافته در زمان واقعی را از طریق متمایزکننده‌های خاص مرحله‌ای فراهم می‌کند که احتمال پیشرفت به سمت اهداف فرعی را ارزیابی می‌کنند. در نتیجه، این چارچوب بر دستیابی به اهداف وظیفه تمرکز دارد تا تقلید نمایش، که به طور قابل توجهی کارایی نمونه و تعمیم در وظایف دستکاری رباتیک را بهبود می‌بخشد.

DEMO3 از پایه رویکرد TD-MPC2 ساخته شده است، که یک مدل جهانی فضای نهفته را برای افزایش مراحل برنامه‌ریزی و کنترل یاد می‌گیرد. این استراتژی مبتنی بر متمایزکننده‌های خاص مرحله‌ای متعددی است که هر کدام یاد می‌گیرند شانس انتقال موفقیت‌آمیز به مرحله وظیفه بعدی را پیش‌بینی کنند. این متمایزکننده‌ها با استفاده از معیار تلفات آنتروپی متقابل باینری تنظیم دقیق می‌شوند و به شکل‌دهی پاداش آنلاین کمک می‌کنند و سیگنال‌های یادگیری غنی‌تری را در مقایسه با پاداش‌های متعارف پراکنده تولید می‌کنند. آموزش از یک فرآیند سیستماتیک دو فازی پیروی می‌کند. ابتدا، در مرحله پیش‌آموزش، یک سیاست و یک رمزگذار با استفاده از شبیه‌سازی رفتاری از یک مجموعه جزئی از نمایش‌های متخصص آموخته می‌شوند. ثانیاً، عاملی که در فرآیندهای یادگیری تقویتی مداوم شرکت می‌کند، یاد می‌گیرد که سیاست را از طریق فرآیند تعاملات محیطی تنظیم و اصلاح کند در حالی که به پاداش‌های متراکم مشتق شده وابسته است. یک فرآیند بازپخت معرفی می‌شود تا کارایی عملیات از طریق انتقال تدریجی وابستگی از شبیه‌سازی رفتاری به یادگیری مستقل بهبود یابد. این انتقال هموار، انتقال پیشرونده رفتار از تقلید ناشی از نمایش به بهبود سیاست را به طور مستقل امکان‌پذیر می‌کند. این رویکرد بر روی شانزده وظیفه دستکاری رباتیک دشوار، شامل Meta-World، Robosuite و ManiSkill3 آزمایش شده است و در مقایسه با جایگزین‌های پیشرفته موجود، پیشرفت‌های قابل توجهی در کارایی یادگیری و همچنین استحکام به دست می‌آورد.

DEMO3 با کسب پیشرفت‌های قابل توجه در کارایی نمونه، زمان یادگیری و نرخ موفقیت کلی تکمیل وظیفه، از الگوریتم‌های یادگیری تقویتی پیشرفته بسیار بهتر عمل می‌کند. این روش به طور متوسط ​​40٪ بهبود در کارایی داده نسبت به روش‌های رقیب ثبت می‌کند، با 70٪ بهبود گزارش شده برای چالش‌های بسیار دشوار و با افق طولانی. این سیستم همیشه با تعداد کمی به اندازه پنج نمایش، نرخ موفقیت بالایی را گزارش می‌کند، در مقایسه با روش‌های رقیب که برای دستیابی به موفقیت قابل مقایسه به مجموعه‌های داده بسیار بزرگتری نیاز دارند. با توانایی پردازش مناسب نمونه‌های پاداش پراکنده چند مرحله‌ای، این سیستم از وظایف دستکاری رباتیک دقیق مانند قرار دادن میخ و چیدن مکعب با نرخ موفقیت بهبود یافته در بودجه‌های تعاملی محدود بهتر عمل می‌کند. هزینه‌های محاسباتی نیز قابل مقایسه است و به طور متوسط ​​حدود 5.19 ساعت برای هر 100000 مرحله تعامل است، از این رو کارآمدتر از مدل‌های یادگیری تقویتی رقیب است در حالی که نتایج برتری در یادگیری مهارت‌های رباتیک پیچیده به دست می‌آورد.

DEMO3 یک پیشرفت قابل توجه در یادگیری تقویتی است که برای کنترل رباتیک طراحی شده است و در رسیدگی به چالش‌های مقابله با وظایف با افق طولانی با پاداش‌های پراکنده موثر است. این چارچوب با استفاده از یادگیری پاداش متراکم آنلاین، بهینه‌سازی سیاست ساختاریافته و تصمیم‌گیری مبتنی بر مدل، می‌تواند به عملکرد و کارایی بالایی دست یابد. گنجاندن یک روش آموزشی دو فازی و انطباق پاداش پویا به دستیابی به پیشرفت‌های کارایی داده تماشایی کمک می‌کند و نرخ موفقیت در مقایسه با روش‌های موجود در انواع وظایف دستکاری 40-70٪ بالاتر است. با بهبود شکل‌دهی پاداش، بهینه‌سازی یادگیری سیاست و کاهش وابستگی به مجموعه‌های داده نمایش بزرگ، این روش پایه‌ای برای روش‌های یادگیری رباتیک کارآمدتر و مقیاس‌پذیرتر فراهم می‌کند. تحقیقات آینده می‌تواند به سمت رویکردهای نمونه‌برداری نمایش پیشرفته‌تر و تکنیک‌های شکل‌دهی پاداش تطبیقی ​​برای افزایش بیشتر کارایی داده و تسریع یادگیری تقویتی در وظایف رباتیک دنیای واقعی هدایت شود.

مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، در توییتر ما را دنبال کنید و فراموش نکنید که به SubReddit 80k+ ML ما بپیوندید.