اعتبار: لیو و همکاران
اعتبار: لیو و همکاران

ربات‌های پا‌دار با موفقیت با استفاده از چارچوب یادگیری تقویتی اسکیت‌بورد می‌کنند

ربات‌های پا‌دار، که اغلب از حیوانات و حشرات الهام می‌گیرند، می‌توانند به انسان در انجام وظایف مختلف دنیای واقعی، به عنوان مثال تحویل بسته‌ها یا نظارت بر محیط‌های خاص، کمک کنند. در سال‌های اخیر، دانشمندان کامپیوتر الگوریتم‌هایی را ایجاد کرده‌اند که به این ربات‌ها اجازه می‌دهد با سرعت‌های مختلف راه بروند، بپرند، برخی از حرکات حیوانات را تقلید کنند و با چابکی زیادی حرکت کنند.

محققان در آزمایشگاه اتونومی محاسباتی و رباتیک (CURLY Lab) دانشگاه میشیگان و دانشگاه علم و صنعت جنوب، اکنون یک چارچوب مبتنی بر یادگیری تقویتی توسعه داده‌اند که به ربات‌های پا‌دار اجازه می‌دهد با موفقیت از اسکیت‌بورد استفاده کنند. این چارچوب، که در مقاله‌ای در سرور پیش‌چاپ arXiv ارائه شده است، می‌تواند برای تقلید از سایر حرکات پیچیده دنیای واقعی که مستلزم تماس فیزیکی با اشیاء نزدیک است نیز استفاده شود.

سانگلی تنگ، نویسنده مسئول این مقاله، به تکسپلور گفت: «رویکردهای حرکتی چهارپای موجود، تعامل غنی از تماس با اهداف، مانند اسکیت‌بورد را در نظر نمی‌گیرند. هدف کار ما طراحی خط لوله‌ای برای چنین وظایف هدایت‌شده با تماس است که ارزش مطالعه دارند، از جمله اسکیت‌بورد. دانشگاه میشیگان سابقه طولانی در توسعه سیستم‌های دینامیکی ترکیبی دارد، که الهام‌بخش ما برای شناسایی چنین اثرات ترکیبی از طریق رویکردهای داده‌محور در هوش مصنوعی بود.»

هدف اصلی کار اخیر تنگ و همکارانش این بود که به ربات‌های پا‌دار اجازه دهند حرکات هدایت‌شده با تماس، از جمله اسکیت‌بورد را انجام دهند. برای دستیابی به این هدف، آنها چارچوب جدیدی به نام یادگیری اتوماتای ترکیبی زمان-گسسته (DHAL) توسعه دادند.

«دینامیک ترکیبی» به این معنی است که یک سیستم می‌تواند هم انتقال حالت پیوسته و هم گسسته را انجام دهد. این اساساً به این معنی است که می‌تواند به آرامی حرکت کند و به طور ناگهانی حالت خود را در طول زمان تغییر دهد.

تنگ توضیح داد: «به عنوان مثال، هنگامی که یک توپ در حال جهش با زمین تعامل می‌کند، توپ دارای دینامیک پیوسته در هوا و انتقال حالت گسسته هنگام برخورد با زمین است.»

«برای سیستم‌هایی با دینامیک و توابع انتقال پیوسته متعدد، شناسایی حالت گسسته و دینامیک پیوسته به طور همزمان بسیار دشوار است. این به این دلیل است که یک انتقال احتمالی با توجه به تعداد انتقالات گسسته احتمالی به سرعت نمایی رشد می‌کند.»

انتقال‌های ناگهانی که توسط تنگ توصیف شد، یادگیری دینامیک یک سیستم را برای روش‌های محاسباتی مبتنی بر رگرسیون معمولی دشوار می‌کند. DHAL، چارچوبی که توسط محققان توسعه یافته است، می‌تواند این انتقال‌های ناگهانی را شناسایی کند و متعاقباً هر بخش پیوسته از دینامیک یک سیستم را با استفاده از تکنیک‌های مبتنی بر رگرسیون یاد بگیرد، و اثر ناپیوسته را کاهش دهد که مشخص شد عملکرد ربات‌ها را در وظایفی مانند اسکیت‌بورد مختل می‌کند.

تنگ گفت: «در مقایسه با روش‌های موجود، DHAL نیازی به شناسایی دستی انتقال گسسته یا دانش قبلی از تعداد حالات انتقال ندارد. همه چیز در DHAL ابتکاری است و ما نشان دادیم که روش ما می‌تواند به طور خودکار انتقال حالت دینامیک را شناسایی کند.»

یکی دیگر از مزایای چارچوب DHAL این است که بسیار شهودی است، بنابراین اطمینان حاصل می‌کند که انتقال‌های حالتی که شناسایی می‌کند با آنهایی که معمولاً با اسکیت‌بورد مرتبط هستند، همسو هستند. در آزمایش‌های اولیه، محققان دریافتند که به ربات‌های چهار پا (یعنی چهارپا) اجازه می‌دهد به آرامی روی یک اسکیت‌بورد قدم بگذارند و از آن برای حرکت سریع به جلو و همچنین کشیدن یک چرخ دستی کوچک در پشت خود استفاده کنند.

تنگ گفت: «در فاز هل دادن، سر خوردن و بالا رفتن، DHAL به طور خودکار برچسب‌های مختلفی را خروجی می‌دهد. روش ما را می‌توان برای تخمین حالت سیستم‌های دینامیکی ترکیبی به کار برد تا مشخص شود که آیا چنین انتقالی رخ می‌دهد یا خیر. با استفاده از این اطلاعات انتقال، سیستم می‌تواند حالت‌ها را بهتر تخمین بزند تا به تصمیم‌گیری کمک کند.»

چارچوب یادگیری تقویتی جدیدی که تنگ و همکارانش توسعه داده‌اند، می‌تواند به زودی امکانات جدیدی را برای استقرار ربات‌های پا‌دار در دنیای واقعی باز کند. به عنوان مثال، می‌تواند به آنها اجازه دهد با استفاده از اسکیت‌بورد سریع‌تر حرکت کنند و بسته‌ها را در محیط‌های شهری، داخل دفاتر یا کارخانه‌ها تحویل دهند.

تنگ افزود: «ما اکنون قصد داریم این چارچوب را در سناریوهای دیگری مانند دستکاری ماهرانه (یعنی دستکاری اشیاء با چندین انگشت یا بازو) اعمال کنیم. انتظار می‌رود DHAL تماس را با دقت بیشتری پیش‌بینی کند، بنابراین به الگوریتم‌های برنامه‌ریزی و کنترل اجازه می‌دهد تصمیمات بهتری بگیرند.»

اطلاعات بیشتر: Hang Liu et al, Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding, arXiv (2025). DOI: 10.48550/arxiv.2503.01842