رباتهای پادار، که اغلب از حیوانات و حشرات الهام میگیرند، میتوانند به انسان در انجام وظایف مختلف دنیای واقعی، به عنوان مثال تحویل بستهها یا نظارت بر محیطهای خاص، کمک کنند. در سالهای اخیر، دانشمندان کامپیوتر الگوریتمهایی را ایجاد کردهاند که به این رباتها اجازه میدهد با سرعتهای مختلف راه بروند، بپرند، برخی از حرکات حیوانات را تقلید کنند و با چابکی زیادی حرکت کنند.
محققان در آزمایشگاه اتونومی محاسباتی و رباتیک (CURLY Lab) دانشگاه میشیگان و دانشگاه علم و صنعت جنوب، اکنون یک چارچوب مبتنی بر یادگیری تقویتی توسعه دادهاند که به رباتهای پادار اجازه میدهد با موفقیت از اسکیتبورد استفاده کنند. این چارچوب، که در مقالهای در سرور پیشچاپ arXiv ارائه شده است، میتواند برای تقلید از سایر حرکات پیچیده دنیای واقعی که مستلزم تماس فیزیکی با اشیاء نزدیک است نیز استفاده شود.
سانگلی تنگ، نویسنده مسئول این مقاله، به تکسپلور گفت: «رویکردهای حرکتی چهارپای موجود، تعامل غنی از تماس با اهداف، مانند اسکیتبورد را در نظر نمیگیرند. هدف کار ما طراحی خط لولهای برای چنین وظایف هدایتشده با تماس است که ارزش مطالعه دارند، از جمله اسکیتبورد. دانشگاه میشیگان سابقه طولانی در توسعه سیستمهای دینامیکی ترکیبی دارد، که الهامبخش ما برای شناسایی چنین اثرات ترکیبی از طریق رویکردهای دادهمحور در هوش مصنوعی بود.»
هدف اصلی کار اخیر تنگ و همکارانش این بود که به رباتهای پادار اجازه دهند حرکات هدایتشده با تماس، از جمله اسکیتبورد را انجام دهند. برای دستیابی به این هدف، آنها چارچوب جدیدی به نام یادگیری اتوماتای ترکیبی زمان-گسسته (DHAL) توسعه دادند.
«دینامیک ترکیبی» به این معنی است که یک سیستم میتواند هم انتقال حالت پیوسته و هم گسسته را انجام دهد. این اساساً به این معنی است که میتواند به آرامی حرکت کند و به طور ناگهانی حالت خود را در طول زمان تغییر دهد.
تنگ توضیح داد: «به عنوان مثال، هنگامی که یک توپ در حال جهش با زمین تعامل میکند، توپ دارای دینامیک پیوسته در هوا و انتقال حالت گسسته هنگام برخورد با زمین است.»
«برای سیستمهایی با دینامیک و توابع انتقال پیوسته متعدد، شناسایی حالت گسسته و دینامیک پیوسته به طور همزمان بسیار دشوار است. این به این دلیل است که یک انتقال احتمالی با توجه به تعداد انتقالات گسسته احتمالی به سرعت نمایی رشد میکند.»
انتقالهای ناگهانی که توسط تنگ توصیف شد، یادگیری دینامیک یک سیستم را برای روشهای محاسباتی مبتنی بر رگرسیون معمولی دشوار میکند. DHAL، چارچوبی که توسط محققان توسعه یافته است، میتواند این انتقالهای ناگهانی را شناسایی کند و متعاقباً هر بخش پیوسته از دینامیک یک سیستم را با استفاده از تکنیکهای مبتنی بر رگرسیون یاد بگیرد، و اثر ناپیوسته را کاهش دهد که مشخص شد عملکرد رباتها را در وظایفی مانند اسکیتبورد مختل میکند.
تنگ گفت: «در مقایسه با روشهای موجود، DHAL نیازی به شناسایی دستی انتقال گسسته یا دانش قبلی از تعداد حالات انتقال ندارد. همه چیز در DHAL ابتکاری است و ما نشان دادیم که روش ما میتواند به طور خودکار انتقال حالت دینامیک را شناسایی کند.»
یکی دیگر از مزایای چارچوب DHAL این است که بسیار شهودی است، بنابراین اطمینان حاصل میکند که انتقالهای حالتی که شناسایی میکند با آنهایی که معمولاً با اسکیتبورد مرتبط هستند، همسو هستند. در آزمایشهای اولیه، محققان دریافتند که به رباتهای چهار پا (یعنی چهارپا) اجازه میدهد به آرامی روی یک اسکیتبورد قدم بگذارند و از آن برای حرکت سریع به جلو و همچنین کشیدن یک چرخ دستی کوچک در پشت خود استفاده کنند.
تنگ گفت: «در فاز هل دادن، سر خوردن و بالا رفتن، DHAL به طور خودکار برچسبهای مختلفی را خروجی میدهد. روش ما را میتوان برای تخمین حالت سیستمهای دینامیکی ترکیبی به کار برد تا مشخص شود که آیا چنین انتقالی رخ میدهد یا خیر. با استفاده از این اطلاعات انتقال، سیستم میتواند حالتها را بهتر تخمین بزند تا به تصمیمگیری کمک کند.»
چارچوب یادگیری تقویتی جدیدی که تنگ و همکارانش توسعه دادهاند، میتواند به زودی امکانات جدیدی را برای استقرار رباتهای پادار در دنیای واقعی باز کند. به عنوان مثال، میتواند به آنها اجازه دهد با استفاده از اسکیتبورد سریعتر حرکت کنند و بستهها را در محیطهای شهری، داخل دفاتر یا کارخانهها تحویل دهند.
تنگ افزود: «ما اکنون قصد داریم این چارچوب را در سناریوهای دیگری مانند دستکاری ماهرانه (یعنی دستکاری اشیاء با چندین انگشت یا بازو) اعمال کنیم. انتظار میرود DHAL تماس را با دقت بیشتری پیشبینی کند، بنابراین به الگوریتمهای برنامهریزی و کنترل اجازه میدهد تصمیمات بهتری بگیرند.»
اطلاعات بیشتر: Hang Liu et al, Discrete-Time Hybrid Automata Learning: Legged Locomotion Meets Skateboarding, arXiv (2025). DOI: 10.48550/arxiv.2503.01842