تصویر مفهومی از فرآیند LRL رباتیک. الف، تصویر کلی از فرآیند عمومی LRL. برخلاف رویکردهای چندوظیفه‌ای مرسوم، که در آن عوامل به طور همزمان به تمام وظایف دسترسی دارند، یک عامل LRL می‌تواند به طور متوالی و یکی پس از دیگری بر وظایف تسلط یابد. علاوه بر این، عامل باید به طور مداوم دانش را در طول فرآیند انباشت کند. این مفهوم از فرآیند یادگیری انسان تقلید می‌کند. ب، چارچوب پیشنهادی ما تحت مفهوم یادگیری مادام‌العمر. ما به عامل تجسم یافته مستقر دستور می‌دهیم تا وظایف طولانی‌مدت را با استفاده از دستورات زبانی انجام دهد. عامل این وظایف را از طریق ترکیب و استفاده مجدد از دانش کسب شده انجام می‌دهد. اعتبار: Meng et al. (<i>Nature Machine Intelligence</i>, 2025).
تصویر مفهومی از فرآیند LRL رباتیک. الف، تصویر کلی از فرآیند عمومی LRL. برخلاف رویکردهای چندوظیفه‌ای مرسوم، که در آن عوامل به طور همزمان به تمام وظایف دسترسی دارند، یک عامل LRL می‌تواند به طور متوالی و یکی پس از دیگری بر وظایف تسلط یابد. علاوه بر این، عامل باید به طور مداوم دانش را در طول فرآیند انباشت کند. این مفهوم از فرآیند یادگیری انسان تقلید می‌کند. ب، چارچوب پیشنهادی ما تحت مفهوم یادگیری مادام‌العمر. ما به عامل تجسم یافته مستقر دستور می‌دهیم تا وظایف طولانی‌مدت را با استفاده از دستورات زبانی انجام دهد. عامل این وظایف را از طریق ترکیب و استفاده مجدد از دانش کسب شده انجام می‌دهد. اعتبار: Meng et al. (<i>Nature Machine Intelligence</i>, 2025).

کسب مهارت مداوم در ربات‌ها: چارچوب جدیدی که یادگیری مادام‌العمر انسان را تقلید می‌کند

انسان‌ها به انباشت دانش در طول زمان معروف هستند، که به نوبه خود به آن‌ها اجازه می‌دهد تا به طور مداوم توانایی‌ها و مهارت‌های خود را بهبود بخشند. این قابلیت، که به عنوان یادگیری مادام‌العمر شناخته می‌شود، تا کنون ثابت کرده است که تکرار آن در هوش مصنوعی (AI) و سیستم‌های رباتیک دشوار است.

یک تیم تحقیقاتی در دانشگاه فنی مونیخ و دانشگاه نانجینگ، به رهبری پروفسور Alois Knoll و دکتر Zhenshan Bing، LEGION را توسعه داده‌اند، یک چارچوب یادگیری تقویتی جدید که می‌تواند سیستم‌های رباتیک را به قابلیت‌های یادگیری مادام‌العمر مجهز کند.

چارچوب پیشنهادی آن‌ها، که در مقاله ای در Nature Machine Intelligence ارائه شده است، می‌تواند به افزایش سازگاری ربات‌ها کمک کند، در حالی که عملکرد آن‌ها را در تنظیمات دنیای واقعی نیز بهبود می‌بخشد.

"تحقیقات ما از یک پروژه در مورد فرا یادگیری تقویتی رباتیک در سال 2021 سرچشمه گرفت، جایی که ما در ابتدا مدل‌های ترکیبی گوسی (GMM) را به عنوان اولویت‌هایی برای استنباط وظیفه و خوشه‌بندی دانش بررسی کردیم." یوان منگ، نویسنده اول مقاله، به Tech Xplore گفت.

"در حالی که این رویکرد نتایج امیدوارکننده‌ای به دست آورد، ما با محدودیتی مواجه شدیم - GMMها به تعداد از پیش تعریف شده‌ای از خوشه‌ها نیاز دارند، که آن‌ها را برای سناریوهای یادگیری مادام‌العمر که در آن تعداد وظایف ذاتاً ناشناخته است و به صورت ناهمزمان تکامل می‌یابد، نامناسب می‌سازد.

"برای رفع این مشکل، ما به مدل‌های غیرپارامتری بیزی، به ویژه مدل‌های ترکیبی فرآیند دیریکله (DPMMs) روی آوردیم، که می‌توانند به طور پویا تعداد خوشه‌ها را بر اساس داده‌های وظیفه ورودی تنظیم کنند."

چارچوب LEGION با استفاده از دسته‌ای از مدل‌ها که به عنوان DPMM شناخته می‌شوند، به الگوریتم‌هایی که از طریق یادگیری تقویتی آموزش داده می‌شوند، اجازه می‌دهد تا به طور مداوم دانش را در یک جریان در حال تغییر از وظایف به دست آورند، حفظ کنند و دوباره به کار گیرند. محققان امیدوارند که این چارچوب جدید به افزایش توانایی‌های یادگیری عوامل هوش مصنوعی کمک کند و آن‌ها را یک گام به یادگیری مادام‌العمر مشاهده شده در انسان نزدیک‌تر کند.

"چارچوب LEGION به گونه‌ای طراحی شده است که با اجازه دادن به یک ربات برای یادگیری مداوم وظایف جدید در حین حفظ و استفاده مجدد از دانش قبلی به دست آمده، از یادگیری مادام‌العمر انسان تقلید کند." منگ توضیح داد.

"مهم‌ترین سهم آن، یک فضای دانش غیرپارامتری مبتنی بر DPMM است که به طور پویا نحوه ساختار دانش را بدون نیاز به تعداد از پیش تعریف شده خوشه‌های وظیفه تعیین می‌کند. این از فراموشی فاجعه‌بار جلوگیری می‌کند و امکان انطباق انعطاف‌پذیر با وظایف جدید و دیده نشده را فراهم می‌کند."

چارچوب جدید معرفی شده توسط منگ، پروفسور نول، دکتر بینگ و همکارانشان، جاسازی‌های زبانی را ادغام می‌کند که از یک مدل زبانی بزرگ از پیش آموزش داده شده (LLM) رمزگذاری شده‌اند. این ادغام در نهایت به ربات‌ها اجازه می‌دهد تا دستورالعمل‌های کاربر را پردازش و درک کنند و این دستورالعمل‌ها را به طور مستقل از نمایش‌های وظیفه تفسیر کنند.

"علاوه بر این، چارچوب ما ترکیب مجدد دانش را تسهیل می‌کند، به این معنی که یک ربات می‌تواند وظایف طولانی‌مدت مانند تمیز کردن یک میز را با ترتیب هوشمندانه مهارت‌های آموخته شده قبلی مانند هل دادن اشیاء، باز کردن کشوها یا فشار دادن دکمه‌ها حل کند." منگ گفت.

"برخلاف یادگیری تقلیدی مرسوم، که به توالی‌های اجرای از پیش تعریف شده متکی است، LEGION امکان ترکیب مهارت انعطاف‌پذیر را در هر ترتیبی که لازم باشد فراهم می‌کند، که منجر به تعمیم و انعطاف‌پذیری بیشتر در کاربردهای رباتیک دنیای واقعی می‌شود."

محققان رویکرد خود را در یک سری آزمایش‌های اولیه ارزیابی کردند و آن را بر روی یک سیستم رباتیک واقعی اعمال کردند. یافته‌های آن‌ها بسیار امیدوارکننده بود، زیرا چارچوب LEGION به ربات اجازه داد تا به طور مداوم دانش را از یک جریان مداوم از وظایف جمع‌آوری کند.

"ما نشان دادیم که مدل‌های بیزی غیرپارامتری، به ویژه DPMM، می‌توانند به عنوان دانش قبلی مؤثری برای یادگیری مادام‌العمر رباتیک عمل کنند." منگ گفت. "برخلاف یادگیری چندوظیفه‌ای سنتی، که در آن تمام وظایف به طور همزمان آموخته می‌شوند، چارچوب ما می‌تواند به طور پویا با یک جریان وظیفه با تعداد ناشناخته سازگار شود، و دانش را برای بهبود عملکرد در طول زمان حفظ و دوباره ترکیب کند."

کار اخیر منگ، پروفسور نول، دکتر بینگ و همکارانشان می‌تواند به تلاش‌های آینده با هدف توسعه ربات‌هایی که می‌توانند به طور مداوم دانش کسب کنند و مهارت‌های خود را در طول زمان اصلاح کنند، کمک کند. چارچوب LEGION را می‌توان بیشتر بهبود بخشید و در طیف گسترده‌ای از ربات‌ها، از جمله ربات‌های خدماتی و ربات‌های صنعتی، به کار برد.

"به عنوان مثال، یک ربات مستقر در یک محیط خانگی می‌تواند به مرور زمان کارهای خانه را یاد بگیرد، مهارت‌های خود را بر اساس بازخورد کاربر اصلاح کند و با وظایف جدیدی که ایجاد می‌شوند، سازگار شود." منگ گفت. "به طور مشابه، در محیط‌های صنعتی، ربات‌ها می‌توانند به تدریج یاد بگیرند و با تغییر خطوط تولید بدون نیاز به برنامه‌ریزی مجدد گسترده سازگار شوند."

در مطالعات بعدی خود، محققان قصد دارند روی افزایش بیشتر تعادل ثبات در مقابل انعطاف‌پذیری در یادگیری مادام‌العمر کار کنند، زیرا این امر به ربات‌ها اجازه می‌دهد تا به طور قابل اعتمادی دانش را در طول زمان حفظ کنند، در حالی که با محیط‌ها یا وظایف جدید نیز سازگار می‌شوند. برای انجام این کار، آن‌ها تکنیک‌های محاسباتی مختلفی از جمله پخش مجدد مولد و انتشار معکوس مداوم را ادغام خواهند کرد.

"یکی دیگر از جهات کلیدی برای تحقیقات آینده، انتقال دانش بین پلتفرمی خواهد بود، جایی که یک ربات می‌تواند دانش آموخته شده را در بین تجسم‌های مختلف مانند ربات‌های انسان‌نما، بازوهای رباتیک و پلتفرم‌های متحرک انتقال و تطبیق دهد." منگ اضافه کرد.

"ما همچنین به دنبال گسترش قابلیت‌های LEGION فراتر از محیط‌های ساختاریافته هستیم، که به ربات‌ها اجازه می‌دهد تا با تنظیمات دنیای واقعی غیرساختاریافته و پویا با چیدمان‌های متنوع اشیاء مقابله کنند. در نهایت، ما پیش‌بینی می‌کنیم که از LLMها برای انطباق بلادرنگ پاداش استفاده کنیم و ربات‌ها را قادر سازیم تا اهداف وظیفه خود را به صورت پویا بر اساس بازخورد کلامی یا متنی اصلاح کنند."