انسانها به انباشت دانش در طول زمان معروف هستند، که به نوبه خود به آنها اجازه میدهد تا به طور مداوم تواناییها و مهارتهای خود را بهبود بخشند. این قابلیت، که به عنوان یادگیری مادامالعمر شناخته میشود، تا کنون ثابت کرده است که تکرار آن در هوش مصنوعی (AI) و سیستمهای رباتیک دشوار است.
یک تیم تحقیقاتی در دانشگاه فنی مونیخ و دانشگاه نانجینگ، به رهبری پروفسور Alois Knoll و دکتر Zhenshan Bing، LEGION را توسعه دادهاند، یک چارچوب یادگیری تقویتی جدید که میتواند سیستمهای رباتیک را به قابلیتهای یادگیری مادامالعمر مجهز کند.
چارچوب پیشنهادی آنها، که در مقاله ای در Nature Machine Intelligence ارائه شده است، میتواند به افزایش سازگاری رباتها کمک کند، در حالی که عملکرد آنها را در تنظیمات دنیای واقعی نیز بهبود میبخشد.
"تحقیقات ما از یک پروژه در مورد فرا یادگیری تقویتی رباتیک در سال 2021 سرچشمه گرفت، جایی که ما در ابتدا مدلهای ترکیبی گوسی (GMM) را به عنوان اولویتهایی برای استنباط وظیفه و خوشهبندی دانش بررسی کردیم." یوان منگ، نویسنده اول مقاله، به Tech Xplore گفت.
"در حالی که این رویکرد نتایج امیدوارکنندهای به دست آورد، ما با محدودیتی مواجه شدیم - GMMها به تعداد از پیش تعریف شدهای از خوشهها نیاز دارند، که آنها را برای سناریوهای یادگیری مادامالعمر که در آن تعداد وظایف ذاتاً ناشناخته است و به صورت ناهمزمان تکامل مییابد، نامناسب میسازد.
"برای رفع این مشکل، ما به مدلهای غیرپارامتری بیزی، به ویژه مدلهای ترکیبی فرآیند دیریکله (DPMMs) روی آوردیم، که میتوانند به طور پویا تعداد خوشهها را بر اساس دادههای وظیفه ورودی تنظیم کنند."
چارچوب LEGION با استفاده از دستهای از مدلها که به عنوان DPMM شناخته میشوند، به الگوریتمهایی که از طریق یادگیری تقویتی آموزش داده میشوند، اجازه میدهد تا به طور مداوم دانش را در یک جریان در حال تغییر از وظایف به دست آورند، حفظ کنند و دوباره به کار گیرند. محققان امیدوارند که این چارچوب جدید به افزایش تواناییهای یادگیری عوامل هوش مصنوعی کمک کند و آنها را یک گام به یادگیری مادامالعمر مشاهده شده در انسان نزدیکتر کند.
"چارچوب LEGION به گونهای طراحی شده است که با اجازه دادن به یک ربات برای یادگیری مداوم وظایف جدید در حین حفظ و استفاده مجدد از دانش قبلی به دست آمده، از یادگیری مادامالعمر انسان تقلید کند." منگ توضیح داد.
"مهمترین سهم آن، یک فضای دانش غیرپارامتری مبتنی بر DPMM است که به طور پویا نحوه ساختار دانش را بدون نیاز به تعداد از پیش تعریف شده خوشههای وظیفه تعیین میکند. این از فراموشی فاجعهبار جلوگیری میکند و امکان انطباق انعطافپذیر با وظایف جدید و دیده نشده را فراهم میکند."
چارچوب جدید معرفی شده توسط منگ، پروفسور نول، دکتر بینگ و همکارانشان، جاسازیهای زبانی را ادغام میکند که از یک مدل زبانی بزرگ از پیش آموزش داده شده (LLM) رمزگذاری شدهاند. این ادغام در نهایت به رباتها اجازه میدهد تا دستورالعملهای کاربر را پردازش و درک کنند و این دستورالعملها را به طور مستقل از نمایشهای وظیفه تفسیر کنند.
"علاوه بر این، چارچوب ما ترکیب مجدد دانش را تسهیل میکند، به این معنی که یک ربات میتواند وظایف طولانیمدت مانند تمیز کردن یک میز را با ترتیب هوشمندانه مهارتهای آموخته شده قبلی مانند هل دادن اشیاء، باز کردن کشوها یا فشار دادن دکمهها حل کند." منگ گفت.
"برخلاف یادگیری تقلیدی مرسوم، که به توالیهای اجرای از پیش تعریف شده متکی است، LEGION امکان ترکیب مهارت انعطافپذیر را در هر ترتیبی که لازم باشد فراهم میکند، که منجر به تعمیم و انعطافپذیری بیشتر در کاربردهای رباتیک دنیای واقعی میشود."
محققان رویکرد خود را در یک سری آزمایشهای اولیه ارزیابی کردند و آن را بر روی یک سیستم رباتیک واقعی اعمال کردند. یافتههای آنها بسیار امیدوارکننده بود، زیرا چارچوب LEGION به ربات اجازه داد تا به طور مداوم دانش را از یک جریان مداوم از وظایف جمعآوری کند.
"ما نشان دادیم که مدلهای بیزی غیرپارامتری، به ویژه DPMM، میتوانند به عنوان دانش قبلی مؤثری برای یادگیری مادامالعمر رباتیک عمل کنند." منگ گفت. "برخلاف یادگیری چندوظیفهای سنتی، که در آن تمام وظایف به طور همزمان آموخته میشوند، چارچوب ما میتواند به طور پویا با یک جریان وظیفه با تعداد ناشناخته سازگار شود، و دانش را برای بهبود عملکرد در طول زمان حفظ و دوباره ترکیب کند."
کار اخیر منگ، پروفسور نول، دکتر بینگ و همکارانشان میتواند به تلاشهای آینده با هدف توسعه رباتهایی که میتوانند به طور مداوم دانش کسب کنند و مهارتهای خود را در طول زمان اصلاح کنند، کمک کند. چارچوب LEGION را میتوان بیشتر بهبود بخشید و در طیف گستردهای از رباتها، از جمله رباتهای خدماتی و رباتهای صنعتی، به کار برد.
"به عنوان مثال، یک ربات مستقر در یک محیط خانگی میتواند به مرور زمان کارهای خانه را یاد بگیرد، مهارتهای خود را بر اساس بازخورد کاربر اصلاح کند و با وظایف جدیدی که ایجاد میشوند، سازگار شود." منگ گفت. "به طور مشابه، در محیطهای صنعتی، رباتها میتوانند به تدریج یاد بگیرند و با تغییر خطوط تولید بدون نیاز به برنامهریزی مجدد گسترده سازگار شوند."
در مطالعات بعدی خود، محققان قصد دارند روی افزایش بیشتر تعادل ثبات در مقابل انعطافپذیری در یادگیری مادامالعمر کار کنند، زیرا این امر به رباتها اجازه میدهد تا به طور قابل اعتمادی دانش را در طول زمان حفظ کنند، در حالی که با محیطها یا وظایف جدید نیز سازگار میشوند. برای انجام این کار، آنها تکنیکهای محاسباتی مختلفی از جمله پخش مجدد مولد و انتشار معکوس مداوم را ادغام خواهند کرد.
"یکی دیگر از جهات کلیدی برای تحقیقات آینده، انتقال دانش بین پلتفرمی خواهد بود، جایی که یک ربات میتواند دانش آموخته شده را در بین تجسمهای مختلف مانند رباتهای انساننما، بازوهای رباتیک و پلتفرمهای متحرک انتقال و تطبیق دهد." منگ اضافه کرد.
"ما همچنین به دنبال گسترش قابلیتهای LEGION فراتر از محیطهای ساختاریافته هستیم، که به رباتها اجازه میدهد تا با تنظیمات دنیای واقعی غیرساختاریافته و پویا با چیدمانهای متنوع اشیاء مقابله کنند. در نهایت، ما پیشبینی میکنیم که از LLMها برای انطباق بلادرنگ پاداش استفاده کنیم و رباتها را قادر سازیم تا اهداف وظیفه خود را به صورت پویا بر اساس بازخورد کلامی یا متنی اصلاح کنند."