چالش اصلی: درک ترجیحات انسانی توسط رباتها
در تلاش برای توسعه رباتهایی که میتوانند به طور یکپارچه با انسانها کار کنند، یادگیری ترجیحات با حداقل بازخورد بسیار مهم است. آردام ویک، استادیار دانشگاه کالیفرنیای جنوبی (University of Southern California)، تحقیقات پیشگامانهای را در این زمینه رهبری میکند. سخنرانی اخیر او با عنوان «یادگیری ترجیحات از حداقل بازخورد انسانی برای رباتیک تعاملی» به بررسی چگونگی یادگیری رباتها برای انطباق از طریق روشهای شهودی و کارآمدتر میپردازد.
بیایید بررسی کنیم که چگونه تحقیقات ویک نحوه تفسیر رفتار انسان توسط رباتها را بدون نیاز به مجموعههای داده عظیم تغییر میدهد.
چالش اصلی: درک ترجیحات انسانی توسط رباتها
یادگیری ماشین (Machine Learning) صنایع مختلفی را متحول کرده است، اما موفقیت آن اغلب به دسترسی به مجموعههای داده عظیم بستگی دارد. در مورد GPT-4 یا ImageNet، مقیاس، همه چیز است. با این حال، وقتی نوبت به رباتیک، به ویژه رباتیک تعاملی میرسد، جمعآوری دادهها بسیار دشوارتر و پرهزینهتر میشود.
مزرعه بازوی رباتیک گوگل (Google) را در نظر بگیرید. با وجود مقیاس آن، هنوز هم نمیتواند با حجم دادههای موجود در حوزههای هوش مصنوعی (AI) سنتی مطابقت داشته باشد. این مشکل زمانی پیچیدهتر میشود که تعامل انسان و ربات در میان باشد. این نه تنها به سختافزار گرانقیمت نیاز دارد، بلکه به ورودی مداوم انسانی نیز نیاز دارد، که یک گلوگاه برای توسعه مقیاسپذیر است.
گروه ویک در دانشگاه کالیفرنیای جنوبی (USC) با مهار انواع مختلف سیگنالهای انسانی - نمایشها، زبان، حرکات و نگاه - به این چالش رسیدگی میکند. کار اخیر او به طور خاص بر دو نوع بازخورد متمرکز است: مقایسهها و زبان مقایسهای.
یادگیری از مقایسهها: تغییر از نمایشها
یک روش سنتی در رباتیک، یادگیری از طریق نمایش (Learning from Demonstrations یا LfD) است. در اینجا، یک انسان مثالی از نحوه انجام یک کار ارائه میدهد و ربات سعی میکند از آن تقلید کند، که معمولاً از طریق شبیهسازی رفتاری (Behavioral Cloning) یا یادگیری تقویتی معکوس (Inverse Reinforcement Learning یا IRL) انجام میشود. در حالی که LfD در برخی تنظیمات مانند رانندگی خودران موثر است، اغلب به دلیل نقصهای ذاتی در نمایشهای انسانی با مشکل مواجه میشود.
چرا نمایشها کوتاهی میکنند:
- انسانها همیشه بهینه نیستند، به ویژه در کارهایی که شامل کنترل دقیق هستند.
- یک مطالعه رانندگی تصمیمات غیربهینه مداوم را نشان داد.
- در کارهای تلهعملیاتی با رباتهای پیچیده (به عنوان مثال، بازوهای 7 درجه آزادی)، ورودی انسانی اغلب نادرست بود.
تیم ویک به جای تکیه بر نمایشهای ناقص، به مقایسهها روی میآورد. کاربران به جای امتیاز دادن یا رتبهبندی اقدامات ربات، به سادگی بین دو گزینه انتخاب میکنند. این رویکرد به چیزی متکی است که انسانها به طور طبیعی انجام میدهند - مقایسه و انتخاب.
تشبیه دنیای واقعی: هنگام انتخاب یک مسیر در Google Maps یا تصمیمگیری بین گزینههای سواری Uber، ما امتیاز تعیین نمیکنیم - ما چیزی را انتخاب میکنیم که احساس بهتری داشته باشد.
در زمینه یادگیری ربات، ربات دو مسیر را ارائه میدهد و از کاربر میپرسد که کدام یک را ترجیح میدهد. این ترجیحات سپس در یک چارچوب یادگیری تقویتی معکوس بیزی (Bayesian Inverse Reinforcement Learning یا BIRL) گنجانده میشوند. با مدلسازی انتخاب انسان به عنوان بهینهسازی پر سر و صدا، ربات محتملترین تابع پاداش را تخمین میزند.
نتایج نشان میدهد که یادگیری مبتنی بر مقایسه اغلب عملکرد بهتری نسبت به یادگیری مبتنی بر نمایش دارد، به ویژه در سناریوهایی مانند رسیدن به هدف و اجتناب از مانع.
کارآمد کردن یادگیری: پرسش فعال و بازخورد غنیتر
یک نوآوری کلیدی، پرسش فعال - پرسیدن فقط آگاهانهترین سوالات - است. با به حداکثر رساندن اطلاعات متقابل بین پاسخ کاربر و عدم قطعیت ربات، فرآیند یادگیری سریعتر و کارآمدتر میشود.
یکی دیگر از پیشرفتها شامل بازخورد مقایسهای غنیتر، مانند استفاده از لغزندهها برای نشان دادن قدرت یک ترجیح است. این تفاوت ظریف اضافی به رباتها کمک میکند تا رفتارها را با دقت بیشتری تنظیم کنند.
کاربردها: تیم ویک این روشها را برای بهینهسازی مصالحههای تاخیر و هزینه در اشتراکگذاری سفر به کار برد و نشان داد که چگونه دادههای ترجیحات کاربر میتواند به رفع چالشهای شهری گستردهتری مانند تراکم ترافیک کمک کند.
فراتر از مقایسهها: یادگیری از بازخورد زبان مقایسهای
در حالی که مقایسهها مفید هستند، اما زمانبر هستند. هر تصمیم نیاز به مشاهده چندین عمل ربات دارد. برای سریعتر کردن این فرآیند، تیم ویک به بررسی یادگیری از بازخورد زبان مقایسهای میپردازد - عبارات کوتاهی که توضیح میدهند چگونه میتوان یک مسیر را بهبود بخشید (به عنوان مثال، "به مکعب نزدیکتر شوید").
چالش در زمینهسازی زبان انسانی در عمل رباتیک نهفته است. برای رسیدگی به این موضوع، این تیم یک فضای نهفته مشترک ایجاد کرد که در آن هر دو مسیر و حاشیهنویسیهای زبانی نگاشت میشوند. این به ربات اجازه میدهد تا بازخورد مبتنی بر زبان را درک کرده و بر اساس آن عمل کند.
فرآیند شامل:
- پیشآموزش بر روی مجموعه دادهای از جفتهای مسیر با حاشیهنویسیهای توصیفی (نه فقط ترجیحات).
- استفاده از مدلهای زبان بزرگ (به عنوان مثال، T5) برای رمزگذاری و افزایش بازخورد.
- همترازی زبان و تعبیههای مسیر برای ایجاد بردارهای عملی برای بهبود.
از اینجا، دو استراتژی پدیدار میشوند:
- بهبود تکراری: رباتها رفتار خود را با حرکت در جهتی که توسط بردار زبان پیشنهاد میشود، به روز میکنند.
- یادگیری تقویتی از بازخورد انسانی (Reinforcement Learning from Human Feedback یا RLHF): بازخورد را به عنوان یک ترجیح ضمنی در نظر میگیرد و مسیرهای بهبود یافته تخیلی را در آموزش ادغام میکند.
با تشخیص اینکه یک بازخورد به طور ضمنی نشان میدهد که بهتر از سایر جایگزینهای ناگفته است، یک جمله واحد میتواند سیگنالهای یادگیری متعددی ایجاد کند.
نتایج: بازخورد زبان مقایسهای در عملکرد با یادگیری مقایسهای سنتی رقابت میکند و به طور قابل توجهی سریعتر است، به ویژه زمانی که از تبدیل گفتار به متن استفاده میشود. مطالعات انسانی تأیید میکند که شرکتکنندگان ارائه بازخورد به این روش را ترجیح میدهند.
مفاهیم و جهتگیریهای آینده
کار ویک به یک روند گستردهتر در هوش مصنوعی و رباتیک اشاره دارد: استفاده از دادههای هوشمندتر، نه بزرگتر. بازخورد مقایسهای - چه بصری و چه زبانی - مسیری را به سوی رباتهای سازگارتر و آگاهتر از نظر اجتماعی ارائه میدهد.
سایر زمینههای اکتشاف شامل:
- استفاده از بازخورد از حرکات، حالات چهره و مداخلات.
- به کارگیری یادگیری ترجیحات در حوزههای غیر رباتیک مانند تولید متن.
- استفاده از مدلهای هوش مصنوعی برای کمک به تفسیر و افزایش سیگنالهای بازخورد انسانی.
نظرات نهایی در مورد رباتها و حداقل بازخورد انسانی
تحقیقات آردام ویک معنای "گوش دادن" و "یادگیری" رباتها را دوباره تعریف میکند. تیم او با تغییر از نمایشهای سختگیرانه به بازخورد انعطافپذیر و حداقلی، ما را به رباتهایی نزدیکتر میکند که به طور طبیعی و هوشمندانه با مردم همکاری میکنند.
برای دانشمندان داده و متخصصان رباتیک، این بینشها ارزش محیطهای غنی از بازخورد، یادگیری فعال و زمینهسازی زبان را برجسته میکند. با تکامل تکنیکهای یادگیری ترجیحات، امکانات همکاری انسان و ربات نیز تکامل مییابد و رباتها را نه تنها هوشمندتر، بلکه آگاهتر از انسان میکند.