چگونه ربات‌ها ترجیحات را با حداقل بازخورد انسانی یاد می‌گیرند

چالش اصلی: درک ترجیحات انسانی توسط ربات‌ها

در تلاش برای توسعه ربات‌هایی که می‌توانند به طور یکپارچه با انسان‌ها کار کنند، یادگیری ترجیحات با حداقل بازخورد بسیار مهم است. آردام ویک، استادیار دانشگاه کالیفرنیای جنوبی (University of Southern California)، تحقیقات پیشگامانه‌ای را در این زمینه رهبری می‌کند. سخنرانی اخیر او با عنوان «یادگیری ترجیحات از حداقل بازخورد انسانی برای رباتیک تعاملی» به بررسی چگونگی یادگیری ربات‌ها برای انطباق از طریق روش‌های شهودی و کارآمدتر می‌پردازد.

بیایید بررسی کنیم که چگونه تحقیقات ویک نحوه تفسیر رفتار انسان توسط ربات‌ها را بدون نیاز به مجموعه‌های داده عظیم تغییر می‌دهد.

چالش اصلی: درک ترجیحات انسانی توسط ربات‌ها

یادگیری ماشین (Machine Learning) صنایع مختلفی را متحول کرده است، اما موفقیت آن اغلب به دسترسی به مجموعه‌های داده عظیم بستگی دارد. در مورد GPT-4 یا ImageNet، مقیاس، همه چیز است. با این حال، وقتی نوبت به رباتیک، به ویژه رباتیک تعاملی می‌رسد، جمع‌آوری داده‌ها بسیار دشوارتر و پرهزینه‌تر می‌شود.

مزرعه بازوی رباتیک گوگل (Google) را در نظر بگیرید. با وجود مقیاس آن، هنوز هم نمی‌تواند با حجم داده‌های موجود در حوزه‌های هوش مصنوعی (AI) سنتی مطابقت داشته باشد. این مشکل زمانی پیچیده‌تر می‌شود که تعامل انسان و ربات در میان باشد. این نه تنها به سخت‌افزار گران‌قیمت نیاز دارد، بلکه به ورودی مداوم انسانی نیز نیاز دارد، که یک گلوگاه برای توسعه مقیاس‌پذیر است.

گروه ویک در دانشگاه کالیفرنیای جنوبی (USC) با مهار انواع مختلف سیگنال‌های انسانی - نمایش‌ها، زبان، حرکات و نگاه - به این چالش رسیدگی می‌کند. کار اخیر او به طور خاص بر دو نوع بازخورد متمرکز است: مقایسه‌ها و زبان مقایسه‌ای.

یادگیری از مقایسه‌ها: تغییر از نمایش‌ها

یک روش سنتی در رباتیک، یادگیری از طریق نمایش (Learning from Demonstrations یا LfD) است. در اینجا، یک انسان مثالی از نحوه انجام یک کار ارائه می‌دهد و ربات سعی می‌کند از آن تقلید کند، که معمولاً از طریق شبیه‌سازی رفتاری (Behavioral Cloning) یا یادگیری تقویتی معکوس (Inverse Reinforcement Learning یا IRL) انجام می‌شود. در حالی که LfD در برخی تنظیمات مانند رانندگی خودران موثر است، اغلب به دلیل نقص‌های ذاتی در نمایش‌های انسانی با مشکل مواجه می‌شود.

چرا نمایش‌ها کوتاهی می‌کنند:

انسان‌ها همیشه بهینه نیستند، به ویژه در کارهایی که شامل کنترل دقیق هستند.
یک مطالعه رانندگی تصمیمات غیربهینه مداوم را نشان داد.
در کارهای تله‌عملیاتی با ربات‌های پیچیده (به عنوان مثال، بازوهای 7 درجه آزادی)، ورودی انسانی اغلب نادرست بود.

تیم ویک به جای تکیه بر نمایش‌های ناقص، به مقایسه‌ها روی می‌آورد. کاربران به جای امتیاز دادن یا رتبه‌بندی اقدامات ربات، به سادگی بین دو گزینه انتخاب می‌کنند. این رویکرد به چیزی متکی است که انسان‌ها به طور طبیعی انجام می‌دهند - مقایسه و انتخاب.

تشبیه دنیای واقعی: هنگام انتخاب یک مسیر در Google Maps یا تصمیم‌گیری بین گزینه‌های سواری Uber، ما امتیاز تعیین نمی‌کنیم - ما چیزی را انتخاب می‌کنیم که احساس بهتری داشته باشد.

در زمینه یادگیری ربات، ربات دو مسیر را ارائه می‌دهد و از کاربر می‌پرسد که کدام یک را ترجیح می‌دهد. این ترجیحات سپس در یک چارچوب یادگیری تقویتی معکوس بیزی (Bayesian Inverse Reinforcement Learning یا BIRL) گنجانده می‌شوند. با مدل‌سازی انتخاب انسان به عنوان بهینه‌سازی پر سر و صدا، ربات محتمل‌ترین تابع پاداش را تخمین می‌زند.

نتایج نشان می‌دهد که یادگیری مبتنی بر مقایسه اغلب عملکرد بهتری نسبت به یادگیری مبتنی بر نمایش دارد، به ویژه در سناریوهایی مانند رسیدن به هدف و اجتناب از مانع.

کارآمد کردن یادگیری: پرسش فعال و بازخورد غنی‌تر

یک نوآوری کلیدی، پرسش فعال - پرسیدن فقط آگاهانه‌ترین سوالات - است. با به حداکثر رساندن اطلاعات متقابل بین پاسخ کاربر و عدم قطعیت ربات، فرآیند یادگیری سریع‌تر و کارآمدتر می‌شود.

یکی دیگر از پیشرفت‌ها شامل بازخورد مقایسه‌ای غنی‌تر، مانند استفاده از لغزنده‌ها برای نشان دادن قدرت یک ترجیح است. این تفاوت ظریف اضافی به ربات‌ها کمک می‌کند تا رفتارها را با دقت بیشتری تنظیم کنند.

کاربردها: تیم ویک این روش‌ها را برای بهینه‌سازی مصالحه‌های تاخیر و هزینه در اشتراک‌گذاری سفر به کار برد و نشان داد که چگونه داده‌های ترجیحات کاربر می‌تواند به رفع چالش‌های شهری گسترده‌تری مانند تراکم ترافیک کمک کند.

فراتر از مقایسه‌ها: یادگیری از بازخورد زبان مقایسه‌ای

در حالی که مقایسه‌ها مفید هستند، اما زمان‌بر هستند. هر تصمیم نیاز به مشاهده چندین عمل ربات دارد. برای سریع‌تر کردن این فرآیند، تیم ویک به بررسی یادگیری از بازخورد زبان مقایسه‌ای می‌پردازد - عبارات کوتاهی که توضیح می‌دهند چگونه می‌توان یک مسیر را بهبود بخشید (به عنوان مثال، "به مکعب نزدیک‌تر شوید").

چالش در زمینه‌سازی زبان انسانی در عمل رباتیک نهفته است. برای رسیدگی به این موضوع، این تیم یک فضای نهفته مشترک ایجاد کرد که در آن هر دو مسیر و حاشیه‌نویسی‌های زبانی نگاشت می‌شوند. این به ربات اجازه می‌دهد تا بازخورد مبتنی بر زبان را درک کرده و بر اساس آن عمل کند.

فرآیند شامل:

پیش‌آموزش بر روی مجموعه داده‌ای از جفت‌های مسیر با حاشیه‌نویسی‌های توصیفی (نه فقط ترجیحات).
استفاده از مدل‌های زبان بزرگ (به عنوان مثال، T5) برای رمزگذاری و افزایش بازخورد.
هم‌ترازی زبان و تعبیه‌های مسیر برای ایجاد بردارهای عملی برای بهبود.

از اینجا، دو استراتژی پدیدار می‌شوند:

بهبود تکراری: ربات‌ها رفتار خود را با حرکت در جهتی که توسط بردار زبان پیشنهاد می‌شود، به روز می‌کنند.
یادگیری تقویتی از بازخورد انسانی (Reinforcement Learning from Human Feedback یا RLHF): بازخورد را به عنوان یک ترجیح ضمنی در نظر می‌گیرد و مسیرهای بهبود یافته تخیلی را در آموزش ادغام می‌کند.

با تشخیص اینکه یک بازخورد به طور ضمنی نشان می‌دهد که بهتر از سایر جایگزین‌های ناگفته است، یک جمله واحد می‌تواند سیگنال‌های یادگیری متعددی ایجاد کند.

نتایج: بازخورد زبان مقایسه‌ای در عملکرد با یادگیری مقایسه‌ای سنتی رقابت می‌کند و به طور قابل توجهی سریع‌تر است، به ویژه زمانی که از تبدیل گفتار به متن استفاده می‌شود. مطالعات انسانی تأیید می‌کند که شرکت‌کنندگان ارائه بازخورد به این روش را ترجیح می‌دهند.

مفاهیم و جهت‌گیری‌های آینده

کار ویک به یک روند گسترده‌تر در هوش مصنوعی و رباتیک اشاره دارد: استفاده از داده‌های هوشمندتر، نه بزرگ‌تر. بازخورد مقایسه‌ای - چه بصری و چه زبانی - مسیری را به سوی ربات‌های سازگارتر و آگاه‌تر از نظر اجتماعی ارائه می‌دهد.

سایر زمینه‌های اکتشاف شامل:

استفاده از بازخورد از حرکات، حالات چهره و مداخلات.
به کارگیری یادگیری ترجیحات در حوزه‌های غیر رباتیک مانند تولید متن.
استفاده از مدل‌های هوش مصنوعی برای کمک به تفسیر و افزایش سیگنال‌های بازخورد انسانی.

نظرات نهایی در مورد ربات‌ها و حداقل بازخورد انسانی

تحقیقات آردام ویک معنای "گوش دادن" و "یادگیری" ربات‌ها را دوباره تعریف می‌کند. تیم او با تغییر از نمایش‌های سخت‌گیرانه به بازخورد انعطاف‌پذیر و حداقلی، ما را به ربات‌هایی نزدیک‌تر می‌کند که به طور طبیعی و هوشمندانه با مردم همکاری می‌کنند.

برای دانشمندان داده و متخصصان رباتیک، این بینش‌ها ارزش محیط‌های غنی از بازخورد، یادگیری فعال و زمینه‌سازی زبان را برجسته می‌کند. با تکامل تکنیک‌های یادگیری ترجیحات، امکانات همکاری انسان و ربات نیز تکامل می‌یابد و ربات‌ها را نه تنها هوشمندتر، بلکه آگاه‌تر از انسان می‌کند.

https://odsc.medium.com/how-robots-learn-preferences-with-minimal-human-feedback-c56c5d665f83?source=rss-2b9d62538208------2