مدلهای زبانی بزرگ (LLM) به سرعت در حال تبدیل شدن به عاملهای خودکاری هستند که قادر به انجام وظایف پیچیدهای هستند که نیازمند استدلال، تصمیمگیری و انطباقپذیری هستند. این عاملها در زمینههای مختلفی مانند مرور وب، دستیاری شخصی و توسعه نرمافزار به کار گرفته میشوند. برای عملکرد مؤثر در محیطهای واقعی، این عاملها باید تعاملات چند مرحلهای را که شامل چندین گام یا نقطه تصمیمگیری است، مدیریت کنند. این امر نیاز به روشهای آموزشی فراتر از تولید پاسخ ساده را ایجاب میکند و در عوض بر بهینهسازی کل مسیر تعاملات تمرکز دارد. یادگیری تقویتی (RL) به عنوان یک رویکرد قانعکننده برای آموزش چنین عاملهایی با پالایش تصمیمگیری آنها بر اساس پاداشهای بلندمدت ظهور کرده است.
علیرغم پتانسیل خود، عاملهای مبتنی بر LLM با تصمیمگیری چند مرحلهای دست و پنجه نرم میکنند. یک چالش بزرگ در تخصیص اعتبار مناسب به اقدامات انجام شده در مراحل اولیه تعامل است که بر نتایج بعدی تأثیر میگذارد. روشهای آموزشی سنتی متکی به پیشبینی توکن بعدی یا تقلید از اقدامات با احتمال بالا هستند که وابستگیهای بلندمدت یا اهداف تجمعی را در نظر نمیگیرند. در نتیجه، این روشها نمیتوانند واریانس بالا و ناکارآمدی وظایف طولانیمدت را، به ویژه در سناریوهای مشارکتی که درک هدف انسان و استدلال در طول چندین مرحله بسیار مهم است، برطرف کنند.
تکنیکهای مختلف یادگیری تقویتی برای تنظیم دقیق LLMها، به ویژه از سناریوهای بازخورد انسانی تک مرحلهای، اقتباس شدهاند. ابزارهایی مانند PPO، RAFT و DPO مورد بررسی قرار گرفتهاند، اما هنگام استفاده در تعاملات متوالی محدودیتهای قابل توجهی را نشان میدهند. این روشها اغلب در تخصیص مؤثر اعتبار در طول مراحل مختلف با شکست مواجه میشوند و آنها را برای وظایف تصمیمگیری چند مرحلهای کماثرتر میکنند. بنچمارکهای مورد استفاده برای ارزیابی چنین ابزارهایی فاقد تنوع و پیچیدگی لازم برای ارزیابی عملکرد در محیطهای مشارکتی و واقعی هستند.
محققان FAIR در متا و دانشگاه برکلی یک روش یادگیری تقویتی جدید به نام SWEET-RL (ارزیابی گام به گام از اطلاعات زمان آموزش) پیشنهاد کردند. آنها همچنین یک بنچمارک با نام CollaborativeAgentBench یا ColBench معرفی کردند. این بنچمارک نقش اساسی در این مطالعه دارد و بیش از 10000 وظیفه آموزشی و بیش از 1000 مورد آزمایشی را در دو حوزه ارائه میدهد: برنامهنویسی backend و طراحی frontend. ColBench همکاری واقعی بین یک عامل هوش مصنوعی و یک شریک انسانی را شبیهسازی میکند، جایی که عاملها باید سؤال بپرسند، درک خود را اصلاح کنند و راهحلهای تکراری ارائه دهند. برای برنامهنویسی، عاملها باید توابعی را در پایتون با درخواست شفافسازی برای اصلاح مشخصات از دست رفته بنویسند. در وظایف frontend، عاملها باید کد HTML را تولید کنند که از طریق اصلاحات مبتنی بر بازخورد با یک هدف بصری مطابقت داشته باشد. هر کار برای گسترش توانایی استدلال عامل و تقلید از محدودیتهای دنیای واقعی مانند تعاملات محدود، که حداکثر 10 مرحله در هر جلسه است، طراحی شده است.
SWEET-RL بر اساس یک ساختار actor-critic نامتقارن ساخته شده است. منتقد در طول آموزش به اطلاعات اضافی مانند راه حل صحیح دسترسی دارد که برای بازیگر قابل مشاهده نیست. این اطلاعات به منتقد اجازه میدهد تا هر تصمیمی را که توسط عامل گرفته میشود با دقت بسیار بیشتری ارزیابی کند. SWEET-RL به جای آموزش یک تابع ارزش که پاداش کلی را تخمین میزند، به طور مستقیم یک تابع مزیت را در هر مرحله مدلسازی میکند و از هدف بهینهسازی Bradley-Terry استفاده میکند. تابع مزیت تعیین میکند که یک عمل خاص در مقایسه با جایگزینها چقدر بهتر یا بدتر است و به عامل کمک میکند تا رفتارهای دقیقی را بیاموزد. به عنوان مثال، اگر یک عمل با انتظارات شریک انسانی بهتر مطابقت داشته باشد، امتیاز مزیت بالاتری دریافت میکند. این روش تخصیص اعتبار را ساده میکند و بهتر با معماری پیشآموزش LLMها همسو میشود که متکی به پیشبینی سطح توکن هستند.
SWEET-RL در هر دو وظیفه برنامهنویسی و طراحی، 6% بهبود مطلق نسبت به سایر روشهای یادگیری تقویتی چند مرحلهای به دست آورد. در وظایف برنامهنویسی backend، 48.0٪ از آزمایشها را پشت سر گذاشت و به نرخ موفقیت 34.4٪ دست یافت، در حالی که Multi-Turn DPO به 28.2٪ و عملکرد zero-shot به 22.4٪ رسید. در وظایف طراحی frontend، به امتیاز شباهت کسینوسی 76.9٪ و نرخ برد 40.4٪ رسید که نسبت به 38.6٪ با DPO و 33.8٪ با تنظیم دقیق بهبود یافته است. حتی زمانی که در برابر مدلهای اختصاصی برتر مانند GPT-4o و O1-Mini ارزیابی شد، SWEET-RL شکاف عملکرد را به طور قابل توجهی بست و مدل متنباز Llama-3.1-8B را قادر ساخت تا با نرخ برد frontend GPT-4o که 40.4٪ است، مطابقت داشته باشد یا از آن فراتر رود.
این تحقیق نشان میدهد که آموزش مؤثر عاملهای تعاملی متکی به بازخورد دقیق و مرحله به مرحله است تا تخمینهای ارزش کلی یا نظارت گسترده. SWEET-RL با استفاده از اطلاعات زمان آموزش و یک رویکرد بهینهسازی همسو با معماری، تخصیص اعتبار را به طور قابل توجهی بهبود میبخشد. این روش تعمیم را افزایش میدهد، واریانس آموزش را کاهش میدهد و مقیاسپذیری قوی را نشان میدهد و با افزایش دادهها به نتایج بهتری دست مییابد. این الگوریتم همچنین زمانی که روی مجموعههای داده خارج از خطمشی اعمال میشود، مؤثر باقی میماند و بر کاربردی بودن آن در سناریوهای دنیای واقعی با دادههای ناقص تأکید میکند. تیم تحقیقاتی با معرفی ColBench به عنوان یک بنچمارک متناسب با وظایف واقعی و چند مرحلهای، یک چارچوب ارزیابی معنادار ایجاد کرد. این ترکیب با SWEET-RL یک پایه قوی برای توسعه عاملهایی فراهم میکند که میتوانند به طور مؤثر در تعاملات گسترده استدلال کنند، تطبیق یابند و همکاری کنند.
چند نکته کلیدی از این تحقیق عبارتند از:
- SWEET-RL نرخ موفقیت برنامهنویسی backend را از 28.2٪ (DPO) به 34.4٪ و نرخ برد frontend را از 38.6٪ به 40.4٪ بهبود بخشید.
- این روش به Llama-3.1-8B اجازه داد تا با عملکرد GPT-4o مطابقت داشته باشد و وابستگی به مدلهای اختصاصی را کاهش دهد.
- منتقد از اطلاعات زمان آموزش (به عنوان مثال، راه حلهای صحیح) استفاده میکند که برای بازیگر نامرئی است و یک تنظیم آموزش نامتقارن ایجاد میکند.
- وظایف در ColBench حداکثر 10 دور در هر جلسه دارند و شامل بیش از 10000 مثال آموزشی تولید شده به صورت رویهای هستند.
- ColBench نتایج را با استفاده از نرخ قبولی تست واحد (برای کد) و شباهت کسینوسی (برای طراحی وب) اندازهگیری میکند و ارزیابی قابل اعتمادی را ارائه میدهد.
- SWEET-RL به طور مستقیم یک تابع مزیت مرحلهای را میآموزد و تخصیص اعتبار را بدون نیاز به یک تابع ارزش میانی بهبود میبخشد.
- این مدل به طور موثر با دادههای بیشتر مقیاس مییابد و حتی در مجموعههای داده خارج از خطمشی از مدلهای ضعیفتر نیز عملکرد خوبی دارد.
- در مقایسه با روشهای تنظیم دقیق سنتی، SWEET-RL عملکرد بالاتری را با کمترین برازش بیش از حد و تعمیم بیشتر ارائه میدهد.
مقاله، صفحه GitHub و مجموعه داده را بررسی کنید. اعتبار این تحقیق به محققان این پروژه میرسد.