معرفی SWEET-RL و CollaborativeAgentBench توسط محققان متا: چارچوبی برای یادگیری تقویتی گام به گام برای آموزش عامل‌های زبانی چند مرحله‌ای در وظایف همکاری واقعی بین انسان و هوش مصنوعی

تصویری از SWEET-RL
نمودار SWEET-RL

مدل‌های زبانی بزرگ (LLM) به سرعت در حال تبدیل شدن به عامل‌های خودکاری هستند که قادر به انجام وظایف پیچیده‌ای هستند که نیازمند استدلال، تصمیم‌گیری و انطباق‌پذیری هستند. این عامل‌ها در زمینه‌های مختلفی مانند مرور وب، دستیاری شخصی و توسعه نرم‌افزار به کار گرفته می‌شوند. برای عملکرد مؤثر در محیط‌های واقعی، این عامل‌ها باید تعاملات چند مرحله‌ای را که شامل چندین گام یا نقطه تصمیم‌گیری است، مدیریت کنند. این امر نیاز به روش‌های آموزشی فراتر از تولید پاسخ ساده را ایجاب می‌کند و در عوض بر بهینه‌سازی کل مسیر تعاملات تمرکز دارد. یادگیری تقویتی (RL) به عنوان یک رویکرد قانع‌کننده برای آموزش چنین عامل‌هایی با پالایش تصمیم‌گیری آن‌ها بر اساس پاداش‌های بلندمدت ظهور کرده است.

علی‌رغم پتانسیل خود، عامل‌های مبتنی بر LLM با تصمیم‌گیری چند مرحله‌ای دست و پنجه نرم می‌کنند. یک چالش بزرگ در تخصیص اعتبار مناسب به اقدامات انجام شده در مراحل اولیه تعامل است که بر نتایج بعدی تأثیر می‌گذارد. روش‌های آموزشی سنتی متکی به پیش‌بینی توکن بعدی یا تقلید از اقدامات با احتمال بالا هستند که وابستگی‌های بلندمدت یا اهداف تجمعی را در نظر نمی‌گیرند. در نتیجه، این روش‌ها نمی‌توانند واریانس بالا و ناکارآمدی وظایف طولانی‌مدت را، به ویژه در سناریوهای مشارکتی که درک هدف انسان و استدلال در طول چندین مرحله بسیار مهم است، برطرف کنند.

تکنیک‌های مختلف یادگیری تقویتی برای تنظیم دقیق LLMها، به ویژه از سناریوهای بازخورد انسانی تک مرحله‌ای، اقتباس شده‌اند. ابزارهایی مانند PPO، RAFT و DPO مورد بررسی قرار گرفته‌اند، اما هنگام استفاده در تعاملات متوالی محدودیت‌های قابل توجهی را نشان می‌دهند. این روش‌ها اغلب در تخصیص مؤثر اعتبار در طول مراحل مختلف با شکست مواجه می‌شوند و آن‌ها را برای وظایف تصمیم‌گیری چند مرحله‌ای کم‌اثرتر می‌کنند. بنچمارک‌های مورد استفاده برای ارزیابی چنین ابزارهایی فاقد تنوع و پیچیدگی لازم برای ارزیابی عملکرد در محیط‌های مشارکتی و واقعی هستند.

محققان FAIR در متا و دانشگاه برکلی یک روش یادگیری تقویتی جدید به نام SWEET-RL (ارزیابی گام به گام از اطلاعات زمان آموزش) پیشنهاد کردند. آن‌ها همچنین یک بنچمارک با نام CollaborativeAgentBench یا ColBench معرفی کردند. این بنچمارک نقش اساسی در این مطالعه دارد و بیش از 10000 وظیفه آموزشی و بیش از 1000 مورد آزمایشی را در دو حوزه ارائه می‌دهد: برنامه‌نویسی backend و طراحی frontend. ColBench همکاری واقعی بین یک عامل هوش مصنوعی و یک شریک انسانی را شبیه‌سازی می‌کند، جایی که عامل‌ها باید سؤال بپرسند، درک خود را اصلاح کنند و راه‌حل‌های تکراری ارائه دهند. برای برنامه‌نویسی، عامل‌ها باید توابعی را در پایتون با درخواست شفاف‌سازی برای اصلاح مشخصات از دست رفته بنویسند. در وظایف frontend، عامل‌ها باید کد HTML را تولید کنند که از طریق اصلاحات مبتنی بر بازخورد با یک هدف بصری مطابقت داشته باشد. هر کار برای گسترش توانایی استدلال عامل و تقلید از محدودیت‌های دنیای واقعی مانند تعاملات محدود، که حداکثر 10 مرحله در هر جلسه است، طراحی شده است.

معماری SWEET-RL
معماری SWEET-RL

SWEET-RL بر اساس یک ساختار actor-critic نامتقارن ساخته شده است. منتقد در طول آموزش به اطلاعات اضافی مانند راه حل صحیح دسترسی دارد که برای بازیگر قابل مشاهده نیست. این اطلاعات به منتقد اجازه می‌دهد تا هر تصمیمی را که توسط عامل گرفته می‌شود با دقت بسیار بیشتری ارزیابی کند. SWEET-RL به جای آموزش یک تابع ارزش که پاداش کلی را تخمین می‌زند، به طور مستقیم یک تابع مزیت را در هر مرحله مدل‌سازی می‌کند و از هدف بهینه‌سازی Bradley-Terry استفاده می‌کند. تابع مزیت تعیین می‌کند که یک عمل خاص در مقایسه با جایگزین‌ها چقدر بهتر یا بدتر است و به عامل کمک می‌کند تا رفتارهای دقیقی را بیاموزد. به عنوان مثال، اگر یک عمل با انتظارات شریک انسانی بهتر مطابقت داشته باشد، امتیاز مزیت بالاتری دریافت می‌کند. این روش تخصیص اعتبار را ساده می‌کند و بهتر با معماری پیش‌آموزش LLMها همسو می‌شود که متکی به پیش‌بینی سطح توکن هستند.

عملکرد SWEET-RL
عملکرد SWEET-RL

SWEET-RL در هر دو وظیفه برنامه‌نویسی و طراحی، 6% بهبود مطلق نسبت به سایر روش‌های یادگیری تقویتی چند مرحله‌ای به دست آورد. در وظایف برنامه‌نویسی backend، 48.0٪ از آزمایش‌ها را پشت سر گذاشت و به نرخ موفقیت 34.4٪ دست یافت، در حالی که Multi-Turn DPO به 28.2٪ و عملکرد zero-shot به 22.4٪ رسید. در وظایف طراحی frontend، به امتیاز شباهت کسینوسی 76.9٪ و نرخ برد 40.4٪ رسید که نسبت به 38.6٪ با DPO و 33.8٪ با تنظیم دقیق بهبود یافته است. حتی زمانی که در برابر مدل‌های اختصاصی برتر مانند GPT-4o و O1-Mini ارزیابی شد، SWEET-RL شکاف عملکرد را به طور قابل توجهی بست و مدل متن‌باز Llama-3.1-8B را قادر ساخت تا با نرخ برد frontend GPT-4o که 40.4٪ است، مطابقت داشته باشد یا از آن فراتر رود.

نمونه‌هایی از ColBench
نمونه‌هایی از ColBench

این تحقیق نشان می‌دهد که آموزش مؤثر عامل‌های تعاملی متکی به بازخورد دقیق و مرحله به مرحله است تا تخمین‌های ارزش کلی یا نظارت گسترده. SWEET-RL با استفاده از اطلاعات زمان آموزش و یک رویکرد بهینه‌سازی همسو با معماری، تخصیص اعتبار را به طور قابل توجهی بهبود می‌بخشد. این روش تعمیم را افزایش می‌دهد، واریانس آموزش را کاهش می‌دهد و مقیاس‌پذیری قوی را نشان می‌دهد و با افزایش داده‌ها به نتایج بهتری دست می‌یابد. این الگوریتم همچنین زمانی که روی مجموعه‌های داده خارج از خط‌مشی اعمال می‌شود، مؤثر باقی می‌ماند و بر کاربردی بودن آن در سناریوهای دنیای واقعی با داده‌های ناقص تأکید می‌کند. تیم تحقیقاتی با معرفی ColBench به عنوان یک بنچمارک متناسب با وظایف واقعی و چند مرحله‌ای، یک چارچوب ارزیابی معنادار ایجاد کرد. این ترکیب با SWEET-RL یک پایه قوی برای توسعه عامل‌هایی فراهم می‌کند که می‌توانند به طور مؤثر در تعاملات گسترده استدلال کنند، تطبیق یابند و همکاری کنند.

چند نکته کلیدی از این تحقیق عبارتند از:

  1. SWEET-RL نرخ موفقیت برنامه‌نویسی backend را از 28.2٪ (DPO) به 34.4٪ و نرخ برد frontend را از 38.6٪ به 40.4٪ بهبود بخشید.
  2. این روش به Llama-3.1-8B اجازه داد تا با عملکرد GPT-4o مطابقت داشته باشد و وابستگی به مدل‌های اختصاصی را کاهش دهد.
  3. منتقد از اطلاعات زمان آموزش (به عنوان مثال، راه حل‌های صحیح) استفاده می‌کند که برای بازیگر نامرئی است و یک تنظیم آموزش نامتقارن ایجاد می‌کند.
  4. وظایف در ColBench حداکثر 10 دور در هر جلسه دارند و شامل بیش از 10000 مثال آموزشی تولید شده به صورت رویه‌ای هستند.
  5. ColBench نتایج را با استفاده از نرخ قبولی تست واحد (برای کد) و شباهت کسینوسی (برای طراحی وب) اندازه‌گیری می‌کند و ارزیابی قابل اعتمادی را ارائه می‌دهد.
  6. SWEET-RL به طور مستقیم یک تابع مزیت مرحله‌ای را می‌آموزد و تخصیص اعتبار را بدون نیاز به یک تابع ارزش میانی بهبود می‌بخشد.
  7. این مدل به طور موثر با داده‌های بیشتر مقیاس می‌یابد و حتی در مجموعه‌های داده خارج از خط‌مشی از مدل‌های ضعیف‌تر نیز عملکرد خوبی دارد.
  8. در مقایسه با روش‌های تنظیم دقیق سنتی، SWEET-RL عملکرد بالاتری را با کمترین برازش بیش از حد و تعمیم بیشتر ارائه می‌دهد.

مقاله، صفحه GitHub و مجموعه داده را بررسی کنید. اعتبار این تحقیق به محققان این پروژه می‌رسد.