بهبود استدلال مدل‌های زبانی بزرگ با یادگیری تقویتی چند تلاشی

نمودار نشان دهنده بهبود عملکرد با یادگیری تقویتی چند تلاشی است
نمودار نشان دهنده بهبود عملکرد با یادگیری تقویتی چند تلاشی است

پیشرفت‌های اخیر در یادگیری تقویتی (RL) برای مدل‌های زبانی بزرگ (LLM)، مانند DeepSeek R1، نشان داده‌اند که حتی وظایف ساده پرسش و پاسخ می‌توانند به طور قابل توجهی قابلیت‌های استدلال را افزایش دهند. رویکردهای سنتی RL برای LLMها اغلب به وظایف تک نوبتی متکی هستند، جایی که یک مدل بر اساس صحت یک پاسخ پاداش می‌گیرد. با این حال، این روش‌ها از پاداش‌های پراکنده رنج می‌برند و نمی‌توانند مدل‌ها را برای اصلاح پاسخ‌های خود بر اساس بازخورد کاربر آموزش دهند. برای رفع این محدودیت‌ها، رویکردهای RL چند نوبتی مورد بررسی قرار گرفته‌اند که به LLMها اجازه می‌دهند تلاش‌های متعددی برای حل یک مسئله انجام دهند، در نتیجه توانایی‌های استدلال و خود اصلاحی آن‌ها بهبود می‌یابد.

مطالعات متعددی مکانیسم‌های برنامه‌ریزی و خود اصلاحی را در RL برای LLMها بررسی کرده‌اند. برخی از رویکردها با الهام از الگوریتم Thinker، که به عامل‌ها امکان می‌دهد قبل از اقدام به بررسی گزینه‌ها بپردازند، استدلال LLM را با دادن اجازه به تلاش‌های متعدد به جای یادگیری یک مدل جهانی افزایش می‌دهند. روش‌هایی مانند SCoRe، مدل‌های LLM را در وظایف چند تلاشی آموزش می‌دهند، اما فاقد تأیید پاسخ‌های قبلی با استفاده از پاداش‌های مبتنی بر واقعیت هستند که نیاز به کالیبراسیون پیچیده دارد. سایر آثار بر خود اصلاحی با استفاده از ابزارهای خارجی، مانند Reflexion برای خود بازتابی و CRITIC برای بازخورد بی‌درنگ، تمرکز دارند. برخلاف این رویکردها، روش پیشنهادی وظیفه پرسش و پاسخ تک نوبتی DeepSeek R1 را به یک چارچوب چند تلاشی گسترش می‌دهد و از خطاهای تاریخی برای اصلاح پاسخ‌ها و افزایش استدلال استفاده می‌کند.

محققان DualityRL و آزمایشگاه هوش مصنوعی شانگهای، یک رویکرد RL چند تلاشی را برای افزایش استدلال در LLMها معرفی می‌کنند. برخلاف وظایف تک نوبتی، این روش به مدل‌ها اجازه می‌دهد تا از طریق تلاش‌های متعدد با بازخورد، پاسخ‌ها را اصلاح کنند. نتایج تجربی نشان می‌دهد که با دو تلاش در محک‌های ریاضی، دقت 45.6٪ به 52.5٪ افزایش می‌یابد، در مقایسه با سود اندک در مدل‌های تک نوبتی. این مدل خود اصلاحی را با استفاده از بهینه‌سازی سیاست پروگزیمال (PPO) یاد می‌گیرد، که منجر به قابلیت‌های استدلال نوظهور می‌شود. این تنظیمات چند تلاشی، اصلاح تکراری را تسهیل می‌کند، یادگیری عمیق‌تر و مهارت‌های حل مسئله را ترویج می‌دهد و آن را به یک جایگزین امیدوارکننده برای تکنیک‌های متداول RLHF و تنظیم دقیق نظارت شده تبدیل می‌کند.

در یک وظیفه تک نوبتی، یک LLM پاسخی را به یک سوال نمونه‌برداری شده از یک مجموعه داده تولید می‌کند و سیاست خود را برای به حداکثر رساندن پاداش‌ها بر اساس صحت پاسخ بهینه می‌کند. در مقابل، رویکرد چند نوبتی امکان اصلاح تکراری را فراهم می‌کند، جایی که پاسخ‌ها بر اعلان‌های بعدی تأثیر می‌گذارند. وظیفه چند تلاشی پیشنهادی، تعداد ثابتی از تلاش‌ها را معرفی می‌کند و در صورت نادرست بودن پاسخ اولیه، درخواست بازگشت مجدد می‌دهد. این مدل برای پاسخ‌های صحیح +1، برای پاسخ‌های نادرست اما خوش‌ساختار -0.5 و در غیر این صورت -1 پاداش می‌گیرد. این رویکرد، کاوش در تلاش‌های اولیه را بدون جریمه تشویق می‌کند و از PPO برای بهینه‌سازی استفاده می‌کند و استدلال را از طریق یادگیری تقویتی افزایش می‌دهد.

این مطالعه، مدل Qwen 2.5 Math 1.5B را بر روی 8 هزار سوال ریاضی با استفاده از PPO با ? = 1، ? = 0.99 و ضریب واگرایی KL 0.01 تنظیم دقیق می‌کند. آموزش به مدت 160 قسمت ادامه دارد و 1.28 میلیون نمونه تولید می‌کند. در تنظیمات چند تلاشی، تلاش‌ها از {1، …، 5} نمونه‌برداری می‌شوند، در حالی که خط پایه از یک رویکرد تک نوبتی پیروی می‌کند. نتایج نشان می‌دهد که مدل چند تلاشی به پاداش‌های بالاتری و دقت ارزیابی کمی بهتری دست می‌یابد. به ویژه، پاسخ‌ها را به طور موثر اصلاح می‌کند و دقت را از 45.58٪ به 53.82٪ در طول تلاش‌های متعدد بهبود می‌بخشد. این قابلیت استدلال تطبیقی می‌تواند عملکرد را در زمینه‌های تولید کد و حل مسئله بهبود بخشد.

در نتیجه، این مطالعه با معرفی یک مکانیسم چند تلاشی، بر وظیفه پرسش و پاسخ DeepSeek R1 بنا شده است. در حالی که دستاوردهای عملکردی در محک‌های ریاضی متوسط ​​است، این رویکرد به طور قابل توجهی توانایی مدل را در اصلاح پاسخ‌ها بر اساس بازخورد بهبود می‌بخشد. این مدل که برای تکرار پاسخ‌های نادرست آموزش داده شده است، کارایی جستجو و خود اصلاحی را افزایش می‌دهد. نتایج تجربی نشان می‌دهد که دقت از 45.6٪ به 52.5٪ با دو تلاش بهبود می‌یابد، در حالی که یک مدل تک نوبتی فقط کمی افزایش می‌یابد. کار آینده می‌تواند بیشتر به بررسی گنجاندن بازخورد دقیق یا وظایف کمکی برای افزایش قابلیت‌های LLM بپردازد و این رویکرد را برای استدلال تطبیقی ​​و وظایف پیچیده حل مسئله ارزشمند کند.


مقاله را بررسی کنید: مقاله