
پیشرفت مهم در دوران اخیر، بررسی تکنیکهای یادگیری تقویتی (RL) برای بهبود مدلهای زبانی بزرگ (LLM) فراتر از روشهای سنتی تنظیم دقیق نظارتشده بوده است. یادگیری تقویتی به مدلها اجازه میدهد تا از طریق سیگنالهای پاداش، پاسخهای بهینه را یاد بگیرند و قابلیتهای استدلال و تصمیمگیری خود را افزایش دهند. یادگیری تقویتی یک حلقه آموزشی مبتنی بر بازخورد را معرفی میکند که بهتر با فرآیندهای یادگیری شبیه به انسان، به ویژه در وظایفی که شامل حل مسئله گام به گام یا استدلال ریاضی است، هماهنگ است. این تقاطع مدلهای زبانی بزرگ و یادگیری تقویتی به یک حوزه برجسته برای تحقیقات آکادمیک و نوآوری صنعتی تبدیل میشود.
چالش اصلی در بهبود مدلهای زبانی بزرگ برای وظایف استدلال پیچیده، اطمینان از این است که این مدلها مهارتهای فکری بهتری را به جای خروجیهای طولانیتر توسعه میدهند. در آموزش مبتنی بر یادگیری تقویتی مدلهای زبانی بزرگ، الگویی ظاهر شده است که در آن مدلها شروع به تولید پاسخهای بیش از حد طولانی میکنند بدون اینکه لزوماً کیفیت پاسخ را بهبود بخشند. این موضوع نگرانیهایی را در مورد سوگیریهای بهینهسازی در روشهای یادگیری تقویتی ایجاد میکند که ممکن است طرفدار پرحرفی بیش از صحت باشد. عارضه دیگر از خود مدلهای پایه ناشی میشود. برخی از قبل نشانههایی از قابلیتهای استدلال نشان میدهند که جدا کردن تأثیر واقعی تنظیم یادگیری تقویتی را دشوار میکند. بنابراین، درک چگونگی تأثیر استراتژیهای آموزشی و مبانی مدل بر عملکرد نهایی ضروری میشود.
پیش از این، آموزش پس از یادگیری تقویتی برای مدلهای زبانی بزرگ اغلب به الگوریتمهایی مانند بهینهسازی سیاست پروگزیمال (PPO) متکی بود که معمولاً در پیادهسازیهای مختلف متنباز استفاده میشود. این پیادهسازیها اغلب شامل یک مرحله عادیسازی طول پاسخ بود که ناخواسته سوگیریهایی را به نفع خروجیهای طولانیتر یا کوتاهتر بسته به صحت پاسخ، معرفی میکرد. به طور خاص، بهینهسازی سیاست نسبی گروهی (GRPO) به عنوان یک نوع برای بهینهسازی بهروزرسانیهای سیاست در سطح گروه معرفی شد. در حالی که GRPO مؤثر است، به دلیل تعبیه سوگیریهای بهینهسازی ظریف که بر طول و کیفیت پاسخهای مدل تأثیر میگذارد، مورد انتقاد قرار گرفته است. این تکنیکهای موجود، اگرچه نوآورانه هستند، محدودیتهایی را نشان دادهاند که دستاوردهای واقعی ناشی از یادگیری تقویتی را پنهان میکند.
محققان آزمایشگاه هوش مصنوعی دریا، دانشگاه ملی سنگاپور و دانشگاه مدیریت سنگاپور یک رویکرد جدید به نام Dr. GRPO (بهینهسازی سیاست نسبی گروهی به درستی انجام شد) برای رسیدگی به این مسائل معرفی کردند. این روش عبارات عادیسازی مشکلساز را از فرمول GRPO حذف میکند. به طور خاص، عوامل مقیاسبندی طول پاسخ و انحراف استاندارد که باعث عدم تعادل در بهروزرسانیهای مدل میشدند را حذف میکند. الگوریتم اصلاحشده گرادیانها را به طور منصفانهتری در بین پاسخها و انواع سؤالات مختلف محاسبه میکند. آنها این روش را برای آموزش Qwen2.5-Math-7B، یک مدل پایه متنباز اعمال کردند و اثربخشی آن را در چندین معیار محک نشان دادند. فرآیند آموزش از 27 ساعت محاسبات بر روی 8× GPU A100 استفاده کرد، یک تنظیم نسبتاً متوسط با توجه به نتایج به دست آمده.
محققان روش خود را بر روی معیارهای برجسته استدلال ریاضی، از جمله AIME 2024، AMC، MATH500، Minerva Math و OlympiadBench آزمایش کردند. مدلی که با Dr. GRPO آموزش داده شده بود، به دقت 43.3٪ در AIME 2024 دست یافت و به طور قابل توجهی از SimpleRL-Zero-7B (36.0٪)، Prime-Zero-7B (27.6٪) و OpenReasoner-Zero-7B (16.7٪) بهتر عمل کرد. همچنین عملکرد متوسط قوی را در تمام وظایف نشان داد: 40.9٪ در MATH500، 45.8٪ در Minerva و 62.7٪ در OlympiadBench. این نتایج اثربخشی روش یادگیری تقویتی بدون سوگیری را تأیید میکند. نکته مهم این است که مدل بهتر عمل کرد و استفاده از توکن کارآمدتری را نشان داد. پاسخهای نادرست کوتاهتر و متمرکزتر شدند، یک تغییر قابل توجه از روشهای آموزشی قبلی که پاسخهای بیش از حد طولانی را بدون توجه به صحت تشویق میکردند.

فراتر از الگوریتم آموزشی، تیم همچنین ماهیت مدلهای پایه مورد استفاده در تنظیمات R1-Zero مانند RL را بررسی کرد. آنها دریافتند که برخی از مدلها، مانند Qwen2.5، حتی قبل از آموزش، قابلیتهای پیشرفتهای را نشان میدهند، احتمالاً به دلیل پیشآموزش بر روی دادههای سؤال-پاسخ پیوسته. به عنوان مثال، مدل Qwen2.5-Math-7B بدون هیچگونه تنظیم دقیق RL به دقت متوسط 38.2٪ دست یافت و از بسیاری از مدلهای آموزشدیده با استفاده از روشهای سنتی بهتر عمل کرد. این ظرفیت استدلال از قبل موجود، ادعاها در مورد مزایای RL را پیچیده میکند، زیرا بهبودها ممکن است تا حدی از استراتژیهای آموزشی قبلی ناشی شود تا یادگیری جدید از طریق تقویت. DeepSeek-V3-Base، مدل بررسیشده دیگر، قبل از RL، لحظات "آها" خودبهخودی و مواردی از خوداندیشی را نشان داد، که بیشتر نشان میدهد که برخی از مهارتهای استدلال ممکن است از قبل در مدلهای پایه تعبیه شده باشند.

پویایی عملکرد در طول آموزش به دقت پیگیری شد. با استفاده از Dr. GRPO، مدلها از تمایل به افزایش طول پاسخ اجتناب کردند. ارزیابی نشان داد که Dr. GRPO طول خروجی را ثابت نگه میدارد در حالی که سیگنالهای پاداش را افزایش میدهد، که نشاندهنده ارتباط مستقیم بین آموزش و دقت بهبود یافته است، نه فقط پرحرفی. در مقابل، GRPO سنتی منجر به پاسخهای نادرست طولانیتر به طور فزاینده شد، که به اشتباه نشاندهنده بهبود است. این مشاهده با یافتههایی مطابقت دارد که بسیاری از پیادهسازیهای PPO متنباز ناآگاهانه سوگیری طول پاسخ را معرفی میکنند، نقصی که از شیوههای پیشآموزش به ارث رسیده است.

محققان همچنین بررسی کردند که چگونه الگوهای مختلف و مجموعههای سؤال بر رفتار مدل تأثیر میگذارند. مدل پایه Qwen2.5-Math-1.5B بدون الگوهای سریع بهترین عملکرد را داشت و در Minerva Math 61.6٪ و در MATH500 45.8٪ امتیاز کسب کرد. شگفتآور این است که استفاده از الگوها اغلب قبل از اینکه RL آن را بازیابی کند، عملکرد را کاهش میداد. این نشان میدهد که چگونه عدم تطابق بین پیشآموزش مدل و فرمت استنتاج میتواند قابلیتهای استدلال واقعی را پنهان کند. همچنین، مدلهای آموزشدیده بر روی مجموعههای سؤال کوچک و ساده مانند GSM-8K اغلب از مدلهای آموزشدیده بر روی مجموعههای داده بزرگتر بهتر عمل میکنند، که این فرضیه را به چالش میکشد که پوشش گستردهتر همیشه منجر به استدلال بهتر میشود.
چند نکته کلیدی از این تحقیق عبارتند از:
- مدلهای DeepSeek-V3-Base و Qwen2.5 حتی قبل از RL قابلیتهای استدلال را نشان میدهند، که نشاندهنده اثرات پیشآموزش قوی است.
- Dr. GRPO با حذف عبارات عادیسازی طول و پاداش، سوگیریها را در GRPO از بین میبرد و کارایی توکن را بهبود میبخشد.
- مدل Qwen2.5-Math-7B، آموزشدیده با Dr. GRPO، به موارد زیر دست یافت:
- 43.3٪ در AIME 2024
- 62.7٪ در OlympiadBench
- 45.8٪ در Minerva Math
- 40.9٪ در MATH500
- میانگین امتیاز در تمام معیارهای محک: 40.3٪
- پاسخهای نادرست با استفاده از Dr. GRPO به طور قابل توجهی کوتاهتر بودند و از پرحرفی غیرضروری مشاهده شده در روشهای دیگر اجتناب میکردند.
- مدلهای Qwen2.5 بدون الگوهای سریع عملکرد بهتری دارند، که نشان میدهد ممکن است از قبل روی دادههای فرمتشده Q&A آموزش دیده باشند.
- مجموعههای سؤال کوچکتر مانند GSM-8K میتوانند بهتر از مجموعههای بزرگتر عمل کنند، که انتظارات را برآورده نمیکنند.
- پیادهسازیهای PPO متنباز اغلب حاوی سوگیریهای طول پاسخ ناخواسته هستند که Dr. GRPO با موفقیت آنها را حذف میکند.
در نتیجه، این مطالعه بینشهای مهمی را در مورد چگونگی تأثیر RL بر رفتار مدل زبانی بزرگ نشان میدهد. محققان دریافتند که پیشآموزش نقش اساسی در تعیین قابلیتهای پایه ایفا میکند. آنها همچنین نشان دادند که سوگیریهای بهینهسازی در الگوریتمهای محبوب RL میتوانند آموزش و ارزیابی را گمراه کنند. معرفی Dr. GRPO این مسائل را تصحیح کرد و منجر به آموزش مدل قابل تفسیرتر و کارآمدتر شد. مدل آنها تنها با 27 ساعت آموزش، به نتایج پیشرفته در معیارهای اصلی استدلال ریاضی دست یافت. این یافتهها نحوه ارزیابی مدلهای زبانی بزرگ تقویتشده با RL را تغییر میدهد و بیشتر بر شفافیت روش و ویژگیهای مدل پایه نسبت به معیارهای عملکرد صرف تمرکز میکند.
مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، با خیال راحت ما را در توییتر دنبال کنید و فراموش نکنید که به SubReddit 85k+ ML ما بپیوندید.