محققان آزمایشگاه هوش مصنوعی دریا، دکتر GRPO را معرفی می‌کنند: یک روش یادگیری تقویتی بدون سوگیری

عملکرد Dr. GRPO در معیارهای استدلال ریاضی
عملکرد Dr. GRPO در معیارهای استدلال ریاضی

پیشرفت مهم در دوران اخیر، بررسی تکنیک‌های یادگیری تقویتی (RL) برای بهبود مدل‌های زبانی بزرگ (LLM) فراتر از روش‌های سنتی تنظیم دقیق نظارت‌شده بوده است. یادگیری تقویتی به مدل‌ها اجازه می‌دهد تا از طریق سیگنال‌های پاداش، پاسخ‌های بهینه را یاد بگیرند و قابلیت‌های استدلال و تصمیم‌گیری خود را افزایش دهند. یادگیری تقویتی یک حلقه آموزشی مبتنی بر بازخورد را معرفی می‌کند که بهتر با فرآیندهای یادگیری شبیه به انسان، به ویژه در وظایفی که شامل حل مسئله گام به گام یا استدلال ریاضی است، هماهنگ است. این تقاطع مدل‌های زبانی بزرگ و یادگیری تقویتی به یک حوزه برجسته برای تحقیقات آکادمیک و نوآوری صنعتی تبدیل می‌شود.

چالش اصلی در بهبود مدل‌های زبانی بزرگ برای وظایف استدلال پیچیده، اطمینان از این است که این مدل‌ها مهارت‌های فکری بهتری را به جای خروجی‌های طولانی‌تر توسعه می‌دهند. در آموزش مبتنی بر یادگیری تقویتی مدل‌های زبانی بزرگ، الگویی ظاهر شده است که در آن مدل‌ها شروع به تولید پاسخ‌های بیش از حد طولانی می‌کنند بدون اینکه لزوماً کیفیت پاسخ را بهبود بخشند. این موضوع نگرانی‌هایی را در مورد سوگیری‌های بهینه‌سازی در روش‌های یادگیری تقویتی ایجاد می‌کند که ممکن است طرفدار پرحرفی بیش از صحت باشد. عارضه دیگر از خود مدل‌های پایه ناشی می‌شود. برخی از قبل نشانه‌هایی از قابلیت‌های استدلال نشان می‌دهند که جدا کردن تأثیر واقعی تنظیم یادگیری تقویتی را دشوار می‌کند. بنابراین، درک چگونگی تأثیر استراتژی‌های آموزشی و مبانی مدل بر عملکرد نهایی ضروری می‌شود.

پیش از این، آموزش پس از یادگیری تقویتی برای مدل‌های زبانی بزرگ اغلب به الگوریتم‌هایی مانند بهینه‌سازی سیاست پروگزیمال (PPO) متکی بود که معمولاً در پیاده‌سازی‌های مختلف متن‌باز استفاده می‌شود. این پیاده‌سازی‌ها اغلب شامل یک مرحله عادی‌سازی طول پاسخ بود که ناخواسته سوگیری‌هایی را به نفع خروجی‌های طولانی‌تر یا کوتاه‌تر بسته به صحت پاسخ، معرفی می‌کرد. به طور خاص، بهینه‌سازی سیاست نسبی گروهی (GRPO) به عنوان یک نوع برای بهینه‌سازی به‌روزرسانی‌های سیاست در سطح گروه معرفی شد. در حالی که GRPO مؤثر است، به دلیل تعبیه سوگیری‌های بهینه‌سازی ظریف که بر طول و کیفیت پاسخ‌های مدل تأثیر می‌گذارد، مورد انتقاد قرار گرفته است. این تکنیک‌های موجود، اگرچه نوآورانه هستند، محدودیت‌هایی را نشان داده‌اند که دستاوردهای واقعی ناشی از یادگیری تقویتی را پنهان می‌کند.

محققان آزمایشگاه هوش مصنوعی دریا، دانشگاه ملی سنگاپور و دانشگاه مدیریت سنگاپور یک رویکرد جدید به نام Dr. GRPO (بهینه‌سازی سیاست نسبی گروهی به درستی انجام شد) برای رسیدگی به این مسائل معرفی کردند. این روش عبارات عادی‌سازی مشکل‌ساز را از فرمول GRPO حذف می‌کند. به طور خاص، عوامل مقیاس‌بندی طول پاسخ و انحراف استاندارد که باعث عدم تعادل در به‌روزرسانی‌های مدل می‌شدند را حذف می‌کند. الگوریتم اصلاح‌شده گرادیان‌ها را به طور منصفانه‌تری در بین پاسخ‌ها و انواع سؤالات مختلف محاسبه می‌کند. آنها این روش را برای آموزش Qwen2.5-Math-7B، یک مدل پایه متن‌باز اعمال کردند و اثربخشی آن را در چندین معیار محک نشان دادند. فرآیند آموزش از 27 ساعت محاسبات بر روی 8× GPU A100 استفاده کرد، یک تنظیم نسبتاً متوسط با توجه به نتایج به دست آمده.

محققان روش خود را بر روی معیارهای برجسته استدلال ریاضی، از جمله AIME 2024، AMC، MATH500، Minerva Math و OlympiadBench آزمایش کردند. مدلی که با Dr. GRPO آموزش داده شده بود، به دقت 43.3٪ در AIME 2024 دست یافت و به طور قابل توجهی از SimpleRL-Zero-7B (36.0٪)، Prime-Zero-7B (27.6٪) و OpenReasoner-Zero-7B (16.7٪) بهتر عمل کرد. همچنین عملکرد متوسط قوی را در تمام وظایف نشان داد: 40.9٪ در MATH500، 45.8٪ در Minerva و 62.7٪ در OlympiadBench. این نتایج اثربخشی روش یادگیری تقویتی بدون سوگیری را تأیید می‌کند. نکته مهم این است که مدل بهتر عمل کرد و استفاده از توکن کارآمدتری را نشان داد. پاسخ‌های نادرست کوتاه‌تر و متمرکزتر شدند، یک تغییر قابل توجه از روش‌های آموزشی قبلی که پاسخ‌های بیش از حد طولانی را بدون توجه به صحت تشویق می‌کردند.

عملکرد Dr. GRPO در معیارهای استدلال ریاضی
عملکرد Dr. GRPO در معیارهای استدلال ریاضی

فراتر از الگوریتم آموزشی، تیم همچنین ماهیت مدل‌های پایه مورد استفاده در تنظیمات R1-Zero مانند RL را بررسی کرد. آنها دریافتند که برخی از مدل‌ها، مانند Qwen2.5، حتی قبل از آموزش، قابلیت‌های پیشرفته‌ای را نشان می‌دهند، احتمالاً به دلیل پیش‌آموزش بر روی داده‌های سؤال-پاسخ پیوسته. به عنوان مثال، مدل Qwen2.5-Math-7B بدون هیچ‌گونه تنظیم دقیق RL به دقت متوسط 38.2٪ دست یافت و از بسیاری از مدل‌های آموزش‌دیده با استفاده از روش‌های سنتی بهتر عمل کرد. این ظرفیت استدلال از قبل موجود، ادعاها در مورد مزایای RL را پیچیده می‌کند، زیرا بهبودها ممکن است تا حدی از استراتژی‌های آموزشی قبلی ناشی شود تا یادگیری جدید از طریق تقویت. DeepSeek-V3-Base، مدل بررسی‌شده دیگر، قبل از RL، لحظات "آها" خودبه‌خودی و مواردی از خوداندیشی را نشان داد، که بیشتر نشان می‌دهد که برخی از مهارت‌های استدلال ممکن است از قبل در مدل‌های پایه تعبیه شده باشند.

عملکرد مدل پایه قبل از تنظیم دقیق RL
عملکرد مدل پایه قبل از تنظیم دقیق RL

پویایی عملکرد در طول آموزش به دقت پیگیری شد. با استفاده از Dr. GRPO، مدل‌ها از تمایل به افزایش طول پاسخ اجتناب کردند. ارزیابی نشان داد که Dr. GRPO طول خروجی را ثابت نگه می‌دارد در حالی که سیگنال‌های پاداش را افزایش می‌دهد، که نشان‌دهنده ارتباط مستقیم بین آموزش و دقت بهبود یافته است، نه فقط پرحرفی. در مقابل، GRPO سنتی منجر به پاسخ‌های نادرست طولانی‌تر به طور فزاینده شد، که به اشتباه نشان‌دهنده بهبود است. این مشاهده با یافته‌هایی مطابقت دارد که بسیاری از پیاده‌سازی‌های PPO متن‌باز ناآگاهانه سوگیری طول پاسخ را معرفی می‌کنند، نقصی که از شیوه‌های پیش‌آموزش به ارث رسیده است.

پویایی آموزش Dr. GRPO
پویایی آموزش Dr. GRPO

محققان همچنین بررسی کردند که چگونه الگوهای مختلف و مجموعه‌های سؤال بر رفتار مدل تأثیر می‌گذارند. مدل پایه Qwen2.5-Math-1.5B بدون الگوهای سریع بهترین عملکرد را داشت و در Minerva Math 61.6٪ و در MATH500 45.8٪ امتیاز کسب کرد. شگفت‌آور این است که استفاده از الگوها اغلب قبل از اینکه RL آن را بازیابی کند، عملکرد را کاهش می‌داد. این نشان می‌دهد که چگونه عدم تطابق بین پیش‌آموزش مدل و فرمت استنتاج می‌تواند قابلیت‌های استدلال واقعی را پنهان کند. همچنین، مدل‌های آموزش‌دیده بر روی مجموعه‌های سؤال کوچک و ساده مانند GSM-8K اغلب از مدل‌های آموزش‌دیده بر روی مجموعه‌های داده بزرگتر بهتر عمل می‌کنند، که این فرضیه را به چالش می‌کشد که پوشش گسترده‌تر همیشه منجر به استدلال بهتر می‌شود.

چند نکته کلیدی از این تحقیق عبارتند از:

  • مدل‌های DeepSeek-V3-Base و Qwen2.5 حتی قبل از RL قابلیت‌های استدلال را نشان می‌دهند، که نشان‌دهنده اثرات پیش‌آموزش قوی است.
  • Dr. GRPO با حذف عبارات عادی‌سازی طول و پاداش، سوگیری‌ها را در GRPO از بین می‌برد و کارایی توکن را بهبود می‌بخشد.
  • مدل Qwen2.5-Math-7B، آموزش‌دیده با Dr. GRPO، به موارد زیر دست یافت:
    •  43.3٪ در AIME 2024  
    •  62.7٪ در OlympiadBench  
    •  45.8٪ در Minerva Math  
    •  40.9٪ در MATH500  
    •  میانگین امتیاز در تمام معیارهای محک: 40.3٪
  • پاسخ‌های نادرست با استفاده از Dr. GRPO به طور قابل توجهی کوتاه‌تر بودند و از پرحرفی غیرضروری مشاهده شده در روش‌های دیگر اجتناب می‌کردند.
  • مدل‌های Qwen2.5 بدون الگوهای سریع عملکرد بهتری دارند، که نشان می‌دهد ممکن است از قبل روی داده‌های فرمت‌شده Q&A آموزش دیده باشند.
  • مجموعه‌های سؤال کوچکتر مانند GSM-8K می‌توانند بهتر از مجموعه‌های بزرگتر عمل کنند، که انتظارات را برآورده نمی‌کنند.
  • پیاده‌سازی‌های PPO متن‌باز اغلب حاوی سوگیری‌های طول پاسخ ناخواسته هستند که Dr. GRPO با موفقیت آنها را حذف می‌کند.

در نتیجه، این مطالعه بینش‌های مهمی را در مورد چگونگی تأثیر RL بر رفتار مدل زبانی بزرگ نشان می‌دهد. محققان دریافتند که پیش‌آموزش نقش اساسی در تعیین قابلیت‌های پایه ایفا می‌کند. آنها همچنین نشان دادند که سوگیری‌های بهینه‌سازی در الگوریتم‌های محبوب RL می‌توانند آموزش و ارزیابی را گمراه کنند. معرفی Dr. GRPO این مسائل را تصحیح کرد و منجر به آموزش مدل قابل تفسیرتر و کارآمدتر شد. مدل آنها تنها با 27 ساعت آموزش، به نتایج پیشرفته در معیارهای اصلی استدلال ریاضی دست یافت. این یافته‌ها نحوه ارزیابی مدل‌های زبانی بزرگ تقویت‌شده با RL را تغییر می‌دهد و بیشتر بر شفافیت روش و ویژگی‌های مدل پایه نسبت به معیارهای عملکرد صرف تمرکز می‌کند.


مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، با خیال راحت ما را در توییتر دنبال کنید و فراموش نکنید که به SubReddit 85k+ ML ما بپیوندید.