آیا GRPO می‌تواند 10 برابر کارآمدتر باشد؟ SRPO کوای AI با SRPO پیشنهاد می‌کند که پاسخ مثبت است

موفقیت چشمگیر سری o1 OpenAI و DeepSeek-R1 به طور قاطع قدرت یادگیری تقویتی (RL) در مقیاس بزرگ را در استخراج رفتارهای استدلالی پیچیده و افزایش قابل توجه قابلیت‌های مدل‌های زبانی بزرگ (LLM) نشان داده است.

با این حال، روش‌های اصلی آموزش این مدل‌های استدلالی پیشگام، اغلب در گزارش‌های فنی آن‌ها پنهان می‌مانند. تلاش‌های اخیر جامعه عمدتاً بر استدلال ریاضی متمرکز شده است و چالش تعمیم بین حوزه‌ای تا حد زیادی مورد بررسی قرار نگرفته است. علاوه بر این، آموزش استاندارد یادگیری تقویتی از طریق بهینه‌سازی ترجیحات (GRPO) با مشکلات رایجی مانند گلوگاه‌های عملکرد، استفاده ناکارآمد از نمونه‌ها و مشکلات در پرورش مهارت‌های استدلالی تخصصی هنگام برخورد با مجموعه‌های داده ترکیبی مواجه است. این چالش‌ها، مقیاس‌بندی مؤثر روش‌های RL را برای LLM پیچیده می‌کند.

پژوهشگران تیم Kwaipilot در Kuaishou، با پرداختن به این محدودیت‌ها، یک چارچوب یادگیری تقویتی جدید معرفی کرده‌اند: بهینه‌سازی سیاست نمونه‌برداری مجدد تاریخچه دو مرحله‌ای (SRPO). این رویکرد نوآورانه برای مقابله سیستماتیک با چالش‌های آموزشی ذکر شده در ابعاد مختلف طراحی شده است. این تیم یک گزارش فنی را به طور عمومی منتشر کرده است که جزئیات پیچیدگی‌های روش آموزش خود را شرح می‌دهد و همچنین مدل SRPO-Qwen-32B را به صورت متن‌باز ارائه کرده است.

شایان ذکر است، این کار نخستین نمونه دستیابی به عملکرد سطح DeepSeek-R1-Zero به طور همزمان در هر دو حوزه ریاضیات و کد است. با استفاده از همان مدل پایه DeepSeek (Qwen2.5-32B) و استفاده از یک رویکرد آموزش یادگیری تقویتی صرف، SRPO به نتایج چشمگیری در معیار AIME24 (50) و LiveCodeBench (41.6) دست یافته است و از عملکرد DeepSeek-R1-Zero-32B فراتر رفته است.

حتی قابل توجه‌تر این است که SRPO به این سطح از عملکرد تنها با یک دهم مراحل آموزشی مورد نیاز R1-Zero دست می‌یابد.

چالش‌های GRPO وانیلی

تیم Kwaipilot در بررسی‌های اولیه خود، الگوریتم استاندارد GRPO را آزمایش کرد. با این حال، آن‌ها به سرعت با گلوگاه‌هایی مواجه شدند که مانع از دستیابی مدل به سطوح عملکرد مطلوب R1-Zero می‌شد. این مسائل عبارت بودند از:

تضادهای بهینه‌سازی بین حوزه‌ای (ریاضیات در مقابل کد): مسائل ریاضی تمایل دارند مسیرهای استدلالی طولانی‌تر و مفصل‌تری (CoT طولانی) را ایجاد کنند، در حالی که داده‌های کد تمایل ضعیف‌تری به این امر نشان می‌دهند. ترکیب مستقیم این دو نوع داده منجر به تضادهایی می‌شود که منجر به عملکرد نامطلوب در هر دو حوزه می‌شود.
کاهش کارایی آموزش به دلیل پاداش‌های گروهی مشابه: الگوریتم GRPO متکی به واریانس پاداش‌های غیر صفر در یک گروه نمونه‌برداری شده برای محاسبه مزیت است. هنگامی که rollouts در یک گروه مقادیر پاداش تقریباً یکسانی را به دست می‌دهند، مزیت محاسبه شده به صفر نزدیک می‌شود. اگر بخش قابل توجهی از دسته آموزشی این پدیده را نشان دهد، سهم گرادیان مؤثر به حداقل می‌رسد و به طور چشمگیری کارایی آموزش را کاهش می‌دهد.
اشباع عملکرد زودرس: آموزش GRPO با فلات‌های عملکرد اولیه و اشباع پاداش در ارزیابی‌های معیار مواجه شد. این مسئله تا حدودی به کیفیت ناکافی داده‌ها نسبت داده شد. هنگامی که داده‌های آموزشی فاقد پیچیدگی یا تنوع کافی باشند، به ویژه با فراوانی مسائل ساده‌تر، مدل تمایل دارد به طور محافظه‌کارانه عملکرد خود را در کارهای آسان‌تر حفظ کند و مانع از توسعه استدلال پیچیده و عمیق مورد نیاز برای مسائل چالش‌برانگیز شود.

آموزش دو مرحله‌ای

تیم Kwaipilot برای رفع تضادهای طول پاسخ ذاتی بین حوزه‌های ریاضیات و کد، یک الگوی آموزش دو مرحله‌ای را اجرا کرد:

مرحله 1: استخراج توانایی‌های استدلالی: این فاز آموزش اولیه منحصراً بر داده‌های ریاضی چالش‌برانگیز متمرکز است. هدف اصلی، تشویق کامل مقیاس‌بندی زمان تست مدل، پرورش قابلیت‌هایی مانند مکث بازتابی، عقبگرد و تجزیه گام به گام است.
مرحله 2: ادغام مهارت: در این مرحله، داده‌های کد به فرآیند آموزش معرفی می‌شوند. این مرحله با تکیه بر پایه استدلالی ایجاد شده در مرحله 1، هدفش افزایش بیشتر توانایی‌های کدنویسی ضمن تقویت تدریجی تفکر رویه‌ای، بازگشت و قابلیت‌های فراخوانی ابزار است.

تجزیه و تحلیل تطبیقی استراتژی‌های آموزشی

تاثیر استراتژی‌های مختلف داده‌های آموزشی بر طول پاسخ مورد تجزیه و تحلیل قرار گرفت و بینش‌های زیر آشکار شد:

آموزش مختلط: مدل‌های آموزش دیده بر روی ترکیبی از داده‌های ریاضی و کد، رشد محدودی در طول پاسخ و عملکرد ضعیف معیار را نشان دادند. در حالی که مسائل ریاضی الگوهای استدلالی را برانگیخت، مسائل کد اغلب منجر به پاسخ‌های کوتاه و مستقیم متمرکز بر خروجی کد فوری با حداقل تجزیه و تحلیل یا برنامه‌ریزی اولیه شد.
آموزش فقط ریاضی: آموزش صرفاً بر روی داده‌های ریاضی منجر به افزایش پایدار در طول پاسخ و عملکرد عالی در معیارهای ریاضی شد. به طور حیاتی، توانایی‌های استدلالی قوی و تعمیم‌پذیری را تقویت کرد. هنگام مواجهه با وظایف برنامه‌نویسی، مدل سعی کرد استدلال مفصل و گام به گام را انجام دهد، از جمله بررسی دقیق و بازبینی مراحل در حل مسائل ریاضی.
آموزش فقط کد: در حالی که عملکرد بهتری در معیارهای کد نشان می‌دهد، توسعه رفتار استدلالی صریح حداقل بود و دستیابی به افزایش قابل توجهی در طول پاسخ دشوار بود. پاسخ‌ها به مسائل کد و ریاضی در مقایسه با آموزش فقط ریاضی به طور محسوسی کوتاه‌تر بود، به طوری که راه‌حل‌های کد اغلب بدون استدلال گام به گام قابل توجه یا تجزیه و تحلیل اولیه به طور مستقیم تولید می‌شدند.
آموزش مرحله‌ای: رویکرد آموزش دو مرحله‌ای پیشنهادی توسط تیم Kwaipilot نتایج برتری را در هر دو حوزه ریاضیات و برنامه‌نویسی به دست داد. این مدل به طور مداوم استدلال گام به گام مفصلی را برای مسائل ریاضی و الگوهای استدلالی ساختاریافته برای وظایف برنامه‌نویسی ایجاد می‌کرد. به طور خاص، رفتارهای پیچیده‌ای پدیدار شدند، مانند اینکه مدل به طور خود به خود از کد برای کمک به استدلال ریاضی استفاده می‌کند.

نمونه‌برداری مجدد تاریخچه

تیم Kwaipilot مشاهده کرد که در مراحل میانی تا پایانی آموزش، تقریباً 50 درصد از گروه‌های نمونه‌برداری شده در یک دسته، پاداش‌های یکسانی را تولید می‌کنند. این اغلب زمانی رخ می‌داد که مدل به طور مداوم در مسائل آسان‌تر موفق می‌شد و منجر به حداقل واریانس پاداش و به‌روزرسانی‌های گرادیان ناکارآمد می‌شد.

برای رفع این ناکارآمدی و بهبود کیفیت سیگنال گرادیان، آن‌ها نمونه‌برداری مجدد تاریخچه را معرفی کردند. در طول آموزش، آن‌ها نتایج پاداش همه rollouts را در هر دوره ثبت کردند. در پایان یک دوره، آن‌ها مجموعه داده را برای دوره بعدی بر اساس معیارهای زیر بازسازی کردند:

فیلتر کردن نمونه‌های بیش از حد ساده: نمونه‌هایی که در آن همه rollouts منجر به پاسخ‌های صحیح شده بودند، حذف شدند، زیرا هیچ سیگنال آموزنده‌ای برای بهبود سیاست ارائه نمی‌کردند.
حفظ نمونه‌های آموزنده: نمونه‌هایی با نتایج متنوع (هم صحیح و هم نادرست) یا تمام نتایج نادرست حفظ شدند. این نمونه‌ها واریانس پاداش مثبتی را ایجاد کردند و مزایای غیر صفر و سیگنال‌های گرادیان مؤثری را تضمین کردند. علاوه بر این، نمونه‌های دشواری که در آن همه rollouts در دوره فعلی نادرست بودند نیز حفظ شدند. منطق این است که این مسائل در ابتدا چالش‌برانگیز ممکن است برای سیاست به‌روزرسانی‌شده نسبتاً آسان‌تر شوند، بنابراین گرادیان‌های مؤثری را در آموزش‌های بعدی ایجاد می‌کنند. این استراتژی با اصل یادگیری برنامه درسی همسو است و به تدریج مدل را به طور متوسط در معرض نمونه‌های چالش‌برانگیز قرار می‌دهد تا کارایی آموزش را افزایش دهد.

در مقایسه با روش نمونه‌برداری پویا پیشنهادی در DAPO، نمونه‌برداری مجدد تاریخچه به طور قابل توجهی کارایی محاسباتی را بهبود بخشید و منجر به رشد پایدارتر طول پاسخ شد.

داده‌ها

تیم Kwaipilot پاک‌سازی و فیلتر کردن دقیقی را روی مجموعه‌های داده Code&Math در دسترس عموم انجام داد. آن‌ها قوانین ابتکاری را برای فیلتر کردن URLهای نامربوط، نویز قالب‌بندی اعمال کردند و از کامل بودن فیلدهای اصلی (پرسش و پاسخ درست) در داده‌های اصلی اطمینان حاصل کردند. پس از رویکرد پاک‌سازی داده PRIME برای داده‌های ریاضی، آنها پرسش‌های چند قسمتی، مسائل مبتنی بر اثبات خالص و مواردی را که نیاز به درک تصویر یا جدول داشتند، حذف کردند. برای داده‌های کد، آنها مشکلاتی را که وابسته به محیط‌های خاص، فایل I/O یا تعاملات شبکه بودند، حذف کردند و بر منطق الگوریتمی تمرکز کردند.

قبل از دریافت داده‌ها، آنها صحت راستی‌آزمایی را برای مسائل ریاضی و کد انجام دادند تا از صحت و قابلیت حل پاسخ‌ها اطمینان حاصل کنند و آنهایی را که راه‌حل‌های نادرست یا مبهم داشتند، دور ریختند. متعاقباً، آنها دشواری هر مسئله را ارزیابی کردند و آنها را بر اساس نرخ قبولی (Pass@k) به سطوح آسان، متوسط و دشوار دسته‌بندی کردند.

نتایج تجربی

این بخش جزئیات نتایج تجربی به دست آمده با استفاده از روش SRPO را شرح می‌دهد. تیم Kwaipilot بر مشاهده تغییرات در پاداش و معیارهایی مانند طول پاسخ در طول آموزش متمرکز شد.

فرایند آموزش

شکل بالا منحنی پاداش کامل و منحنی طول پاسخ را در طول آموزش SRPO نشان می‌دهد. پس از اینکه رشد پاداش اولیه شروع به ثابت شدن کرد، آموزش وارد مرحله دوم شد. در ابتدای مرحله دوم، پاداش کلی به دلیل عدم آموزش قبلی مدل روی کد کاهش یافت و به دنبال آن افزایش پیوسته در پاداش در طول آموزش‌های بعدی رخ داد. ادغام داده‌های کد به طور قابل توجهی طول پاسخ را افزایش نداد، که با انتظارات آنها همسو بود. به طور همزمان، نتایج معیار بهبود مستمر و پایداری را در هر دو توانایی ریاضی و کدنویسی مدل نشان داد و اثربخشی روش جدید را نشان داد.

به طور خاص، نمونه‌برداری مجدد تاریخچه تضمین کرد که به‌روزرسانی‌های گرادیان در هر مرحله آموزشی مؤثر باقی می‌مانند و مستقیماً نسبت گرادیان‌های آموزنده را افزایش می‌دهند. این کارایی نمونه‌برداری افزایش یافته منجر به رشد پایدار پاداش شد و به وضوح کارایی آموزش بهبود یافته‌ای را که توسط استراتژی نمونه‌برداری مجدد به دست آمده بود، نشان داد.

رفتارهای استدلالی

تیم Kwaipilot سه الگوی بازتابی نماینده را شناسایی کرد: بررسی مجدد، تردید و اکتشاف. آنها پاسخ‌های حاوی این الگوها را به طور آماری تجزیه و تحلیل کردند و میانگین طول پاسخ را برای هر کدام ثبت کردند. در طول آموزش RL، آنها افزایش تدریجی در فراوانی خود بازتابی، اصلاح و عقبگرد مدل را مشاهده کردند که نشان دهنده ظهور توانایی "خودآزمایی" است. آنها این فرضیه را مطرح می‌کنند که ظهور "بازتاب"، شبیه به فرآیندهای شناختی انسان، در مدل در طول RL یک رفتار سازگار است که ناشی از فرآیند بهینه‌سازی سیاست است.

در یک نمونه بسیار الهام‌بخش، این تیم به این نتیجه رسیدند که مدل DeepSeek-R1-Zero-32B در واقع از کد برای کمک به استدلال ریاضی استفاده می‌کند، و استنتاج می‌کند که یادگیری تقویتی (RL) با مقیاس بزرگ می‌تواند به عنوان یک راهنمای بسیار موثر برای پرورش و ترکیب تخصص‌های مختلف استفاده شود. آنها گزارش دادند که مدل تحت‌تعقیب DeepSeek-R1-Zero-32B به طور مداوم برای محاسبه توابع به استدلال گام‌به‌گام برای وظایف ریاضی تکیه می‌کند. در مرحله آموزش برای ترکیب تخصص‌های مختلف، مدل حتی برای تکمیل استدلال ریاضی از کد استفاده می‌کند، که نشان می‌دهد RL مقیاس بزرگ می‌تواند به عنوان راهنمایی عمل کند تا مدل‌ها را قادر سازد تا در حوزه‌های مختلف برتر شوند.

در جمع‌بندی

به طور خلاصه، تیم Kwaipilot یک روش آموزش یادگیری تقویتی جدید ایجاد کرده است به نام بهینه‌سازی سیاست نمونه‌برداری مجدد تاریخچه دو مرحله‌ای (SRPO). SRPO نه‌تنها تعداد مراحل آموزشی مورد نیاز را به میزان قابل توجهی کاهش می‌دهد بلکه از برخی جنبه‌ها از DeepSeek-R1-Zero-32B نیز پیشی می‌گیرد. این مدل برای اولین بار به عملکرد مشابه DeepSeek-R1-Zero در هر دو حوزه ریاضیات و کد دست یافته است. این موفقیت نشان می‌دهد که روش SRPO یک روش نوآورانه و مؤثر برای آموزش مدل‌های استدلالی است.

نتایج تجربی که در این مطالعه ارائه شده‌اند بینش‌های ارزشمندی را در مورد فرآیندها و عوامل کلیدی مؤثر در تقویت توسعه قابلیت‌های استدلالی پیچیده در مدل‌های زبانی بزرگ (LLM) ارائه می‌دهند. علاوه بر این، این رویکرد پتانسیل یادگیری تقویتی (RL) را به عنوان یک راهنمای بسیار مؤثر در تقویت و ترکیب مجموعه‌های مختلف تخصص نشان می‌دهد.

https://syncedreview.com/2025/04/23/can-grpo-be-10x-efficient-kwai-ais-srpo-suggests-yes-with-srpo/