موفقیت چشمگیر سری o1 OpenAI و DeepSeek-R1 به طور قاطع قدرت یادگیری تقویتی (RL) در مقیاس بزرگ را در استخراج رفتارهای استدلالی پیچیده و افزایش قابل توجه قابلیتهای مدلهای زبانی بزرگ (LLM) نشان داده است.
با این حال، روشهای اصلی آموزش این مدلهای استدلالی پیشگام، اغلب در گزارشهای فنی آنها پنهان میمانند. تلاشهای اخیر جامعه عمدتاً بر استدلال ریاضی متمرکز شده است و چالش تعمیم بین حوزهای تا حد زیادی مورد بررسی قرار نگرفته است. علاوه بر این، آموزش استاندارد یادگیری تقویتی از طریق بهینهسازی ترجیحات (GRPO) با مشکلات رایجی مانند گلوگاههای عملکرد، استفاده ناکارآمد از نمونهها و مشکلات در پرورش مهارتهای استدلالی تخصصی هنگام برخورد با مجموعههای داده ترکیبی مواجه است. این چالشها، مقیاسبندی مؤثر روشهای RL را برای LLM پیچیده میکند.
پژوهشگران تیم Kwaipilot در Kuaishou، با پرداختن به این محدودیتها، یک چارچوب یادگیری تقویتی جدید معرفی کردهاند: بهینهسازی سیاست نمونهبرداری مجدد تاریخچه دو مرحلهای (SRPO). این رویکرد نوآورانه برای مقابله سیستماتیک با چالشهای آموزشی ذکر شده در ابعاد مختلف طراحی شده است. این تیم یک گزارش فنی را به طور عمومی منتشر کرده است که جزئیات پیچیدگیهای روش آموزش خود را شرح میدهد و همچنین مدل SRPO-Qwen-32B را به صورت متنباز ارائه کرده است.
شایان ذکر است، این کار نخستین نمونه دستیابی به عملکرد سطح DeepSeek-R1-Zero به طور همزمان در هر دو حوزه ریاضیات و کد است. با استفاده از همان مدل پایه DeepSeek (Qwen2.5-32B) و استفاده از یک رویکرد آموزش یادگیری تقویتی صرف، SRPO به نتایج چشمگیری در معیار AIME24 (50) و LiveCodeBench (41.6) دست یافته است و از عملکرد DeepSeek-R1-Zero-32B فراتر رفته است.
حتی قابل توجهتر این است که SRPO به این سطح از عملکرد تنها با یک دهم مراحل آموزشی مورد نیاز R1-Zero دست مییابد.
چالشهای GRPO وانیلی
تیم Kwaipilot در بررسیهای اولیه خود، الگوریتم استاندارد GRPO را آزمایش کرد. با این حال، آنها به سرعت با گلوگاههایی مواجه شدند که مانع از دستیابی مدل به سطوح عملکرد مطلوب R1-Zero میشد. این مسائل عبارت بودند از:
- تضادهای بهینهسازی بین حوزهای (ریاضیات در مقابل کد): مسائل ریاضی تمایل دارند مسیرهای استدلالی طولانیتر و مفصلتری (CoT طولانی) را ایجاد کنند، در حالی که دادههای کد تمایل ضعیفتری به این امر نشان میدهند. ترکیب مستقیم این دو نوع داده منجر به تضادهایی میشود که منجر به عملکرد نامطلوب در هر دو حوزه میشود.
- کاهش کارایی آموزش به دلیل پاداشهای گروهی مشابه: الگوریتم GRPO متکی به واریانس پاداشهای غیر صفر در یک گروه نمونهبرداری شده برای محاسبه مزیت است. هنگامی که rollouts در یک گروه مقادیر پاداش تقریباً یکسانی را به دست میدهند، مزیت محاسبه شده به صفر نزدیک میشود. اگر بخش قابل توجهی از دسته آموزشی این پدیده را نشان دهد، سهم گرادیان مؤثر به حداقل میرسد و به طور چشمگیری کارایی آموزش را کاهش میدهد.
- اشباع عملکرد زودرس: آموزش GRPO با فلاتهای عملکرد اولیه و اشباع پاداش در ارزیابیهای معیار مواجه شد. این مسئله تا حدودی به کیفیت ناکافی دادهها نسبت داده شد. هنگامی که دادههای آموزشی فاقد پیچیدگی یا تنوع کافی باشند، به ویژه با فراوانی مسائل سادهتر، مدل تمایل دارد به طور محافظهکارانه عملکرد خود را در کارهای آسانتر حفظ کند و مانع از توسعه استدلال پیچیده و عمیق مورد نیاز برای مسائل چالشبرانگیز شود.
آموزش دو مرحلهای
تیم Kwaipilot برای رفع تضادهای طول پاسخ ذاتی بین حوزههای ریاضیات و کد، یک الگوی آموزش دو مرحلهای را اجرا کرد:
- مرحله 1: استخراج تواناییهای استدلالی: این فاز آموزش اولیه منحصراً بر دادههای ریاضی چالشبرانگیز متمرکز است. هدف اصلی، تشویق کامل مقیاسبندی زمان تست مدل، پرورش قابلیتهایی مانند مکث بازتابی، عقبگرد و تجزیه گام به گام است.
- مرحله 2: ادغام مهارت: در این مرحله، دادههای کد به فرآیند آموزش معرفی میشوند. این مرحله با تکیه بر پایه استدلالی ایجاد شده در مرحله 1، هدفش افزایش بیشتر تواناییهای کدنویسی ضمن تقویت تدریجی تفکر رویهای، بازگشت و قابلیتهای فراخوانی ابزار است.
تجزیه و تحلیل تطبیقی استراتژیهای آموزشی
تاثیر استراتژیهای مختلف دادههای آموزشی بر طول پاسخ مورد تجزیه و تحلیل قرار گرفت و بینشهای زیر آشکار شد:
- آموزش مختلط: مدلهای آموزش دیده بر روی ترکیبی از دادههای ریاضی و کد، رشد محدودی در طول پاسخ و عملکرد ضعیف معیار را نشان دادند. در حالی که مسائل ریاضی الگوهای استدلالی را برانگیخت، مسائل کد اغلب منجر به پاسخهای کوتاه و مستقیم متمرکز بر خروجی کد فوری با حداقل تجزیه و تحلیل یا برنامهریزی اولیه شد.
- آموزش فقط ریاضی: آموزش صرفاً بر روی دادههای ریاضی منجر به افزایش پایدار در طول پاسخ و عملکرد عالی در معیارهای ریاضی شد. به طور حیاتی، تواناییهای استدلالی قوی و تعمیمپذیری را تقویت کرد. هنگام مواجهه با وظایف برنامهنویسی، مدل سعی کرد استدلال مفصل و گام به گام را انجام دهد، از جمله بررسی دقیق و بازبینی مراحل در حل مسائل ریاضی.
- آموزش فقط کد: در حالی که عملکرد بهتری در معیارهای کد نشان میدهد، توسعه رفتار استدلالی صریح حداقل بود و دستیابی به افزایش قابل توجهی در طول پاسخ دشوار بود. پاسخها به مسائل کد و ریاضی در مقایسه با آموزش فقط ریاضی به طور محسوسی کوتاهتر بود، به طوری که راهحلهای کد اغلب بدون استدلال گام به گام قابل توجه یا تجزیه و تحلیل اولیه به طور مستقیم تولید میشدند.
- آموزش مرحلهای: رویکرد آموزش دو مرحلهای پیشنهادی توسط تیم Kwaipilot نتایج برتری را در هر دو حوزه ریاضیات و برنامهنویسی به دست داد. این مدل به طور مداوم استدلال گام به گام مفصلی را برای مسائل ریاضی و الگوهای استدلالی ساختاریافته برای وظایف برنامهنویسی ایجاد میکرد. به طور خاص، رفتارهای پیچیدهای پدیدار شدند، مانند اینکه مدل به طور خود به خود از کد برای کمک به استدلال ریاضی استفاده میکند.
نمونهبرداری مجدد تاریخچه
تیم Kwaipilot مشاهده کرد که در مراحل میانی تا پایانی آموزش، تقریباً 50 درصد از گروههای نمونهبرداری شده در یک دسته، پاداشهای یکسانی را تولید میکنند. این اغلب زمانی رخ میداد که مدل به طور مداوم در مسائل آسانتر موفق میشد و منجر به حداقل واریانس پاداش و بهروزرسانیهای گرادیان ناکارآمد میشد.
برای رفع این ناکارآمدی و بهبود کیفیت سیگنال گرادیان، آنها نمونهبرداری مجدد تاریخچه را معرفی کردند. در طول آموزش، آنها نتایج پاداش همه rollouts را در هر دوره ثبت کردند. در پایان یک دوره، آنها مجموعه داده را برای دوره بعدی بر اساس معیارهای زیر بازسازی کردند:
- فیلتر کردن نمونههای بیش از حد ساده: نمونههایی که در آن همه rollouts منجر به پاسخهای صحیح شده بودند، حذف شدند، زیرا هیچ سیگنال آموزندهای برای بهبود سیاست ارائه نمیکردند.
- حفظ نمونههای آموزنده: نمونههایی با نتایج متنوع (هم صحیح و هم نادرست) یا تمام نتایج نادرست حفظ شدند. این نمونهها واریانس پاداش مثبتی را ایجاد کردند و مزایای غیر صفر و سیگنالهای گرادیان مؤثری را تضمین کردند. علاوه بر این، نمونههای دشواری که در آن همه rollouts در دوره فعلی نادرست بودند نیز حفظ شدند. منطق این است که این مسائل در ابتدا چالشبرانگیز ممکن است برای سیاست بهروزرسانیشده نسبتاً آسانتر شوند، بنابراین گرادیانهای مؤثری را در آموزشهای بعدی ایجاد میکنند. این استراتژی با اصل یادگیری برنامه درسی همسو است و به تدریج مدل را به طور متوسط در معرض نمونههای چالشبرانگیز قرار میدهد تا کارایی آموزش را افزایش دهد.
در مقایسه با روش نمونهبرداری پویا پیشنهادی در DAPO، نمونهبرداری مجدد تاریخچه به طور قابل توجهی کارایی محاسباتی را بهبود بخشید و منجر به رشد پایدارتر طول پاسخ شد.
دادهها
تیم Kwaipilot پاکسازی و فیلتر کردن دقیقی را روی مجموعههای داده Code&Math در دسترس عموم انجام داد. آنها قوانین ابتکاری را برای فیلتر کردن URLهای نامربوط، نویز قالببندی اعمال کردند و از کامل بودن فیلدهای اصلی (پرسش و پاسخ درست) در دادههای اصلی اطمینان حاصل کردند. پس از رویکرد پاکسازی داده PRIME برای دادههای ریاضی، آنها پرسشهای چند قسمتی، مسائل مبتنی بر اثبات خالص و مواردی را که نیاز به درک تصویر یا جدول داشتند، حذف کردند. برای دادههای کد، آنها مشکلاتی را که وابسته به محیطهای خاص، فایل I/O یا تعاملات شبکه بودند، حذف کردند و بر منطق الگوریتمی تمرکز کردند.
قبل از دریافت دادهها، آنها صحت راستیآزمایی را برای مسائل ریاضی و کد انجام دادند تا از صحت و قابلیت حل پاسخها اطمینان حاصل کنند و آنهایی را که راهحلهای نادرست یا مبهم داشتند، دور ریختند. متعاقباً، آنها دشواری هر مسئله را ارزیابی کردند و آنها را بر اساس نرخ قبولی (Pass@k) به سطوح آسان، متوسط و دشوار دستهبندی کردند.
نتایج تجربی
این بخش جزئیات نتایج تجربی به دست آمده با استفاده از روش SRPO را شرح میدهد. تیم Kwaipilot بر مشاهده تغییرات در پاداش و معیارهایی مانند طول پاسخ در طول آموزش متمرکز شد.
فرایند آموزش
شکل بالا منحنی پاداش کامل و منحنی طول پاسخ را در طول آموزش SRPO نشان میدهد. پس از اینکه رشد پاداش اولیه شروع به ثابت شدن کرد، آموزش وارد مرحله دوم شد. در ابتدای مرحله دوم، پاداش کلی به دلیل عدم آموزش قبلی مدل روی کد کاهش یافت و به دنبال آن افزایش پیوسته در پاداش در طول آموزشهای بعدی رخ داد. ادغام دادههای کد به طور قابل توجهی طول پاسخ را افزایش نداد، که با انتظارات آنها همسو بود. به طور همزمان، نتایج معیار بهبود مستمر و پایداری را در هر دو توانایی ریاضی و کدنویسی مدل نشان داد و اثربخشی روش جدید را نشان داد.
به طور خاص، نمونهبرداری مجدد تاریخچه تضمین کرد که بهروزرسانیهای گرادیان در هر مرحله آموزشی مؤثر باقی میمانند و مستقیماً نسبت گرادیانهای آموزنده را افزایش میدهند. این کارایی نمونهبرداری افزایش یافته منجر به رشد پایدار پاداش شد و به وضوح کارایی آموزش بهبود یافتهای را که توسط استراتژی نمونهبرداری مجدد به دست آمده بود، نشان داد.
رفتارهای استدلالی
تیم Kwaipilot سه الگوی بازتابی نماینده را شناسایی کرد: بررسی مجدد، تردید و اکتشاف. آنها پاسخهای حاوی این الگوها را به طور آماری تجزیه و تحلیل کردند و میانگین طول پاسخ را برای هر کدام ثبت کردند. در طول آموزش RL، آنها افزایش تدریجی در فراوانی خود بازتابی، اصلاح و عقبگرد مدل را مشاهده کردند که نشان دهنده ظهور توانایی "خودآزمایی" است. آنها این فرضیه را مطرح میکنند که ظهور "بازتاب"، شبیه به فرآیندهای شناختی انسان، در مدل در طول RL یک رفتار سازگار است که ناشی از فرآیند بهینهسازی سیاست است.
در یک نمونه بسیار الهامبخش، این تیم به این نتیجه رسیدند که مدل DeepSeek-R1-Zero-32B در واقع از کد برای کمک به استدلال ریاضی استفاده میکند، و استنتاج میکند که یادگیری تقویتی (RL) با مقیاس بزرگ میتواند به عنوان یک راهنمای بسیار موثر برای پرورش و ترکیب تخصصهای مختلف استفاده شود. آنها گزارش دادند که مدل تحتتعقیب DeepSeek-R1-Zero-32B به طور مداوم برای محاسبه توابع به استدلال گامبهگام برای وظایف ریاضی تکیه میکند. در مرحله آموزش برای ترکیب تخصصهای مختلف، مدل حتی برای تکمیل استدلال ریاضی از کد استفاده میکند، که نشان میدهد RL مقیاس بزرگ میتواند به عنوان راهنمایی عمل کند تا مدلها را قادر سازد تا در حوزههای مختلف برتر شوند.
در جمعبندی
به طور خلاصه، تیم Kwaipilot یک روش آموزش یادگیری تقویتی جدید ایجاد کرده است به نام بهینهسازی سیاست نمونهبرداری مجدد تاریخچه دو مرحلهای (SRPO). SRPO نهتنها تعداد مراحل آموزشی مورد نیاز را به میزان قابل توجهی کاهش میدهد بلکه از برخی جنبهها از DeepSeek-R1-Zero-32B نیز پیشی میگیرد. این مدل برای اولین بار به عملکرد مشابه DeepSeek-R1-Zero در هر دو حوزه ریاضیات و کد دست یافته است. این موفقیت نشان میدهد که روش SRPO یک روش نوآورانه و مؤثر برای آموزش مدلهای استدلالی است.
نتایج تجربی که در این مطالعه ارائه شدهاند بینشهای ارزشمندی را در مورد فرآیندها و عوامل کلیدی مؤثر در تقویت توسعه قابلیتهای استدلالی پیچیده در مدلهای زبانی بزرگ (LLM) ارائه میدهند. علاوه بر این، این رویکرد پتانسیل یادگیری تقویتی (RL) را به عنوان یک راهنمای بسیار مؤثر در تقویت و ترکیب مجموعههای مختلف تخصص نشان میدهد.