یادگیری تقویتی (RL) به عنصری اساسی در پیشبرد مدلهای زبانی بزرگ (LLM) تبدیل شده است و آنها را با قابلیتهای استدلال بهبود یافته لازم برای انجام وظایف پیچیده توانمند میسازد. با این حال، جامعه تحقیقاتی با چالشهای قابل توجهی در بازتولید تکنیکهای RL پیشرفته به دلیل افشاگری ناقص جزئیات کلیدی آموزش توسط بازیگران بزرگ صنعت مواجه است. این ابهام، پیشرفت تلاشهای علمی گستردهتر و تحقیقات مشترک را محدود کرده است.
محققان ByteDance، دانشگاه Tsinghua و دانشگاه هنگ کنگ اخیراً DAPO (بهینهسازی سیاست نمونهبرداری پویا) را معرفی کردهاند، یک سیستم یادگیری تقویتی در مقیاس بزرگ متنباز که برای ارتقای تواناییهای استدلال مدلهای زبانی بزرگ طراحی شده است. سیستم DAPO به دنبال پر کردن شکاف در قابلیت بازتولید با به اشتراک گذاشتن آشکار تمام جزئیات الگوریتمی، رویههای آموزشی و مجموعهدادهها است. DAPO که بر پایه چارچوب verl ساخته شده است، شامل کدهای آموزشی و یک مجموعه داده کاملاً آماده به نام DAPO-Math-17K است که به طور خاص برای وظایف استدلال ریاضی طراحی شده است.
پایه فنی DAPO شامل چهار نوآوری اصلی است که با هدف حل چالشهای کلیدی در یادگیری تقویتی انجام شده است. اولین نوآوری، «Clip-Higher» به مسئله فروپاشی آنتروپی میپردازد، وضعیتی که در آن مدلها زودتر از موعد در الگوهای اکتشافی محدود تثبیت میشوند. این تکنیک با مدیریت دقیق نسبت برش در بهروزرسانیهای سیاست، تنوع بیشتری را در خروجیهای مدل تشویق میکند. «نمونهبرداری پویا» با فیلتر کردن پویای نمونهها بر اساس میزان مفید بودنشان، ناکارآمدیها در آموزش را خنثی میکند و در نتیجه سیگنال گرادیان سازگارتری را تضمین میکند. «Loss گرادیان سیاست سطح توکن» یک روش محاسبه Loss اصلاح شده را ارائه میدهد و بر تنظیمات سطح توکن به جای سطح نمونه تأکید میکند تا بهتر بتواند طولهای مختلف توالیهای استدلال را تطبیق دهد. در نهایت، «شکلدهی پاداش بیش از حد طولانی» یک جریمه کنترلشده را برای پاسخهای بیش از حد طولانی معرفی میکند و به آرامی مدلها را به سمت استدلال مختصر و کارآمد هدایت میکند.
در آزمایشهای عملی، DAPO بهبودهای قابل توجهی را نشان داده است. ارزیابیها در معیار امتحان دعوتنامه ریاضیات آمریکا (AIME) 2024 نشان میدهد که مدلهای آموزشدیده با DAPO با استفاده از مدل پایه Qwen2.5-32B به امتیاز 50 دست یافتهاند که نسبت به روشهای قبلی مانند DeepSeek-R1-Zero-Qwen-32B که به امتیاز 47 دست یافتند، بهبود یافته است. قابل توجه است که DAPO این بهبود را با تقریباً نیمی از مراحل آموزش به دست آورد که بر کارایی روشهای پیشنهادی تأکید میکند. یک تجزیه و تحلیل سیستماتیک، پیشرفتهای افزایشی را از هر تکنیک معرفیشده نشان داد و از یک پایه 30 امتیازی (با استفاده از GRPO به تنهایی) تا 50 امتیاز با روششناسی کامل DAPO پیش رفت.
فراتر از نتایج کمی، پویایی آموزش DAPO بینشهایی را در مورد الگوهای استدلال در حال تحول مدل ارائه میدهد. در ابتدا، مدلها رفتار بازتابی کمی از خود نشان دادند و اغلب به صورت خطی در وظایف پیش میرفتند بدون اینکه در مراحل قبلی تجدید نظر کنند. با این حال، با ادامه آموزش، مدلها به تدریج رفتارهای بازتابی بیشتری از خود نشان دادند و نوعی خود-بازبینی تکراری را به نمایش گذاشتند. این تغییر، قابلیت یادگیری تقویتی را نه تنها برای ارتقای مسیرهای استدلال موجود، بلکه برای پرورش استراتژیهای شناختی کاملاً جدید در طول زمان برجسته میکند.
در پایان، متنباز کردن DAPO نشاندهنده سهمی معنادار در جامعه یادگیری تقویتی است و موانعی را که قبلاً توسط روشهای غیرقابل دسترس ایجاد شده بودند، از بین میبرد. این ابتکار مشترک با مستندسازی واضح و ارائه دسترسی جامع به تکنیکها، مجموعه داده و کد سیستم، از تحقیقات و نوآوریهای بیشتر دعوت میکند. تلاشهای مشترک ByteDance، دانشگاه Tsinghua و دانشگاه هنگ کنگ پتانسیل تحقیقات شفاف و مشارکتی را برای پیشبرد درک جمعی و قابلیتهای عملی سیستمهای یادگیری تقویتی در مقیاس بزرگ به نمایش میگذارد.
مقاله و صفحه پروژه را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به سابردیت ۸۰k+ ML ما بپیوندید.