معماری سیستم DAPO
معماری سیستم DAPO

انتشار DAPO توسط ByteDance Research: یک سیستم یادگیری تقویتی مدل زبانی بزرگ (LLM) کاملاً متن‌باز در مقیاس بزرگ

یادگیری تقویتی (RL) به عنصری اساسی در پیشبرد مدل‌های زبانی بزرگ (LLM) تبدیل شده است و آن‌ها را با قابلیت‌های استدلال بهبود یافته لازم برای انجام وظایف پیچیده توانمند می‌سازد. با این حال، جامعه تحقیقاتی با چالش‌های قابل توجهی در بازتولید تکنیک‌های RL پیشرفته به دلیل افشاگری ناقص جزئیات کلیدی آموزش توسط بازیگران بزرگ صنعت مواجه است. این ابهام، پیشرفت تلاش‌های علمی گسترده‌تر و تحقیقات مشترک را محدود کرده است.

محققان ByteDance، دانشگاه Tsinghua و دانشگاه هنگ کنگ اخیراً DAPO (بهینه‌سازی سیاست نمونه‌برداری پویا) را معرفی کرده‌اند، یک سیستم یادگیری تقویتی در مقیاس بزرگ متن‌باز که برای ارتقای توانایی‌های استدلال مدل‌های زبانی بزرگ طراحی شده است. سیستم DAPO به دنبال پر کردن شکاف در قابلیت بازتولید با به اشتراک گذاشتن آشکار تمام جزئیات الگوریتمی، رویه‌های آموزشی و مجموعه‌داده‌ها است. DAPO که بر پایه چارچوب verl ساخته شده است، شامل کدهای آموزشی و یک مجموعه داده کاملاً آماده به نام DAPO-Math-17K است که به طور خاص برای وظایف استدلال ریاضی طراحی شده است.

پایه فنی DAPO شامل چهار نوآوری اصلی است که با هدف حل چالش‌های کلیدی در یادگیری تقویتی انجام شده است. اولین نوآوری، «Clip-Higher» به مسئله فروپاشی آنتروپی می‌پردازد، وضعیتی که در آن مدل‌ها زودتر از موعد در الگوهای اکتشافی محدود تثبیت می‌شوند. این تکنیک با مدیریت دقیق نسبت برش در به‌روزرسانی‌های سیاست، تنوع بیشتری را در خروجی‌های مدل تشویق می‌کند. «نمونه‌برداری پویا» با فیلتر کردن پویای نمونه‌ها بر اساس میزان مفید بودنشان، ناکارآمدی‌ها در آموزش را خنثی می‌کند و در نتیجه سیگنال گرادیان سازگارتری را تضمین می‌کند. «Loss گرادیان سیاست سطح توکن» یک روش محاسبه Loss اصلاح شده را ارائه می‌دهد و بر تنظیمات سطح توکن به جای سطح نمونه تأکید می‌کند تا بهتر بتواند طول‌های مختلف توالی‌های استدلال را تطبیق دهد. در نهایت، «شکل‌دهی پاداش بیش از حد طولانی» یک جریمه کنترل‌شده را برای پاسخ‌های بیش از حد طولانی معرفی می‌کند و به آرامی مدل‌ها را به سمت استدلال مختصر و کارآمد هدایت می‌کند.

عملکرد DAPO در معیار AIME 2024
عملکرد DAPO در معیار AIME 2024

در آزمایش‌های عملی، DAPO بهبودهای قابل توجهی را نشان داده است. ارزیابی‌ها در معیار امتحان دعوتنامه ریاضیات آمریکا (AIME) 2024 نشان می‌دهد که مدل‌های آموزش‌دیده با DAPO با استفاده از مدل پایه Qwen2.5-32B به امتیاز 50 دست یافته‌اند که نسبت به روش‌های قبلی مانند DeepSeek-R1-Zero-Qwen-32B که به امتیاز 47 دست یافتند، بهبود یافته است. قابل توجه است که DAPO این بهبود را با تقریباً نیمی از مراحل آموزش به دست آورد که بر کارایی روش‌های پیشنهادی تأکید می‌کند. یک تجزیه و تحلیل سیستماتیک، پیشرفت‌های افزایشی را از هر تکنیک معرفی‌شده نشان داد و از یک پایه 30 امتیازی (با استفاده از GRPO به تنهایی) تا 50 امتیاز با روش‌شناسی کامل DAPO پیش رفت.

پویایی آموزش DAPO و الگوهای استدلال
پویایی آموزش DAPO و الگوهای استدلال

فراتر از نتایج کمی، پویایی آموزش DAPO بینش‌هایی را در مورد الگوهای استدلال در حال تحول مدل ارائه می‌دهد. در ابتدا، مدل‌ها رفتار بازتابی کمی از خود نشان دادند و اغلب به صورت خطی در وظایف پیش می‌رفتند بدون اینکه در مراحل قبلی تجدید نظر کنند. با این حال، با ادامه آموزش، مدل‌ها به تدریج رفتارهای بازتابی بیشتری از خود نشان دادند و نوعی خود-بازبینی تکراری را به نمایش گذاشتند. این تغییر، قابلیت یادگیری تقویتی را نه تنها برای ارتقای مسیرهای استدلال موجود، بلکه برای پرورش استراتژی‌های شناختی کاملاً جدید در طول زمان برجسته می‌کند.

در پایان، متن‌باز کردن DAPO نشان‌دهنده سهمی معنادار در جامعه یادگیری تقویتی است و موانعی را که قبلاً توسط روش‌های غیرقابل دسترس ایجاد شده بودند، از بین می‌برد. این ابتکار مشترک با مستندسازی واضح و ارائه دسترسی جامع به تکنیک‌ها، مجموعه داده و کد سیستم، از تحقیقات و نوآوری‌های بیشتر دعوت می‌کند. تلاش‌های مشترک ByteDance، دانشگاه Tsinghua و دانشگاه هنگ کنگ پتانسیل تحقیقات شفاف و مشارکتی را برای پیشبرد درک جمعی و قابلیت‌های عملی سیستم‌های یادگیری تقویتی در مقیاس بزرگ به نمایش می‌گذارد.


مقاله و صفحه پروژه را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت ۸۰k+ ML ما بپیوندید.