تقاضا برای تولید کد هوشمند و راهکارهای برنامهنویسی خودکار، ناشی از افزایش سریع پیچیدگی نرمافزار و نیاز به بهرهوری توسعهدهندگان، افزایش یافته است. در حالی که پردازش زبان طبیعی و مدلهای استدلال عمومی با پیشرفتهای چشمگیری روبرو شدهاند، حوزه کدنویسی پیشرفت کندتری را تجربه کرده است. این تاخیر عمدتاً به کمبود مجموعههای داده با کیفیت بالا و قابل تایید که برای آموزش موثر سیستمهای مبتنی بر یادگیری تقویتی (RL) حیاتی هستند، نسبت داده میشود. بر خلاف مسائل ریاضی که از انبوهی از نمونههای ساختاریافته و قابل تایید آنلاین بهره میبرند، وظایف کدنویسی اغلب از نویز، پوشش ناکافی تست و خروجیهای غیرقابل تایید رنج میبرند. در نتیجه، پیشرفت مدلهای زبانی بزرگ (LLM) برای تولید کد تا کنون یک چالش بزرگ باقی مانده است.
DeepCoder-14B-Preview توسط Together AI با همکاری تیم Agentica منتشر شد. این مدل قدرتمند با استفاده از یادگیری تقویتی توزیعشده از DeepSeek-R1-Distilled-Qwen-14B تنظیم دقیق شده است و پیشرفت چشمگیری در استدلال کد نشان میدهد. DeepCoder-14B-Preview با عملکرد 60.6% دقت Pass@1 در LiveCodeBench (LCB)، نه تنها شکاف با مدلهای پیشرو مانند o3-mini-2025 را پر میکند، بلکه با خروجی آنها مطابقت دارد، در حالی که تنها از 14 میلیارد پارامتر استفاده میکند، که یک شاهکار قابل توجه در کارایی و توانایی است.
با توجه به معیارهای ارزیابی، این انتشار از اهمیت ویژهای برخوردار است. DeepSeek-R1-Distill-Qwen-14B امتیاز 53.0٪ را در LCB کسب میکند و DeepCoder-14B-Preview در مقایسه با مدل پایه خود، جهشی 8٪ در دقت نشان میدهد. همچنین، از نظر دقت و مهارت کدنویسی، با مدلهای تثبیتشده مانند o3-mini (60.9٪) و o1-2024-12-17 (59.5٪) رقابت تنگاتنگی دارد. از نظر معیارهای کدنویسی رقابتی، به رتبه Codeforces 1936 و درصد 95.3٪ میرسد که نشانگرهای روشنی از شایستگی کدنویسی واقعی آن هستند.
این مدل طی 2.5 هفته بر روی 32 پردازنده گرافیکی H100 با استفاده از یک مجموعه داده تنظیمشده از 24000 مسئله کدنویسی قابل تایید آموزش داده شد. این مجموعه داده با فیلتر کردن دقیق منابع موجود برای اطمینان از کیفیت و تنوع ساخته شده است. این مجموعه داده، مسائل مجموعه TACO Verified، SYNTHETIC-1 PrimeIntellect و ورودیهای LiveCodeBench ارسال شده بین مه 2023 و ژوئیه 2024 را ترکیب میکند. فرآیند انتخاب بر تأیید برنامهنویسی موارد آزمایشی، حداقل پنج تست واحد در هر مسئله و حذف تکراریها برای جلوگیری از آلودگی دادهها تاکید داشت. این به حفظ یکپارچگی آموزش و به حداکثر رساندن اثربخشی RL کمک کرد.
برای تسهیل این سطح از اعتبار سنجی، آموزش DeepCoder یک محیط جعبه ایمن کد مقیاسپذیر را ادغام کرد که قادر به اجرای ارزیابیهای موازی گسترده است. بیش از 1000 مسئله کدنویسی در هر مرحله RL با استفاده از دو جعبه ایمن قوی، مفسر کد Together و یک جعبه ایمن محلی ارزیابی شدند. این محیطها تضمین کردند که هر راهحل تولید شده توسط مدل بهطور دقیق در چندین تست واحد آزمایش میشود و هک کردن پاداش را فیلتر کرده و استدلال واقعی را بر حفظ کردن تشویق میکند.
همچنین، معماری سیستم پشتیبانی کننده DeepCoder از طریق "verl-pipe"، یک افزونه ارتقا یافته برای خط لوله RL پس از آموزش که سرعت آموزش را از طریق بهبودهای سطح سیستم دو برابر کرد، بهینه شد. این بهبود، چرخههای توسعه را تسریع میکند و یک چارچوب مدولار برای دیگرانی که به دنبال ساخت یا تکرار LLMهای مشابه در اکوسیستمهای متنباز هستند، فراهم میکند.
برخی از نکات کلیدی از انتشار پیشنمایش DeepCoder-14B عبارتند از:
- DeepCoder-14B-Preview به دقت 60.6% Pass@1 در LiveCodeBench دست مییابد - که با عملکرد o3-mini با پارامترهای کمتر مطابقت دارد.
- آموزش مدل از 24 هزار مسئله کدنویسی قابل تایید، که با دقت تنظیم شدهاند تا از نویز و هک کردن پاداش جلوگیری شود، استفاده کرده است.
- این مدل به مدت 2.5 هفته بر روی 32 پردازنده گرافیکی H100 آموزش داده شد و بر قابلیت بازتولید و کارایی سیستم تاکید داشت.
- یک محیط جعبه ایمن دوگانه، اعتبارسنجی دقیق و مقیاسپذیر کد را در طول آموزش تضمین کرد.
- بهینهسازی سیستم از طریق verl-pipe سرعت آموزش را دو برابر میکند و یک خط لوله قابل استفاده مجدد برای مدلهای آینده ارائه میدهد.
- DeepCoder به طور کامل متنباز است، از جمله مجموعههای داده، کد و گزارشهای آموزشی، و راه را برای توسعه مبتنی بر جامعه هموار میکند.
برای اطلاعات بیشتر، به جزئیات فنی، مدل در Hugging Face و صفحه GitHub مراجعه کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید که به سابردیت 85k+ ML ما بپیوندید.