انتشار پیش‌نمایش DeepCoder-14B توسط Together AI: یک مدل استدلال کد کاملاً متن‌باز

تقاضا برای تولید کد هوشمند و راهکارهای برنامه‌نویسی خودکار، ناشی از افزایش سریع پیچیدگی نرم‌افزار و نیاز به بهره‌وری توسعه‌دهندگان، افزایش یافته است. در حالی که پردازش زبان طبیعی و مدل‌های استدلال عمومی با پیشرفت‌های چشمگیری روبرو شده‌اند، حوزه کدنویسی پیشرفت کندتری را تجربه کرده است. این تاخیر عمدتاً به کمبود مجموعه‌های داده با کیفیت بالا و قابل تایید که برای آموزش موثر سیستم‌های مبتنی بر یادگیری تقویتی (RL) حیاتی هستند، نسبت داده می‌شود. بر خلاف مسائل ریاضی که از انبوهی از نمونه‌های ساختاریافته و قابل تایید آنلاین بهره می‌برند، وظایف کدنویسی اغلب از نویز، پوشش ناکافی تست و خروجی‌های غیرقابل تایید رنج می‌برند. در نتیجه، پیشرفت مدل‌های زبانی بزرگ (LLM) برای تولید کد تا کنون یک چالش بزرگ باقی مانده است.

DeepCoder-14B-Preview توسط Together AI با همکاری تیم Agentica منتشر شد. این مدل قدرتمند با استفاده از یادگیری تقویتی توزیع‌شده از DeepSeek-R1-Distilled-Qwen-14B تنظیم دقیق شده است و پیشرفت چشمگیری در استدلال کد نشان می‌دهد. DeepCoder-14B-Preview با عملکرد 60.6% دقت Pass@1 در LiveCodeBench (LCB)، نه تنها شکاف با مدل‌های پیشرو مانند o3-mini-2025 را پر می‌کند، بلکه با خروجی آن‌ها مطابقت دارد، در حالی که تنها از 14 میلیارد پارامتر استفاده می‌کند، که یک شاهکار قابل توجه در کارایی و توانایی است.

با توجه به معیارهای ارزیابی، این انتشار از اهمیت ویژه‌ای برخوردار است. DeepSeek-R1-Distill-Qwen-14B امتیاز 53.0٪ را در LCB کسب می‌کند و DeepCoder-14B-Preview در مقایسه با مدل پایه خود، جهشی 8٪ در دقت نشان می‌دهد. همچنین، از نظر دقت و مهارت کدنویسی، با مدل‌های تثبیت‌شده مانند o3-mini (60.9٪) و o1-2024-12-17 (59.5٪) رقابت تنگاتنگی دارد. از نظر معیارهای کدنویسی رقابتی، به رتبه Codeforces 1936 و درصد 95.3٪ می‌رسد که نشانگرهای روشنی از شایستگی کدنویسی واقعی آن هستند.

نمونه تصویری از خروجی مدل
نمونه‌ای از خروجی مدل DeepCoder-14B-Preview
معماری DeepCoder
معماری DeepCoder. <a href="https://www.together.ai/blog/deepcoder"><strong>منبع تصویر</strong></a>

این مدل طی 2.5 هفته بر روی 32 پردازنده گرافیکی H100 با استفاده از یک مجموعه داده تنظیم‌شده از 24000 مسئله کدنویسی قابل تایید آموزش داده شد. این مجموعه داده با فیلتر کردن دقیق منابع موجود برای اطمینان از کیفیت و تنوع ساخته شده است. این مجموعه داده، مسائل مجموعه TACO Verified، SYNTHETIC-1 PrimeIntellect و ورودی‌های LiveCodeBench ارسال شده بین مه 2023 و ژوئیه 2024 را ترکیب می‌کند. فرآیند انتخاب بر تأیید برنامه‌نویسی موارد آزمایشی، حداقل پنج تست واحد در هر مسئله و حذف تکراری‌ها برای جلوگیری از آلودگی داده‌ها تاکید داشت. این به حفظ یکپارچگی آموزش و به حداکثر رساندن اثربخشی RL کمک کرد.

برای تسهیل این سطح از اعتبار سنجی، آموزش DeepCoder یک محیط جعبه ایمن کد مقیاس‌پذیر را ادغام کرد که قادر به اجرای ارزیابی‌های موازی گسترده است. بیش از 1000 مسئله کدنویسی در هر مرحله RL با استفاده از دو جعبه ایمن قوی، مفسر کد Together و یک جعبه ایمن محلی ارزیابی شدند. این محیط‌ها تضمین کردند که هر راه‌حل تولید شده توسط مدل به‌طور دقیق در چندین تست واحد آزمایش می‌شود و هک کردن پاداش را فیلتر کرده و استدلال واقعی را بر حفظ کردن تشویق می‌کند.

فرایند آموزش DeepCoder
فرایند آموزش DeepCoder. <a href="https://www.together.ai/blog/deepcoder"><strong>منبع تصویر</strong></a>

همچنین، معماری سیستم پشتیبانی کننده DeepCoder از طریق "verl-pipe"، یک افزونه ارتقا یافته برای خط لوله RL پس از آموزش که سرعت آموزش را از طریق بهبودهای سطح سیستم دو برابر کرد، بهینه شد. این بهبود، چرخه‌های توسعه را تسریع می‌کند و یک چارچوب مدولار برای دیگرانی که به دنبال ساخت یا تکرار LLMهای مشابه در اکوسیستم‌های متن‌باز هستند، فراهم می‌کند.

برخی از نکات کلیدی از انتشار پیش‌نمایش DeepCoder-14B عبارتند از:

  • DeepCoder-14B-Preview به دقت 60.6% Pass@1 در LiveCodeBench دست می‌یابد - که با عملکرد o3-mini با پارامترهای کمتر مطابقت دارد.
  • آموزش مدل از 24 هزار مسئله کدنویسی قابل تایید، که با دقت تنظیم شده‌اند تا از نویز و هک کردن پاداش جلوگیری شود، استفاده کرده است.
  • این مدل به مدت 2.5 هفته بر روی 32 پردازنده گرافیکی H100 آموزش داده شد و بر قابلیت بازتولید و کارایی سیستم تاکید داشت.
  • یک محیط جعبه ایمن دوگانه، اعتبارسنجی دقیق و مقیاس‌پذیر کد را در طول آموزش تضمین کرد.
  • بهینه‌سازی سیستم از طریق verl-pipe سرعت آموزش را دو برابر می‌کند و یک خط لوله قابل استفاده مجدد برای مدل‌های آینده ارائه می‌دهد.
  • DeepCoder به طور کامل متن‌باز است، از جمله مجموعه‌های داده، کد و گزارش‌های آموزشی، و راه را برای توسعه مبتنی بر جامعه هموار می‌کند.

برای اطلاعات بیشتر، به جزئیات فنی، مدل در Hugging Face و صفحه GitHub مراجعه کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت 85k+ ML ما بپیوندید.