GPT-4o با درخواست THE DECODER
GPT-4o با درخواست THE DECODER

DeepCoder-14B با ردپای کوچکتر، با عملکرد o3-mini اوپن‌ای‌آی برابری می‌کند

نمودار پراکنش: دقت Pass@1 LiveCodeBench در مقابل اندازه مدل، دیپ‌کدر با مدل‌های بزرگ با تعداد کمی پارامتر رقابت می‌کند.
نتایج معیار نشان می‌دهد که دیپ‌کدر با مدل‌های پیشرفته o3-mini (پایین) و o1، با وجود استفاده از پارامترهای کمتر، برابری می‌کند. | تصویر: Together AI
نمودار خطی: توسعه پاداش‌ها، طول پاسخ و پنجره متن در طول آموزش
تصویرسازی معیارهای آموزشی نشان‌دهنده پاداش‌ها، طول پاسخ و رشد پنجره متن از 16K به 32K توکن در طول توسعه مدل. | تصویر: Together AI

Agentica و Together AI، دیپ‌کدر-14B، یک مدل زبانی متن‌باز جدید طراحی شده برای تولید کد را منتشر کردند.

هدف این مدل ارائه عملکردی مشابه سیستم‌های بسته مانند o3-mini اوپن‌ای‌آی است، اما با ردپای کوچکتر. بر اساس آزمایش‌های معیار در LiveCodeBench، دیپ‌کدر-14B در همان سطح o3-mini عمل می‌کند، در حالی که به طور بالقوه به قدرت محاسباتی کمتری برای اجرا نیاز دارد.

Together AI تکنیکی به نام "خط لوله یکباره" را توسعه داده است که طبق گزارش‌ها، زمان آموزش را به نصف کاهش می‌دهد. این فرآیند آموزش، محاسبه پاداش و نمونه‌برداری را به صورت موازی انجام می‌دهد، به طوری که هر تکرار آموزش به بیش از 1000 آزمایش جداگانه نیاز دارد. آموزش به مدت دو هفته و نیم بر روی 32 پردازنده گرافیکی Nvidia H100 انجام شد.

داده‌های آموزشی 24000 مسئله برنامه‌نویسی را از سه منبع کلیدی ترکیب کرده است: TACO Verified (7500 مسئله)، PrimeIntellects SYNTHETIC-1 (16000 مسئله) و LiveCodeBench (600 مسئله). هر مسئله حداقل به پنج مورد آزمایشی و یک راه حل تأیید شده نیاز داشت. مجموعه‌های داده محبوب مانند KodCode و LeetCode نیز به دلیل ساده بودن یا پوشش آزمایشی ناکافی، حذف شدند.

علاوه بر این، Together AI سیستمی را پیاده‌سازی کرده است که آن را "پاداش نتیجه پراکنده" می‌نامند - این مدل تنها زمانی بازخورد مثبت دریافت می‌کند که کد آن تمام موارد آزمایشی را پشت سر بگذارد. برای مسائل با آزمایش‌های زیاد، بر روی 15 مورد چالش‌برانگیزتر تمرکز می‌کند.

در طول توسعه، تیم به تدریج پنجره متن مدل را از 16000 به 32000 توکن افزایش داد. نتایج به طور پیوسته بهبود یافت: 54 درصد دقت با 16000 توکن، 58 درصد با 32000 توکن و در نهایت رسیدن به 60.6 درصد با 64000 توکن.

این قابلیت مقیاس‌پذیری، دیپ‌کدر را از مدل پایه خود، DeepSeek-R1-Distill-Qwen-14B، متمایز می‌کند، که بهبودهای مشابهی را با پنجره‌های متن بزرگتر نشان نمی‌دهد. با پیشرفت آموزش، میانگین طول پاسخ مدل از 8000 به 17500 توکن افزایش یافت.

انتشار کامل متن‌باز برنامه‌ریزی شده است

این مدل فراتر از کدنویسی، مهارت‌های استدلال ریاضی قوی را نشان می‌دهد. این مدل به دقت 73.8 درصدی در مسائل AIME2024 دست یافت که 4.1 درصد بهبود نسبت به مدل پایه خود دارد.

در حالی که اوپن‌ای‌آی اخیراً اعلام کرد که وزنه‌های مدل را برای یک سیستم استدلال آینده به اشتراک می‌گذارد، Together AI همه چیز را برای انجمن متن‌باز در دسترس قرار می‌دهد - از جمله کد، داده‌های آموزشی، گزارش‌ها و بهینه‌سازی‌های سیستم.

خلاصه

  • Together AI و Agentica، دیپ‌کدر-14B، یک مدل هوش مصنوعی متن‌باز برای تولید کد را منتشر کرده‌اند که بر روی یک مجموعه داده تنظیم شده از 24000 وظیفه برنامه‌نویسی آموزش داده شده است.
  • دیپ‌کدر-14B با وجود داشتن تنها 14 میلیارد پارامتر، در معیارهای ارزیابی با مدل o3-mini (پایین) اوپن‌ای‌آی برابری می‌کند، که آن را به یک جایگزین لاغر و در دسترس تبدیل می‌کند که به منابع محاسباتی بالا نیاز ندارد.
  • توسعه‌دهندگان وزنه‌های مدل، کل پایگاه کد، داده‌های آموزشی، گزارش‌ها و بهینه‌سازی‌های سیستم را به صورت عمومی در دسترس قرار داده‌اند.

منابع

Together AI