Agentica و Together AI، دیپکدر-14B، یک مدل زبانی متنباز جدید طراحی شده برای تولید کد را منتشر کردند.
هدف این مدل ارائه عملکردی مشابه سیستمهای بسته مانند o3-mini اوپنایآی است، اما با ردپای کوچکتر. بر اساس آزمایشهای معیار در LiveCodeBench، دیپکدر-14B در همان سطح o3-mini عمل میکند، در حالی که به طور بالقوه به قدرت محاسباتی کمتری برای اجرا نیاز دارد.
Together AI تکنیکی به نام "خط لوله یکباره" را توسعه داده است که طبق گزارشها، زمان آموزش را به نصف کاهش میدهد. این فرآیند آموزش، محاسبه پاداش و نمونهبرداری را به صورت موازی انجام میدهد، به طوری که هر تکرار آموزش به بیش از 1000 آزمایش جداگانه نیاز دارد. آموزش به مدت دو هفته و نیم بر روی 32 پردازنده گرافیکی Nvidia H100 انجام شد.
دادههای آموزشی 24000 مسئله برنامهنویسی را از سه منبع کلیدی ترکیب کرده است: TACO Verified (7500 مسئله)، PrimeIntellects SYNTHETIC-1 (16000 مسئله) و LiveCodeBench (600 مسئله). هر مسئله حداقل به پنج مورد آزمایشی و یک راه حل تأیید شده نیاز داشت. مجموعههای داده محبوب مانند KodCode و LeetCode نیز به دلیل ساده بودن یا پوشش آزمایشی ناکافی، حذف شدند.
علاوه بر این، Together AI سیستمی را پیادهسازی کرده است که آن را "پاداش نتیجه پراکنده" مینامند - این مدل تنها زمانی بازخورد مثبت دریافت میکند که کد آن تمام موارد آزمایشی را پشت سر بگذارد. برای مسائل با آزمایشهای زیاد، بر روی 15 مورد چالشبرانگیزتر تمرکز میکند.
در طول توسعه، تیم به تدریج پنجره متن مدل را از 16000 به 32000 توکن افزایش داد. نتایج به طور پیوسته بهبود یافت: 54 درصد دقت با 16000 توکن، 58 درصد با 32000 توکن و در نهایت رسیدن به 60.6 درصد با 64000 توکن.
این قابلیت مقیاسپذیری، دیپکدر را از مدل پایه خود، DeepSeek-R1-Distill-Qwen-14B، متمایز میکند، که بهبودهای مشابهی را با پنجرههای متن بزرگتر نشان نمیدهد. با پیشرفت آموزش، میانگین طول پاسخ مدل از 8000 به 17500 توکن افزایش یافت.
انتشار کامل متنباز برنامهریزی شده است
این مدل فراتر از کدنویسی، مهارتهای استدلال ریاضی قوی را نشان میدهد. این مدل به دقت 73.8 درصدی در مسائل AIME2024 دست یافت که 4.1 درصد بهبود نسبت به مدل پایه خود دارد.
در حالی که اوپنایآی اخیراً اعلام کرد که وزنههای مدل را برای یک سیستم استدلال آینده به اشتراک میگذارد، Together AI همه چیز را برای انجمن متنباز در دسترس قرار میدهد - از جمله کد، دادههای آموزشی، گزارشها و بهینهسازیهای سیستم.
خلاصه
- Together AI و Agentica، دیپکدر-14B، یک مدل هوش مصنوعی متنباز برای تولید کد را منتشر کردهاند که بر روی یک مجموعه داده تنظیم شده از 24000 وظیفه برنامهنویسی آموزش داده شده است.
- دیپکدر-14B با وجود داشتن تنها 14 میلیارد پارامتر، در معیارهای ارزیابی با مدل o3-mini (پایین) اوپنایآی برابری میکند، که آن را به یک جایگزین لاغر و در دسترس تبدیل میکند که به منابع محاسباتی بالا نیاز ندارد.
- توسعهدهندگان وزنههای مدل، کل پایگاه کد، دادههای آموزشی، گزارشها و بهینهسازیهای سیستم را به صورت عمومی در دسترس قرار دادهاند.