عملکرد برتر DeepCoder در مدل متن‌باز کارآمد 14B در کدنویسی ارائه می‌دهد

عملکرد DeepCoder-14B
اعتبار: Together AI

برای دریافت آخرین به‌روزرسانی‌ها و محتوای انحصاری در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامه‌های روزانه و هفتگی ما مشترک شوید. بیشتر بدانید


پژوهشگران Together AI و Agentica، یک مدل کدنویسی جدید به نام DeepCoder-14B را منتشر کرده‌اند که عملکرد چشمگیری را ارائه می‌دهد و با مدل‌های اختصاصی پیشرو مانند o3-mini OpenAI قابل مقایسه است.

این مدل که بر روی DeepSeek-R1 ساخته شده است، انعطاف‌پذیری بیشتری را برای ادغام قابلیت‌های استدلال و تولید کد با کارایی بالا در برنامه‌های کاربردی دنیای واقعی ارائه می‌دهد. نکته مهم این است که تیم‌ها مدل، داده‌های آموزشی، کد، گزارش‌ها و بهینه‌سازی‌های سیستم خود را به طور کامل به صورت متن‌باز منتشر کرده‌اند، که می‌تواند به محققان در بهبود کارشان و تسریع پیشرفت کمک کند.

آزمایش‌های تیم تحقیقاتی نشان می‌دهد که DeepCoder-14B در چندین معیار کدنویسی چالش‌برانگیز، از جمله LiveCodeBench (LCB)، Codeforces و HumanEval+ عملکرد قوی دارد.

محققان در یک پست وبلاگ که مدل را توصیف می‌کند، می‌نویسند: «مدل ما عملکرد قوی را در تمام معیارهای کدنویسی نشان می‌دهد... قابل مقایسه با عملکرد o3-mini (پایین) و o1».

جالب اینجاست که این مدل، علیرغم اینکه عمدتاً بر روی وظایف کدنویسی آموزش داده شده است، استدلال ریاضی بهبود یافته‌ای را نشان می‌دهد و در معیار AIME 2024 امتیاز 73.8٪ را کسب می‌کند، که 4.1٪ بهبود نسبت به مدل پایه خود (DeepSeek-R1-Distill-Qwen-14B) دارد. این نشان می‌دهد که مهارت‌های استدلالی که از طریق RL در کد توسعه یافته‌اند، می‌توانند به طور موثر به حوزه‌های دیگر تعمیم یابند.

بارزترین جنبه، دستیابی به این سطح از عملکرد تنها با 14 میلیارد پارامتر است. این امر باعث می‌شود DeepCoder به طور قابل توجهی کوچکتر و به طور بالقوه کارآمدتر از بسیاری از مدل‌های مرزی باشد.

در حین توسعه مدل، محققان برخی از چالش‌های کلیدی در آموزش مدل‌های کدنویسی با استفاده از یادگیری تقویتی (RL) را حل کردند.

اولین چالش، انتخاب داده‌های آموزشی بود. یادگیری تقویتی نیاز به سیگنال‌های پاداش قابل اعتماد دارد که نشان می‌دهد خروجی مدل صحیح است. همانطور که محققان اشاره می‌کنند، "برخلاف ریاضیات - که در آن داده‌های با کیفیت بالا و قابل تأیید فراوانی به راحتی در اینترنت در دسترس است - دامنه کدنویسی از کمبود نسبی چنین داده‌هایی رنج می‌برد."

برای حل این مشکل، تیم DeepCoder یک خط لوله دقیق را پیاده‌سازی کرد که نمونه‌هایی را از مجموعه‌داده‌های مختلف جمع‌آوری می‌کند و آنها را از نظر اعتبار، پیچیدگی و تکرار فیلتر می‌کند. این فرآیند 24000 مسئله با کیفیت بالا را به دست داد، که پایه محکمی برای آموزش موثر RL فراهم می‌کند.

این تیم همچنین یک تابع پاداش ساده طراحی کرد که تنها در صورتی سیگنال مثبت ارائه می‌دهد که کد تولید شده تمام تست‌های واحد نمونه‌برداری شده برای مسئله را در یک محدوده زمانی خاص پشت سر بگذارد. این سیستم پاداش متمرکز بر نتیجه، همراه با نمونه‌های آموزشی با کیفیت بالا، از یادگیری ترفندهایی مانند چاپ پاسخ‌های حفظ شده برای تست‌های عمومی یا بهینه‌سازی برای موارد حاشیه‌ای ساده بدون حل مسئله اصلی جلوگیری می‌کند.

الگوریتم اصلی آموزش مدل بر اساس بهینه‌سازی سیاست نسبی گروهی (GRPO) است، یک الگوریتم یادگیری تقویتی که در DeepSeek-R1 بسیار موفق بود. با این حال، این تیم چندین اصلاحیه در الگوریتم ایجاد کرد تا آن را پایدارتر کند و به مدل اجازه دهد تا با طولانی‌تر شدن آموزش، به بهبود خود ادامه دهد.

در نهایت، این تیم پنجره متنی مدل را به صورت تکراری گسترش داد، ابتدا آن را بر روی دنباله‌های استدلالی کوتاه‌تر آموزش داد و به تدریج طول را افزایش داد. آنها همچنین یک روش فیلتر کردن را توسعه دادند تا از جریمه کردن مدل در هنگام ایجاد زنجیره‌های استدلالی که از محدودیت‌های متنی فراتر می‌روند هنگام حل یک درخواست سخت، جلوگیری کنند.

محققان ایده اصلی را توضیح می‌دهند: "برای حفظ استدلال طولانی‌مدت و در عین حال فعال کردن آموزش کارآمد، ما فیلتر کردن بیش از حد طولانی را گنجانده‌ایم... این تکنیک دنباله‌های کوتاه شده را در طول آموزش پنهان می‌کند تا مدل‌ها به دلیل تولید خروجی‌های متفکرانه اما طولانی که از محدودیت متنی فعلی فراتر می‌روند، جریمه نشوند."

آموزش به تدریج از یک پنجره متنی 16K به یک پنجره متنی 32K مقیاس شد و مدل حاصل می‌تواند مسائلی را که نیاز به حداکثر 64K توکن دارند نیز حل کند.

آموزش مدل‌های بزرگ با RL، به ویژه در وظایفی که نیاز به دنباله‌های تولید شده طولانی مانند کدنویسی یا استدلال پیچیده دارند، از نظر محاسباتی فشرده و کند است. یک گلوگاه اصلی، مرحله "نمونه‌برداری" است، جایی که مدل به طور بالقوه هزاران توکن در هر نمونه در دسته‌ای تولید می‌کند. تغییرات در طول پاسخ به این معنی است که برخی از پاسخ‌ها خیلی دیرتر از سایرین به پایان می‌رسند، و GPUها را بیکار می‌گذارند و کل حلقه آموزشی را کند می‌کنند.

برای تسریع این امر، این تیم verl-pipeline را توسعه داد، یک افزونه بهینه‌سازی شده از کتابخانه متن‌باز verl برای یادگیری تقویتی از بازخورد انسانی (RLHF). نوآوری کلیدی، که آنها آن را "خط لوله یکباره" می‌نامند، نمونه‌برداری از پاسخ و به‌روزرسانی‌های مدل را برای کاهش گلوگاه‌ها و زمان بیکاری شتاب‌دهنده دوباره مرتب می‌کند.

آزمایش‌های آنها نشان داد که خط لوله یکباره در مقایسه با پیاده‌سازی‌های پایه، تا 2 برابر سرعت بیشتری را برای وظایف RL کدنویسی فراهم می‌کند. این بهینه‌سازی برای آموزش DeepCoder در یک بازه زمانی معقول (2.5 هفته در 32 H100) بسیار مهم بود و اکنون به عنوان بخشی از verl-pipeline برای استفاده و ساخت جامعه متن‌باز شده است.

محققان تمام مصنوعات برای آموزش و اجرای DeepCoder-14B را در GitHub و Hugging Face تحت یک مجوز مجاز در دسترس قرار داده‌اند.

محققان می‌نویسند: "با به اشتراک گذاشتن کامل مجموعه داده، کد و دستورالعمل آموزشی خود، به جامعه این قدرت را می‌دهیم تا کار ما را بازتولید کند و آموزش RL را برای همه در دسترس قرار دهد."

DeepCoder-14B به طور قدرتمندی روند گسترده‌تر و شتاب‌دهنده‌ای را در چشم‌انداز هوش مصنوعی نشان می‌دهد: ظهور مدل‌های بسیار توانمند و در عین حال کارآمد و در دسترس.

برای دنیای شرکت‌ها، این تغییر به معنای گزینه‌های بیشتر و دسترسی بالاتر به مدل‌های پیشرفته است. عملکرد پیشرفته دیگر صرفاً در انحصار هایپرسکیلرها یا کسانی نیست که مایل به پرداخت هزینه‌های API ممتاز هستند. مدل‌هایی مانند DeepCoder می‌توانند به سازمان‌ها در هر اندازه‌ای این امکان را بدهند که از تولید کد و استدلال پیچیده استفاده کنند، راه‌حل‌ها را مطابق با نیازهای خاص خود سفارشی کنند و آنها را به طور ایمن در محیط‌های خود مستقر کنند.

این روند می‌تواند مانع ورود به پذیرش هوش مصنوعی را کاهش دهد و یک اکوسیستم رقابتی‌تر و نوآورانه‌تر را تقویت کند، جایی که پیشرفت از طریق همکاری متن‌باز هدایت می‌شود.

GRPO+
GRPO+ به DeepCoder-14 اجازه می‌دهد تا برای مدت طولانی‌تری بدون فروپاشی به کار خود ادامه دهد. اعتبار: Together AI

گسترش تکراری متن
DeepCoder بر روی مسائل متنی 32K آموزش داده شد، اما همچنین توانست وظایف 64K را حل کند. اعتبار: Together AI