برای دریافت آخرین بهروزرسانیها و محتوای انحصاری در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامههای روزانه و هفتگی ما مشترک شوید. بیشتر بدانید
پژوهشگران Together AI و Agentica، یک مدل کدنویسی جدید به نام DeepCoder-14B را منتشر کردهاند که عملکرد چشمگیری را ارائه میدهد و با مدلهای اختصاصی پیشرو مانند o3-mini OpenAI قابل مقایسه است.
این مدل که بر روی DeepSeek-R1 ساخته شده است، انعطافپذیری بیشتری را برای ادغام قابلیتهای استدلال و تولید کد با کارایی بالا در برنامههای کاربردی دنیای واقعی ارائه میدهد. نکته مهم این است که تیمها مدل، دادههای آموزشی، کد، گزارشها و بهینهسازیهای سیستم خود را به طور کامل به صورت متنباز منتشر کردهاند، که میتواند به محققان در بهبود کارشان و تسریع پیشرفت کمک کند.
آزمایشهای تیم تحقیقاتی نشان میدهد که DeepCoder-14B در چندین معیار کدنویسی چالشبرانگیز، از جمله LiveCodeBench (LCB)، Codeforces و HumanEval+ عملکرد قوی دارد.
محققان در یک پست وبلاگ که مدل را توصیف میکند، مینویسند: «مدل ما عملکرد قوی را در تمام معیارهای کدنویسی نشان میدهد... قابل مقایسه با عملکرد o3-mini (پایین) و o1».
جالب اینجاست که این مدل، علیرغم اینکه عمدتاً بر روی وظایف کدنویسی آموزش داده شده است، استدلال ریاضی بهبود یافتهای را نشان میدهد و در معیار AIME 2024 امتیاز 73.8٪ را کسب میکند، که 4.1٪ بهبود نسبت به مدل پایه خود (DeepSeek-R1-Distill-Qwen-14B) دارد. این نشان میدهد که مهارتهای استدلالی که از طریق RL در کد توسعه یافتهاند، میتوانند به طور موثر به حوزههای دیگر تعمیم یابند.
بارزترین جنبه، دستیابی به این سطح از عملکرد تنها با 14 میلیارد پارامتر است. این امر باعث میشود DeepCoder به طور قابل توجهی کوچکتر و به طور بالقوه کارآمدتر از بسیاری از مدلهای مرزی باشد.
در حین توسعه مدل، محققان برخی از چالشهای کلیدی در آموزش مدلهای کدنویسی با استفاده از یادگیری تقویتی (RL) را حل کردند.
اولین چالش، انتخاب دادههای آموزشی بود. یادگیری تقویتی نیاز به سیگنالهای پاداش قابل اعتماد دارد که نشان میدهد خروجی مدل صحیح است. همانطور که محققان اشاره میکنند، "برخلاف ریاضیات - که در آن دادههای با کیفیت بالا و قابل تأیید فراوانی به راحتی در اینترنت در دسترس است - دامنه کدنویسی از کمبود نسبی چنین دادههایی رنج میبرد."
برای حل این مشکل، تیم DeepCoder یک خط لوله دقیق را پیادهسازی کرد که نمونههایی را از مجموعهدادههای مختلف جمعآوری میکند و آنها را از نظر اعتبار، پیچیدگی و تکرار فیلتر میکند. این فرآیند 24000 مسئله با کیفیت بالا را به دست داد، که پایه محکمی برای آموزش موثر RL فراهم میکند.
این تیم همچنین یک تابع پاداش ساده طراحی کرد که تنها در صورتی سیگنال مثبت ارائه میدهد که کد تولید شده تمام تستهای واحد نمونهبرداری شده برای مسئله را در یک محدوده زمانی خاص پشت سر بگذارد. این سیستم پاداش متمرکز بر نتیجه، همراه با نمونههای آموزشی با کیفیت بالا، از یادگیری ترفندهایی مانند چاپ پاسخهای حفظ شده برای تستهای عمومی یا بهینهسازی برای موارد حاشیهای ساده بدون حل مسئله اصلی جلوگیری میکند.
الگوریتم اصلی آموزش مدل بر اساس بهینهسازی سیاست نسبی گروهی (GRPO) است، یک الگوریتم یادگیری تقویتی که در DeepSeek-R1 بسیار موفق بود. با این حال، این تیم چندین اصلاحیه در الگوریتم ایجاد کرد تا آن را پایدارتر کند و به مدل اجازه دهد تا با طولانیتر شدن آموزش، به بهبود خود ادامه دهد.
در نهایت، این تیم پنجره متنی مدل را به صورت تکراری گسترش داد، ابتدا آن را بر روی دنبالههای استدلالی کوتاهتر آموزش داد و به تدریج طول را افزایش داد. آنها همچنین یک روش فیلتر کردن را توسعه دادند تا از جریمه کردن مدل در هنگام ایجاد زنجیرههای استدلالی که از محدودیتهای متنی فراتر میروند هنگام حل یک درخواست سخت، جلوگیری کنند.
محققان ایده اصلی را توضیح میدهند: "برای حفظ استدلال طولانیمدت و در عین حال فعال کردن آموزش کارآمد، ما فیلتر کردن بیش از حد طولانی را گنجاندهایم... این تکنیک دنبالههای کوتاه شده را در طول آموزش پنهان میکند تا مدلها به دلیل تولید خروجیهای متفکرانه اما طولانی که از محدودیت متنی فعلی فراتر میروند، جریمه نشوند."
آموزش به تدریج از یک پنجره متنی 16K به یک پنجره متنی 32K مقیاس شد و مدل حاصل میتواند مسائلی را که نیاز به حداکثر 64K توکن دارند نیز حل کند.
آموزش مدلهای بزرگ با RL، به ویژه در وظایفی که نیاز به دنبالههای تولید شده طولانی مانند کدنویسی یا استدلال پیچیده دارند، از نظر محاسباتی فشرده و کند است. یک گلوگاه اصلی، مرحله "نمونهبرداری" است، جایی که مدل به طور بالقوه هزاران توکن در هر نمونه در دستهای تولید میکند. تغییرات در طول پاسخ به این معنی است که برخی از پاسخها خیلی دیرتر از سایرین به پایان میرسند، و GPUها را بیکار میگذارند و کل حلقه آموزشی را کند میکنند.
برای تسریع این امر، این تیم verl-pipeline را توسعه داد، یک افزونه بهینهسازی شده از کتابخانه متنباز verl برای یادگیری تقویتی از بازخورد انسانی (RLHF). نوآوری کلیدی، که آنها آن را "خط لوله یکباره" مینامند، نمونهبرداری از پاسخ و بهروزرسانیهای مدل را برای کاهش گلوگاهها و زمان بیکاری شتابدهنده دوباره مرتب میکند.
آزمایشهای آنها نشان داد که خط لوله یکباره در مقایسه با پیادهسازیهای پایه، تا 2 برابر سرعت بیشتری را برای وظایف RL کدنویسی فراهم میکند. این بهینهسازی برای آموزش DeepCoder در یک بازه زمانی معقول (2.5 هفته در 32 H100) بسیار مهم بود و اکنون به عنوان بخشی از verl-pipeline برای استفاده و ساخت جامعه متنباز شده است.
محققان تمام مصنوعات برای آموزش و اجرای DeepCoder-14B را در GitHub و Hugging Face تحت یک مجوز مجاز در دسترس قرار دادهاند.
محققان مینویسند: "با به اشتراک گذاشتن کامل مجموعه داده، کد و دستورالعمل آموزشی خود، به جامعه این قدرت را میدهیم تا کار ما را بازتولید کند و آموزش RL را برای همه در دسترس قرار دهد."
DeepCoder-14B به طور قدرتمندی روند گستردهتر و شتابدهندهای را در چشمانداز هوش مصنوعی نشان میدهد: ظهور مدلهای بسیار توانمند و در عین حال کارآمد و در دسترس.
برای دنیای شرکتها، این تغییر به معنای گزینههای بیشتر و دسترسی بالاتر به مدلهای پیشرفته است. عملکرد پیشرفته دیگر صرفاً در انحصار هایپرسکیلرها یا کسانی نیست که مایل به پرداخت هزینههای API ممتاز هستند. مدلهایی مانند DeepCoder میتوانند به سازمانها در هر اندازهای این امکان را بدهند که از تولید کد و استدلال پیچیده استفاده کنند، راهحلها را مطابق با نیازهای خاص خود سفارشی کنند و آنها را به طور ایمن در محیطهای خود مستقر کنند.
این روند میتواند مانع ورود به پذیرش هوش مصنوعی را کاهش دهد و یک اکوسیستم رقابتیتر و نوآورانهتر را تقویت کند، جایی که پیشرفت از طریق همکاری متنباز هدایت میشود.