دیپسیک ایآی، با همکاری دانشگاه تسینگهوا، از یک مطالعه تحقیقاتی جدید رونمایی کرد تا مدلسازی پاداش در مدلهای زبانی بزرگ (Large Language Models) را با زمان محاسبه استنتاج بیشتر بهبود بخشد. این تحقیق منجر به مدلی به نام DeepSeek-GRM شد که شرکت ادعا میکند به صورت متنباز منتشر خواهد شد.
نویسندگان روشی جدید به نام تنظیم انتقادی خود-اصولی (Self-Principled Critique Tuning - SPCT) را برای توسعه رفتارهای تولید پاداش مقیاسپذیر در مدلهای پاداش مولد (Generative Reward Models - GRMs) پیشنهاد میکنند.
به بیان ساده، این روش به مدلهای هوش مصنوعی آموزش میدهد تا اصول راهنما و انتقادات خود را در حین پردازش اطلاعات و استدلال توسعه دهند. این امر اثربخشی خودارزیابی را در انواع مختلف وظایف افزایش میدهد.
DeepSeek-GRM یک مدل هوش مصنوعی 27 میلیارد پارامتری است که پس از آموزش بر روی SPCT، بر اساس مدل متنباز Gemma-2-27B گوگل ساخته شده است. برای افزایش بیشتر کارایی، این تحقیق پیشنهاد میکند که نمونهها یا پاسخهای متعدد به طور همزمان اجرا شوند و از قدرت محاسباتی بیشتری استفاده شود.
DeepSeek-GRM-27B به طور مداوم نتایج قوی در معیارهای مختلف مدلسازی پاداش کسب کرده است. مقاله تحقیقاتی به طور عمیق در مورد نمرات معیار و تکنیکهای مورد استفاده در روششناسی بحث میکند.
چند هفته پیش، دیپسیک بهروزرسانی مدل DeepSeek-V3 خود را منتشر کرد. مدل بهروز شده ‘DeepSeek V3-0324’ در حال حاضر در بین تمام مدلهای غیر استدلالی در رتبههای برتر قرار دارد.
Artificial Analysis، پلتفرمی که مدلهای هوش مصنوعی را محک میزند، اظهار داشت: «این اولین بار است که یک مدل با وزنهای باز، مدل غیر استدلالی پیشرو است که نقطه عطفی برای متنباز محسوب میشود.» این مدل بالاترین امتیاز را در بین تمام مدلهای غیر استدلالی در «شاخص هوش» این پلتفرم کسب کرد.
رویترز گزارش داد که دیپسیک قصد دارد R2 را "در اسرع وقت" منتشر کند. این شرکت در ابتدا قصد داشت آن را در اوایل ماه مه عرضه کند، اما اکنون در حال بررسی جدول زمانی زودتری است.
انتظار میرود این مدل "کدنویسی بهتری" تولید کند و میتواند به زبانهایی فراتر از انگلیسی استدلال کند.
DeepSeek-R2 جانشین مدل استدلالی DeepSeek-R1 خواهد بود که طوفانی به پا کرد هم در اکوسیستم هوش مصنوعی و هم در بازارها.