دیپ‌سیک مدل متن‌باز با تکنیک‌های مدل‌سازی پاداش پیشرفته منتشر می‌کند

دیپ‌سیک ای‌آی، با همکاری دانشگاه تسینگ‌هوا، از یک مطالعه تحقیقاتی جدید رونمایی کرد تا مدل‌سازی پاداش در مدل‌های زبانی بزرگ (Large Language Models) را با زمان محاسبه استنتاج بیشتر بهبود بخشد. این تحقیق منجر به مدلی به نام DeepSeek-GRM شد که شرکت ادعا می‌کند به صورت متن‌باز منتشر خواهد شد.

نویسندگان روشی جدید به نام تنظیم انتقادی خود-اصولی (Self-Principled Critique Tuning - SPCT) را برای توسعه رفتارهای تولید پاداش مقیاس‌پذیر در مدل‌های پاداش مولد (Generative Reward Models - GRMs) پیشنهاد می‌کنند.

به بیان ساده، این روش به مدل‌های هوش مصنوعی آموزش می‌دهد تا اصول راهنما و انتقادات خود را در حین پردازش اطلاعات و استدلال توسعه دهند. این امر اثربخشی خودارزیابی را در انواع مختلف وظایف افزایش می‌دهد.

DeepSeek-GRM یک مدل هوش مصنوعی 27 میلیارد پارامتری است که پس از آموزش بر روی SPCT، بر اساس مدل متن‌باز Gemma-2-27B گوگل ساخته شده است. برای افزایش بیشتر کارایی، این تحقیق پیشنهاد می‌کند که نمونه‌ها یا پاسخ‌های متعدد به طور همزمان اجرا شوند و از قدرت محاسباتی بیشتری استفاده شود.

DeepSeek-GRM-27B به طور مداوم نتایج قوی در معیارهای مختلف مدل‌سازی پاداش کسب کرده است. مقاله تحقیقاتی به طور عمیق در مورد نمرات معیار و تکنیک‌های مورد استفاده در روش‌شناسی بحث می‌کند.

چند هفته پیش، دیپ‌سیک به‌روزرسانی مدل DeepSeek-V3 خود را منتشر کرد. مدل به‌روز شده ‘DeepSeek V3-0324’ در حال حاضر در بین تمام مدل‌های غیر استدلالی در رتبه‌های برتر قرار دارد.

Artificial Analysis، پلتفرمی که مدل‌های هوش مصنوعی را محک می‌زند، اظهار داشت: «این اولین بار است که یک مدل با وزن‌های باز، مدل غیر استدلالی پیشرو است که نقطه عطفی برای متن‌باز محسوب می‌شود.» این مدل بالاترین امتیاز را در بین تمام مدل‌های غیر استدلالی در «شاخص هوش» این پلتفرم کسب کرد.

رویترز گزارش داد که دیپ‌سیک قصد دارد R2 را "در اسرع وقت" منتشر کند. این شرکت در ابتدا قصد داشت آن را در اوایل ماه مه عرضه کند، اما اکنون در حال بررسی جدول زمانی زودتری است.

انتظار می‌رود این مدل "کدنویسی بهتری" تولید کند و می‌تواند به زبان‌هایی فراتر از انگلیسی استدلال کند.

DeepSeek-R2 جانشین مدل استدلالی DeepSeek-R1 خواهد بود که طوفانی به پا کرد هم در اکوسیستم هوش مصنوعی و هم در بازارها.

https://analyticsindiamag.com/ai-news-updates/deepseek-to-release-open-source-model-with-enhanced-reward-modeling-techniques/