یک قلک با یک اسکناس دلار که از بالای آن بیرون زده است
یک قلک با یک اسکناس دلار که از بالای آن بیرون زده است

چگونه دیپ‌سیک قواعد بازی هوش مصنوعی را برهم زد—و چرا همه از آن پیروی خواهند کرد

دیپ‌سیک، یک شرکت هوش مصنوعی چینی، گزارشی مفصل از چگونگی ساخت آخرین مدل زبان بزرگ خود، R1، منتشر کرده است. این شرکت فاش کرده است که برای آموزش مدل از تکنیکی به نام "یادگیری تقویتی از بازخورد هوش مصنوعی" (RLAIF) استفاده کرده است. این یک انحراف قابل توجه از روشی است که اکثر آزمایشگاه‌های دیگر، از جمله OpenAI، مدل‌های خود را آموزش می‌دهند. رویکرد دیپ‌سیک می‌تواند منجر به نسل جدیدی از مدل‌های هوش مصنوعی شود که قدرتمندتر و کارآمدتر هستند.

انتشار مقاله دیپ‌سیک اتفاق بزرگی است. این اولین بار است که یک آزمایشگاه بزرگ هوش مصنوعی جزئیات نحوه آموزش مدل‌های خود را فاش می‌کند. این یک گام مهم رو به جلو برای زمینه هوش مصنوعی است، زیرا به سایر محققان اجازه می‌دهد از کار دیپ‌سیک بیاموزند و بر آن بنا کنند. همچنین می‌تواند منجر به یک اکوسیستم هوش مصنوعی بازتر و شفاف‌تر شود.

این مقاله همچنین چالشی برای وضع موجود است. نشان می‌دهد که راه‌های دیگری برای آموزش مدل‌های هوش مصنوعی غیر از روش‌هایی که در حال حاضر توسط آزمایشگاه‌های برتر استفاده می‌شود، وجود دارد. این می‌تواند منجر به یک چشم‌انداز هوش مصنوعی متنوع‌تر و رقابتی‌تر شود.

رویکرد دیپ‌سیک بر این ایده استوار است که مدل‌های هوش مصنوعی را می‌توان با استفاده از بازخورد سایر مدل‌های هوش مصنوعی آموزش داد. این یک انحراف از رویکرد سنتی است که متکی به بازخورد انسانی است. استفاده از بازخورد هوش مصنوعی امکان فرآیند آموزشی کارآمدتر و مقیاس‌پذیرتر را فراهم می‌کند. همچنین امکان آموزش مدل‌هایی را فراهم می‌کند که با ارزش‌های انسانی همسوتر هستند.

این مقاله برای هر کسی که به آینده هوش مصنوعی علاقه مند است، یک مطالعه ضروری است. این مقاله شرح مفصلی از چگونگی ساخت آخرین مدل زبان بزرگ دیپ‌سیک ارائه می‌دهد و نگاهی اجمالی به آینده آموزش هوش مصنوعی ارائه می‌دهد.

در اینجا برخی از نکات کلیدی این مقاله آورده شده است:

  • دیپ‌سیک از تکنیکی به نام "یادگیری تقویتی از بازخورد هوش مصنوعی" (RLAIF) برای آموزش آخرین مدل زبان بزرگ خود، R1، استفاده کرد.
  • RLAIF انحرافی از رویکرد سنتی آموزش مدل‌های هوش مصنوعی است که متکی به بازخورد انسانی است.
  • استفاده از بازخورد هوش مصنوعی امکان فرآیند آموزشی کارآمدتر و مقیاس‌پذیرتر را فراهم می‌کند.
  • همچنین امکان آموزش مدل‌هایی را فراهم می‌کند که با ارزش‌های انسانی همسوتر هستند.
  • رویکرد دیپ‌سیک می‌تواند منجر به نسل جدیدی از مدل‌های هوش مصنوعی شود که قدرتمندتر و کارآمدتر هستند.

انتشار مقاله دیپ‌سیک گامی مهم در جهت پیشرفت در زمینه هوش مصنوعی است. به سایر محققان این امکان را می‌دهد تا از کار دیپ‌سیک بیاموزند و بر آن بنا کنند. همچنین می‌تواند منجر به یک اکوسیستم هوش مصنوعی بازتر و شفاف‌تر شود.

در روز دوشنبه، 3 فوریه، با ما همراه باشید تا ویراستاران ما درباره معنای موفقیت چشمگیر دیپ‌سیک برای هوش مصنوعی و صنعت فناوری گسترده‌تر بحث کنند. امروز برای این جلسه ویژه فقط برای مشترکین ثبت نام کنید.

هنگامی که شرکت چینی دیپ‌سیک مدل زبان بزرگ به نام R1 را هفته گذشته منتشر کرد، موج شوکی را در صنعت فناوری ایالات متحده ایجاد کرد. R1 نه تنها با بهترین رقابت‌های داخلی مطابقت داشت، بلکه با کسری از هزینه ساخته شده بود و به صورت رایگان در دسترس قرار گرفت. 

بازار سهام ایالات متحده 1 تریلیون دلار از دست داد، رئیس جمهور ترامپ آن را زنگ هشداری خواند و هایپ بار دیگر افزایش یافت. مارک اندریسن، سرمایه گذار شاخص سیلیکون ولی، در X نوشت: "DeepSeek R1 یکی از شگفت انگیزترین و چشمگیرترین پیشرفت هایی است که تا به حال دیده ام - و به عنوان منبع باز، هدیه ای عمیق به جهان است.".

اما نوآوری های دیپ‌سیک تنها نکته قابل توجه در اینجا نیست. دیپ‌سیک با انتشار جزئیاتی در مورد چگونگی ساخت R1 و مدل قبلی به نام V3 و انتشار رایگان مدل‌ها، پرده را کنار زده است تا نشان دهد ساخت مدل‌های استدلالی بسیار ساده‌تر از آن چیزی است که مردم فکر می‌کردند. این شرکت پیشتاز در برترین آزمایشگاه های جهان را از بین برده است.

این خبر رقبا را در همه جا به تکاپو انداخت. این هفته، غول فناوری چینی علی بابا نسخه جدیدی از مدل زبان بزرگ خود به نام Qwen را معرفی کرد و موسسه آلن برای هوش مصنوعی (AI2)، یک آزمایشگاه غیرانتفاعی برتر ایالات متحده، به روز رسانی مدل زبان بزرگ خود به نام Tulu را اعلام کرد. هر دو ادعا می کنند که آخرین مدل های آنها معادل دیپ‌سیک را شکست داده است.

سام آلتمن، بنیانگذار و مدیر عامل OpenAI، R1 را برای این قیمت چشمگیر خواند، اما با وعده ای جسورانه پاسخ داد: "ما بدیهی است که مدل های بسیار بهتری ارائه خواهیم کرد." سپس OpenAI ChatGPT Gov، نسخه ای از چت بات خود را که متناسب با نیازهای امنیتی آژانس های دولتی ایالات متحده است، منتشر کرد، که ظاهراً اشاره ای به نگرانی ها مبنی بر ارسال داده های اپلیکیشن دیپ‌سیک به چین داشت. چیزهای بیشتری در راه است.

دیپ‌سیک ناگهان به شرکتی تبدیل شده است که باید آن را شکست داد. دقیقاً چه کاری انجام داد که دنیای فناوری را اینقدر به لرزه درآورد؟ آیا این هایپ موجه است؟ و از سر و صدا در مورد آنچه در آینده می آید چه می توان آموخت؟ در اینجا چیزی است که باید بدانید.  

مراحل آموزش

بیایید با باز کردن نحوه آموزش مدل های زبان بزرگ شروع کنیم. دو مرحله اصلی وجود دارد که به عنوان پیش‌آموزش و پس‌آموزش شناخته می‌شوند. پیش‌آموزش مرحله‌ای است که بیشتر مردم در مورد آن صحبت می‌کنند. در این فرآیند، میلیاردها سند—تعداد زیادی وب سایت، کتاب، مخزن کد و غیره—بارها و بارها به یک شبکه عصبی داده می شود تا زمانی که یاد بگیرد متنی شبیه به ماده منبع خود، یک کلمه در یک زمان تولید کند. چیزی که در نهایت به دست می آورید به عنوان یک مدل پایه شناخته می شود.

پیش‌آموزش جایی است که بیشتر کار انجام می شود و می تواند هزینه های بسیار زیادی داشته باشد. اما همانطور که آندری کارپاتی، یکی از بنیانگذاران OpenAI و رئیس سابق هوش مصنوعی تسلا، در سخنرانی خود در مایکروسافت بیلد در سال گذشته اشاره کرد: "مدل های پایه دستیار نیستند. آنها فقط می خواهند اسناد اینترنتی را تکمیل کنند."

تبدیل یک مدل زبان بزرگ به یک ابزار مفید چند مرحله اضافی را می طلبد. این مرحله پس‌آموزش است، جایی که مدل یاد می‌گیرد کارهای خاصی مانند پاسخ دادن به سؤالات (یا پاسخ دادن به سؤالات گام به گام، مانند o3 OpenAI و R1 دیپ‌سیک) را انجام دهد. روشی که این کار در چند سال گذشته انجام شده است این است که یک مدل پایه را برداشته و آن را آموزش می دهند تا از مثال های جفت پرسش و پاسخ ارائه شده توسط ارتش آزمایش کننده های انسانی تقلید کند. این مرحله به عنوان تنظیم دقیق نظارت شده شناخته می شود. 

سپس OpenAI مرحله دیگری را پیشگام شد که در آن پاسخ‌های نمونه مدل‌ها امتیازدهی می‌شوند—دوباره توسط آزمایش‌کنندگان انسانی—و از آن امتیازها برای آموزش مدل برای تولید پاسخ‌های آتی شبیه به پاسخ‌هایی که امتیاز خوبی می‌گیرند و کمتر شبیه پاسخ‌هایی که امتیاز نمی‌گیرند، استفاده می‌شود. این تکنیک که به عنوان یادگیری تقویتی با بازخورد انسانی (RLHF) شناخته می شود، همان چیزی است که چت بات هایی مانند ChatGPT را بسیار جالب می کند. اکنون RLHF در سراسر صنعت استفاده می شود.

اما این مراحل پس‌آموزش زمان‌بر هستند. آنچه دیپ‌سیک نشان داده است این است که می‌توانید بدون استفاده از افراد به همان نتایج برسید - حداقل بیشتر اوقات. دیپ‌سیک تنظیم دقیق نظارت شده و RLHF را با یک مرحله یادگیری تقویتی که کاملاً خودکار است، جایگزین می‌کند. این شرکت به جای استفاده از بازخورد انسانی برای هدایت مدل‌های خود، از امتیازهای بازخورد تولید شده توسط کامپیوتر استفاده می‌کند.

ایتامار فریدمن، مدیر تحقیقات سابق در علی بابا و اکنون بنیانگذار و مدیرعامل Qodo، یک استارت آپ کدنویسی هوش مصنوعی مستقر در اسرائیل، می گوید: "صرف نظر کردن یا کاهش بازخورد انسانی - این یک چیز بزرگ است." "شما تقریباً به طور کامل مدل ها را بدون نیاز به انجام کار توسط انسان آموزش می دهید."

نیروی کار ارزان

نقطه ضعف این رویکرد این است که کامپیوترها در امتیازدهی به پاسخ سوالات مربوط به ریاضیات و کد خوب هستند، اما در امتیازدهی به پاسخ سوالات باز یا ذهنی تر، خیلی خوب نیستند. به همین دلیل است که R1 به ویژه در تست های ریاضی و کد عملکرد خوبی دارد. دیپ‌سیک برای آموزش مدل های خود برای پاسخ دادن به طیف وسیع تری از سوالات غیر ریاضی یا انجام کارهای خلاقانه، هنوز باید از افراد بخواهد بازخورد ارائه دهند. 

اما حتی این در چین ارزان‌تر است. سی چن، معاون رئیس شرکت هوش مصنوعی استرالیایی Appen و رئیس سابق استراتژی در هر دو سرویس وب آمازون چین و غول فناوری چینی تنسنت می‌گوید: «در مقایسه با بازارهای غربی، هزینه ایجاد داده‌های با کیفیت بالا در چین کمتر است و یک استعداد بزرگتر وجود دارد. جمعیتی با مدارک دانشگاهی در رشته های ریاضی، برنامه نویسی یا مهندسی.» 

دیپ‌سیک از این رویکرد برای ساخت یک مدل پایه به نام V3 استفاده کرد که با مدل پرچمدار OpenAI، GPT-4o، رقابت می کند. این شرکت V3 را یک ماه پیش منتشر کرد. R1 هفته گذشته، مدل جدیدی که با o1 OpenAI مطابقت دارد، بر روی V3 ساخته شده است. 

دیپ‌سیک برای ساخت R1، V3 را برداشت و حلقه یادگیری تقویتی خود را بارها و بارها اجرا کرد. در سال 2016، گوگل دیپ‌مایند نشان داد که این نوع رویکرد آزمون و خطای خودکار، بدون ورودی انسانی، می‌تواند یک مدل بازی تخته‌ای که حرکات تصادفی انجام می‌داد را بردارد و آن را آموزش دهد تا استادان بزرگ را شکست دهد. دیپ‌سیک کار مشابهی را با مدل های زبان بزرگ انجام می دهد: پاسخ های احتمالی به عنوان حرکات احتمالی در یک بازی در نظر گرفته می شوند. 

در ابتدا، مدل پاسخ‌هایی را تولید نمی‌کرد که سؤال را گام به گام همانطور که دیپ‌سیک می‌خواست، انجام دهد. اما با امتیازدهی خودکار به پاسخ های نمونه مدل، فرآیند آموزش آن را کم کم به سمت رفتار مطلوب سوق داد. 

در نهایت، دیپ‌سیک مدلی تولید کرد که در تعدادی از معیارها عملکرد خوبی داشت. اما این مدل که R1-Zero نام داشت، پاسخ‌هایی می‌داد که خواندنشان سخت بود و به ترکیبی از زبان‌های متعدد نوشته شده بود. برای اینکه آخرین تنظیم را به آن بدهیم، دیپ‌سیک فرآیند یادگیری تقویتی را با مجموعه داده کوچکی از پاسخ‌های نمونه ارائه شده توسط افراد، بذرپاشی کرد. آموزش R1-Zero بر روی این موارد مدلی را تولید کرد که دیپ‌سیک آن را R1 نامید. 

چیزهای بیشتری وجود دارد. دیپ‌سیک همچنین برای بهینه سازی استفاده خود از یادگیری تقویتی، الگوریتم جدیدی به نام Group Relative Policy Optimization (GRPO) توسعه داده است. این شرکت برای اولین بار از GRPO یک سال پیش برای ساخت مدلی به نام DeepSeekMath استفاده کرد. 

از جزئیات صرف نظر می کنیم—فقط باید بدانید که یادگیری تقویتی شامل محاسبه امتیاز برای تعیین خوب یا بد بودن یک حرکت احتمالی است. بسیاری از تکنیک‌های یادگیری تقویتی موجود به یک مدل جداگانه کامل برای انجام این محاسبه نیاز دارند. در مورد مدل‌های زبان بزرگ، این به معنای مدل دومی است که می‌تواند به اندازه ساخت و اجرای مدل اول پرهزینه باشد. GRPO به جای استفاده از مدل دوم برای پیش‌بینی امتیاز، فقط یک حدس آگاهانه می‌زند. ارزان است، اما همچنان به اندازه کافی دقیق است که کار کند.  

یک رویکرد رایج

استفاده دیپ‌سیک از یادگیری تقویتی، نوآوری اصلی است که این شرکت در مقاله R1 خود شرح می دهد. اما دیپ‌سیک تنها شرکتی نیست که این تکنیک را آزمایش می کند. دو هفته قبل از انتشار R1، تیمی در مایکروسافت آسیا از مدلی به نام rStar-Math خبر دادند که به روشی مشابه آموزش دیده بود. مت زیلر، بنیانگذار و مدیر عامل شرکت هوش مصنوعی Clarifai می‌گوید: «همچنین جهش‌های بزرگی در عملکرد دارد.»

Tulu AI2 نیز با استفاده از تکنیک های یادگیری تقویتی کارآمد (اما علاوه بر مراحل انسانی مانند تنظیم دقیق نظارت شده و RLHF نه به جای آنها) ساخته شده است. و شرکت آمریکایی Hugging Face در حال مسابقه برای تکرار R1 با OpenR1 است، یک کلون از مدل دیپ‌سیک که Hugging Face امیدوار است مواد بیشتری را در سس مخصوص R1 آشکار کند.

علاوه بر این، این یک راز آشکار است که شرکت های برتر مانند OpenAI، Google DeepMind و Anthropic ممکن است از نسخه های خود از رویکرد دیپ‌سیک برای آموزش نسل جدید مدل های خود استفاده کنند. زیلر می گوید: "من مطمئنم که آنها تقریباً دقیقاً همان کار را انجام می دهند، اما طعم خاص خود را خواهند داشت." 

اما دیپ‌سیک بیش از یک ترفند در آستین خود دارد. این شرکت مدل پایه V3 خود را آموزش داد تا کاری به نام پیش‌بینی چند توکن انجام دهد، جایی که مدل یاد می‌گیرد یک رشته از کلمات را به طور همزمان به جای یک کلمه در یک زمان پیش‌بینی کند. این آموزش ارزان‌تر است و معلوم شده است که دقت را نیز افزایش می‌دهد. زیلر می گوید: "اگر به نحوه صحبت کردن خود فکر کنید، وقتی وسط یک جمله هستید، می دانید که بقیه جمله چه خواهد بود. این مدل ها نیز باید قادر به انجام این کار باشند."  

همچنین راه‌های ارزان‌تری برای ایجاد مجموعه‌های داده بزرگ پیدا کرده است. برای آموزش مدل سال گذشته، DeepSeekMath، مجموعه داده رایگانی به نام Common Crawl را گرفت - تعداد زیادی سند که از اینترنت خراشیده شده بود - و از یک فرآیند خودکار برای استخراج فقط اسنادی که شامل مسائل ریاضی بود استفاده کرد. این بسیار ارزان تر از ساخت مجموعه داده جدیدی از مسائل ریاضی با دست بود. همچنین موثرتر بود: Common Crawl ریاضیات بسیار بیشتری نسبت به هر مجموعه داده ریاضی متخصص دیگری که در دسترس است، دارد. 

و از نظر سخت‌افزار، دیپ‌سیک راه‌های جدیدی برای تقویت تراشه‌های قدیمی پیدا کرده است، که به آن اجازه می‌دهد تا مدل‌های رده بالا را بدون پرداخت هزینه برای آخرین سخت‌افزار موجود در بازار آموزش دهد. زیلر می‌گوید: نیمی از نوآوری آن‌ها از مهندسی مستقیم ناشی می‌شود: «آن‌ها قطعا مهندسان GPU بسیار بسیار خوبی در آن تیم دارند.»

انویدیا نرم افزاری به نام CUDA ارائه می دهد که مهندسان از آن برای تنظیم تنظیمات تراشه های خود استفاده می کنند. اما دیپ‌سیک با استفاده از اسمبلر، یک زبان برنامه نویسی که با خود سخت افزار صحبت می کند، از این کد عبور کرد تا فراتر از آنچه انویدیا از جعبه ارائه می دهد، پیش برود. زیلر می‌گوید: «این به سختی بهینه سازی این چیزها است. «شما می توانید این کار را انجام دهید، اما اساساً آنقدر دشوار است که هیچ کس این کار را نمی کند.»

مجموعه نوآوری های دیپ‌سیک در چندین مدل چشمگیر است. اما همچنین نشان می‌دهد که ادعای این شرکت مبنی بر اینکه برای آموزش V3 کمتر از 6 میلیون دلار هزینه کرده است، تمام ماجرا نیست. R1 و V3 بر روی پشته ای از فناوری موجود ساخته شده اند. فریدمن می گوید: "شاید آخرین مرحله - آخرین کلیک دکمه - 6 میلیون دلار برای آنها هزینه داشته باشد، اما تحقیقاتی که منجر به آن شد احتمالاً 10 برابر بیشتر هزینه داشته است." و در یک پست وبلاگی که بسیاری از تبلیغات را از بین برد، داریو آمودی، بنیانگذار و مدیرعامل آنتروپیک، اشاره کرد که دیپ‌سیک احتمالاً حدود 1 میلیارد دلار تراشه دارد، تخمینی بر اساس گزارش‌هایی مبنی بر اینکه این شرکت در واقع از 50000 پردازنده گرافیکی Nvidia H100 استفاده کرده است

یک الگوی جدید

اما چرا حالا؟ صدها استارت آپ در سراسر جهان در تلاش برای ساخت چیز بزرگ بعدی هستند. چرا در عرض چند هفته شاهد ظهور رشته ای از مدل های استدلالی مانند o1 و o3 OpenAI، Gemini 2.0 Flash Thinking گوگل دیپ‌مایند و اکنون R1 بوده ایم؟ 

پاسخ این است که مدل‌های پایه—GPT-4o، Gemini 2.0، V3—اکنون به اندازه‌ای خوب هستند که رفتار استدلال‌مانندی از آن‌ها بیرون کشیده شود. لوئیس تونستال، دانشمند Hugging Face می‌گوید: «آنچه R1 نشان می‌دهد این است که با یک مدل پایه قوی به اندازه کافی، یادگیری تقویتی برای استخراج استدلال از یک مدل زبان بدون نظارت انسانی کافی است.»

به عبارت دیگر، شرکت های برتر ایالات متحده ممکن است نحوه انجام آن را فهمیده باشند اما سکوت اختیار کرده بودند. زیلر می‌گوید: «به نظر می‌رسد که یک راه هوشمندانه برای گرفتن مدل پایه، مدل از پیش آموزش‌داده‌شده خود و تبدیل آن به یک مدل استدلال بسیار توانمندتر وجود دارد. «و تا به این لحظه، رویه ای که برای تبدیل یک مدل از پیش آموزش دیده به یک مدل استدلال مورد نیاز بود، به خوبی شناخته شده نبود. این عمومی نبود.»

تفاوت R1 این است که دیپ‌سیک نحوه انجام آن را منتشر کرد. زیلر می گوید: "و معلوم شد که این فرآیند آنقدر هم گران نیست. بخش سخت کار، به دست آوردن آن مدل از پیش آموزش داده شده در وهله اول است." همانطور که کارپاتی در مایکروسافت بیلد در سال گذشته فاش کرد، پیش‌آموزش یک مدل 99 درصد کار و بیشتر هزینه را نشان می دهد. 

اگر ساخت مدل‌های استدلالی آنقدر که مردم فکر می‌کردند سخت نباشد، می‌توانیم انتظار تکثیر مدل‌های رایگان داشته باشیم که بسیار توانمندتر از آنچه تا کنون دیده‌ایم، هستند. فریدمن فکر می کند که با آشکار شدن دانش فنی، همکاری بیشتری بین شرکت های کوچک وجود خواهد داشت و لبه ای که بزرگترین شرکت ها از آن برخوردار بوده اند، از بین می رود. او می گوید: "من فکر می کنم این می تواند یک لحظه بزرگ باشد."