دیپسیک، یک شرکت هوش مصنوعی چینی، گزارشی مفصل از چگونگی ساخت آخرین مدل زبان بزرگ خود، R1، منتشر کرده است. این شرکت فاش کرده است که برای آموزش مدل از تکنیکی به نام "یادگیری تقویتی از بازخورد هوش مصنوعی" (RLAIF) استفاده کرده است. این یک انحراف قابل توجه از روشی است که اکثر آزمایشگاههای دیگر، از جمله OpenAI، مدلهای خود را آموزش میدهند. رویکرد دیپسیک میتواند منجر به نسل جدیدی از مدلهای هوش مصنوعی شود که قدرتمندتر و کارآمدتر هستند.
انتشار مقاله دیپسیک اتفاق بزرگی است. این اولین بار است که یک آزمایشگاه بزرگ هوش مصنوعی جزئیات نحوه آموزش مدلهای خود را فاش میکند. این یک گام مهم رو به جلو برای زمینه هوش مصنوعی است، زیرا به سایر محققان اجازه میدهد از کار دیپسیک بیاموزند و بر آن بنا کنند. همچنین میتواند منجر به یک اکوسیستم هوش مصنوعی بازتر و شفافتر شود.
این مقاله همچنین چالشی برای وضع موجود است. نشان میدهد که راههای دیگری برای آموزش مدلهای هوش مصنوعی غیر از روشهایی که در حال حاضر توسط آزمایشگاههای برتر استفاده میشود، وجود دارد. این میتواند منجر به یک چشمانداز هوش مصنوعی متنوعتر و رقابتیتر شود.
رویکرد دیپسیک بر این ایده استوار است که مدلهای هوش مصنوعی را میتوان با استفاده از بازخورد سایر مدلهای هوش مصنوعی آموزش داد. این یک انحراف از رویکرد سنتی است که متکی به بازخورد انسانی است. استفاده از بازخورد هوش مصنوعی امکان فرآیند آموزشی کارآمدتر و مقیاسپذیرتر را فراهم میکند. همچنین امکان آموزش مدلهایی را فراهم میکند که با ارزشهای انسانی همسوتر هستند.
این مقاله برای هر کسی که به آینده هوش مصنوعی علاقه مند است، یک مطالعه ضروری است. این مقاله شرح مفصلی از چگونگی ساخت آخرین مدل زبان بزرگ دیپسیک ارائه میدهد و نگاهی اجمالی به آینده آموزش هوش مصنوعی ارائه میدهد.
در اینجا برخی از نکات کلیدی این مقاله آورده شده است:
- دیپسیک از تکنیکی به نام "یادگیری تقویتی از بازخورد هوش مصنوعی" (RLAIF) برای آموزش آخرین مدل زبان بزرگ خود، R1، استفاده کرد.
- RLAIF انحرافی از رویکرد سنتی آموزش مدلهای هوش مصنوعی است که متکی به بازخورد انسانی است.
- استفاده از بازخورد هوش مصنوعی امکان فرآیند آموزشی کارآمدتر و مقیاسپذیرتر را فراهم میکند.
- همچنین امکان آموزش مدلهایی را فراهم میکند که با ارزشهای انسانی همسوتر هستند.
- رویکرد دیپسیک میتواند منجر به نسل جدیدی از مدلهای هوش مصنوعی شود که قدرتمندتر و کارآمدتر هستند.
انتشار مقاله دیپسیک گامی مهم در جهت پیشرفت در زمینه هوش مصنوعی است. به سایر محققان این امکان را میدهد تا از کار دیپسیک بیاموزند و بر آن بنا کنند. همچنین میتواند منجر به یک اکوسیستم هوش مصنوعی بازتر و شفافتر شود.
در روز دوشنبه، 3 فوریه، با ما همراه باشید تا ویراستاران ما درباره معنای موفقیت چشمگیر دیپسیک برای هوش مصنوعی و صنعت فناوری گستردهتر بحث کنند. امروز برای این جلسه ویژه فقط برای مشترکین ثبت نام کنید.
هنگامی که شرکت چینی دیپسیک مدل زبان بزرگ به نام R1 را هفته گذشته منتشر کرد، موج شوکی را در صنعت فناوری ایالات متحده ایجاد کرد. R1 نه تنها با بهترین رقابتهای داخلی مطابقت داشت، بلکه با کسری از هزینه ساخته شده بود و به صورت رایگان در دسترس قرار گرفت.
بازار سهام ایالات متحده 1 تریلیون دلار از دست داد، رئیس جمهور ترامپ آن را زنگ هشداری خواند و هایپ بار دیگر افزایش یافت. مارک اندریسن، سرمایه گذار شاخص سیلیکون ولی، در X نوشت: "DeepSeek R1 یکی از شگفت انگیزترین و چشمگیرترین پیشرفت هایی است که تا به حال دیده ام - و به عنوان منبع باز، هدیه ای عمیق به جهان است.".
اما نوآوری های دیپسیک تنها نکته قابل توجه در اینجا نیست. دیپسیک با انتشار جزئیاتی در مورد چگونگی ساخت R1 و مدل قبلی به نام V3 و انتشار رایگان مدلها، پرده را کنار زده است تا نشان دهد ساخت مدلهای استدلالی بسیار سادهتر از آن چیزی است که مردم فکر میکردند. این شرکت پیشتاز در برترین آزمایشگاه های جهان را از بین برده است.
این خبر رقبا را در همه جا به تکاپو انداخت. این هفته، غول فناوری چینی علی بابا نسخه جدیدی از مدل زبان بزرگ خود به نام Qwen را معرفی کرد و موسسه آلن برای هوش مصنوعی (AI2)، یک آزمایشگاه غیرانتفاعی برتر ایالات متحده، به روز رسانی مدل زبان بزرگ خود به نام Tulu را اعلام کرد. هر دو ادعا می کنند که آخرین مدل های آنها معادل دیپسیک را شکست داده است.
سام آلتمن، بنیانگذار و مدیر عامل OpenAI، R1 را برای این قیمت چشمگیر خواند، اما با وعده ای جسورانه پاسخ داد: "ما بدیهی است که مدل های بسیار بهتری ارائه خواهیم کرد." سپس OpenAI ChatGPT Gov، نسخه ای از چت بات خود را که متناسب با نیازهای امنیتی آژانس های دولتی ایالات متحده است، منتشر کرد، که ظاهراً اشاره ای به نگرانی ها مبنی بر ارسال داده های اپلیکیشن دیپسیک به چین داشت. چیزهای بیشتری در راه است.
دیپسیک ناگهان به شرکتی تبدیل شده است که باید آن را شکست داد. دقیقاً چه کاری انجام داد که دنیای فناوری را اینقدر به لرزه درآورد؟ آیا این هایپ موجه است؟ و از سر و صدا در مورد آنچه در آینده می آید چه می توان آموخت؟ در اینجا چیزی است که باید بدانید.
مراحل آموزش
بیایید با باز کردن نحوه آموزش مدل های زبان بزرگ شروع کنیم. دو مرحله اصلی وجود دارد که به عنوان پیشآموزش و پسآموزش شناخته میشوند. پیشآموزش مرحلهای است که بیشتر مردم در مورد آن صحبت میکنند. در این فرآیند، میلیاردها سند—تعداد زیادی وب سایت، کتاب، مخزن کد و غیره—بارها و بارها به یک شبکه عصبی داده می شود تا زمانی که یاد بگیرد متنی شبیه به ماده منبع خود، یک کلمه در یک زمان تولید کند. چیزی که در نهایت به دست می آورید به عنوان یک مدل پایه شناخته می شود.
پیشآموزش جایی است که بیشتر کار انجام می شود و می تواند هزینه های بسیار زیادی داشته باشد. اما همانطور که آندری کارپاتی، یکی از بنیانگذاران OpenAI و رئیس سابق هوش مصنوعی تسلا، در سخنرانی خود در مایکروسافت بیلد در سال گذشته اشاره کرد: "مدل های پایه دستیار نیستند. آنها فقط می خواهند اسناد اینترنتی را تکمیل کنند."
تبدیل یک مدل زبان بزرگ به یک ابزار مفید چند مرحله اضافی را می طلبد. این مرحله پسآموزش است، جایی که مدل یاد میگیرد کارهای خاصی مانند پاسخ دادن به سؤالات (یا پاسخ دادن به سؤالات گام به گام، مانند o3 OpenAI و R1 دیپسیک) را انجام دهد. روشی که این کار در چند سال گذشته انجام شده است این است که یک مدل پایه را برداشته و آن را آموزش می دهند تا از مثال های جفت پرسش و پاسخ ارائه شده توسط ارتش آزمایش کننده های انسانی تقلید کند. این مرحله به عنوان تنظیم دقیق نظارت شده شناخته می شود.
سپس OpenAI مرحله دیگری را پیشگام شد که در آن پاسخهای نمونه مدلها امتیازدهی میشوند—دوباره توسط آزمایشکنندگان انسانی—و از آن امتیازها برای آموزش مدل برای تولید پاسخهای آتی شبیه به پاسخهایی که امتیاز خوبی میگیرند و کمتر شبیه پاسخهایی که امتیاز نمیگیرند، استفاده میشود. این تکنیک که به عنوان یادگیری تقویتی با بازخورد انسانی (RLHF) شناخته می شود، همان چیزی است که چت بات هایی مانند ChatGPT را بسیار جالب می کند. اکنون RLHF در سراسر صنعت استفاده می شود.
اما این مراحل پسآموزش زمانبر هستند. آنچه دیپسیک نشان داده است این است که میتوانید بدون استفاده از افراد به همان نتایج برسید - حداقل بیشتر اوقات. دیپسیک تنظیم دقیق نظارت شده و RLHF را با یک مرحله یادگیری تقویتی که کاملاً خودکار است، جایگزین میکند. این شرکت به جای استفاده از بازخورد انسانی برای هدایت مدلهای خود، از امتیازهای بازخورد تولید شده توسط کامپیوتر استفاده میکند.
ایتامار فریدمن، مدیر تحقیقات سابق در علی بابا و اکنون بنیانگذار و مدیرعامل Qodo، یک استارت آپ کدنویسی هوش مصنوعی مستقر در اسرائیل، می گوید: "صرف نظر کردن یا کاهش بازخورد انسانی - این یک چیز بزرگ است." "شما تقریباً به طور کامل مدل ها را بدون نیاز به انجام کار توسط انسان آموزش می دهید."
نیروی کار ارزان
نقطه ضعف این رویکرد این است که کامپیوترها در امتیازدهی به پاسخ سوالات مربوط به ریاضیات و کد خوب هستند، اما در امتیازدهی به پاسخ سوالات باز یا ذهنی تر، خیلی خوب نیستند. به همین دلیل است که R1 به ویژه در تست های ریاضی و کد عملکرد خوبی دارد. دیپسیک برای آموزش مدل های خود برای پاسخ دادن به طیف وسیع تری از سوالات غیر ریاضی یا انجام کارهای خلاقانه، هنوز باید از افراد بخواهد بازخورد ارائه دهند.
اما حتی این در چین ارزانتر است. سی چن، معاون رئیس شرکت هوش مصنوعی استرالیایی Appen و رئیس سابق استراتژی در هر دو سرویس وب آمازون چین و غول فناوری چینی تنسنت میگوید: «در مقایسه با بازارهای غربی، هزینه ایجاد دادههای با کیفیت بالا در چین کمتر است و یک استعداد بزرگتر وجود دارد. جمعیتی با مدارک دانشگاهی در رشته های ریاضی، برنامه نویسی یا مهندسی.»
دیپسیک از این رویکرد برای ساخت یک مدل پایه به نام V3 استفاده کرد که با مدل پرچمدار OpenAI، GPT-4o، رقابت می کند. این شرکت V3 را یک ماه پیش منتشر کرد. R1 هفته گذشته، مدل جدیدی که با o1 OpenAI مطابقت دارد، بر روی V3 ساخته شده است.
دیپسیک برای ساخت R1، V3 را برداشت و حلقه یادگیری تقویتی خود را بارها و بارها اجرا کرد. در سال 2016، گوگل دیپمایند نشان داد که این نوع رویکرد آزمون و خطای خودکار، بدون ورودی انسانی، میتواند یک مدل بازی تختهای که حرکات تصادفی انجام میداد را بردارد و آن را آموزش دهد تا استادان بزرگ را شکست دهد. دیپسیک کار مشابهی را با مدل های زبان بزرگ انجام می دهد: پاسخ های احتمالی به عنوان حرکات احتمالی در یک بازی در نظر گرفته می شوند.
در ابتدا، مدل پاسخهایی را تولید نمیکرد که سؤال را گام به گام همانطور که دیپسیک میخواست، انجام دهد. اما با امتیازدهی خودکار به پاسخ های نمونه مدل، فرآیند آموزش آن را کم کم به سمت رفتار مطلوب سوق داد.
در نهایت، دیپسیک مدلی تولید کرد که در تعدادی از معیارها عملکرد خوبی داشت. اما این مدل که R1-Zero نام داشت، پاسخهایی میداد که خواندنشان سخت بود و به ترکیبی از زبانهای متعدد نوشته شده بود. برای اینکه آخرین تنظیم را به آن بدهیم، دیپسیک فرآیند یادگیری تقویتی را با مجموعه داده کوچکی از پاسخهای نمونه ارائه شده توسط افراد، بذرپاشی کرد. آموزش R1-Zero بر روی این موارد مدلی را تولید کرد که دیپسیک آن را R1 نامید.
چیزهای بیشتری وجود دارد. دیپسیک همچنین برای بهینه سازی استفاده خود از یادگیری تقویتی، الگوریتم جدیدی به نام Group Relative Policy Optimization (GRPO) توسعه داده است. این شرکت برای اولین بار از GRPO یک سال پیش برای ساخت مدلی به نام DeepSeekMath استفاده کرد.
از جزئیات صرف نظر می کنیم—فقط باید بدانید که یادگیری تقویتی شامل محاسبه امتیاز برای تعیین خوب یا بد بودن یک حرکت احتمالی است. بسیاری از تکنیکهای یادگیری تقویتی موجود به یک مدل جداگانه کامل برای انجام این محاسبه نیاز دارند. در مورد مدلهای زبان بزرگ، این به معنای مدل دومی است که میتواند به اندازه ساخت و اجرای مدل اول پرهزینه باشد. GRPO به جای استفاده از مدل دوم برای پیشبینی امتیاز، فقط یک حدس آگاهانه میزند. ارزان است، اما همچنان به اندازه کافی دقیق است که کار کند.
یک رویکرد رایج
استفاده دیپسیک از یادگیری تقویتی، نوآوری اصلی است که این شرکت در مقاله R1 خود شرح می دهد. اما دیپسیک تنها شرکتی نیست که این تکنیک را آزمایش می کند. دو هفته قبل از انتشار R1، تیمی در مایکروسافت آسیا از مدلی به نام rStar-Math خبر دادند که به روشی مشابه آموزش دیده بود. مت زیلر، بنیانگذار و مدیر عامل شرکت هوش مصنوعی Clarifai میگوید: «همچنین جهشهای بزرگی در عملکرد دارد.»
Tulu AI2 نیز با استفاده از تکنیک های یادگیری تقویتی کارآمد (اما علاوه بر مراحل انسانی مانند تنظیم دقیق نظارت شده و RLHF نه به جای آنها) ساخته شده است. و شرکت آمریکایی Hugging Face در حال مسابقه برای تکرار R1 با OpenR1 است، یک کلون از مدل دیپسیک که Hugging Face امیدوار است مواد بیشتری را در سس مخصوص R1 آشکار کند.
علاوه بر این، این یک راز آشکار است که شرکت های برتر مانند OpenAI، Google DeepMind و Anthropic ممکن است از نسخه های خود از رویکرد دیپسیک برای آموزش نسل جدید مدل های خود استفاده کنند. زیلر می گوید: "من مطمئنم که آنها تقریباً دقیقاً همان کار را انجام می دهند، اما طعم خاص خود را خواهند داشت."
اما دیپسیک بیش از یک ترفند در آستین خود دارد. این شرکت مدل پایه V3 خود را آموزش داد تا کاری به نام پیشبینی چند توکن انجام دهد، جایی که مدل یاد میگیرد یک رشته از کلمات را به طور همزمان به جای یک کلمه در یک زمان پیشبینی کند. این آموزش ارزانتر است و معلوم شده است که دقت را نیز افزایش میدهد. زیلر می گوید: "اگر به نحوه صحبت کردن خود فکر کنید، وقتی وسط یک جمله هستید، می دانید که بقیه جمله چه خواهد بود. این مدل ها نیز باید قادر به انجام این کار باشند."
همچنین راههای ارزانتری برای ایجاد مجموعههای داده بزرگ پیدا کرده است. برای آموزش مدل سال گذشته، DeepSeekMath، مجموعه داده رایگانی به نام Common Crawl را گرفت - تعداد زیادی سند که از اینترنت خراشیده شده بود - و از یک فرآیند خودکار برای استخراج فقط اسنادی که شامل مسائل ریاضی بود استفاده کرد. این بسیار ارزان تر از ساخت مجموعه داده جدیدی از مسائل ریاضی با دست بود. همچنین موثرتر بود: Common Crawl ریاضیات بسیار بیشتری نسبت به هر مجموعه داده ریاضی متخصص دیگری که در دسترس است، دارد.
و از نظر سختافزار، دیپسیک راههای جدیدی برای تقویت تراشههای قدیمی پیدا کرده است، که به آن اجازه میدهد تا مدلهای رده بالا را بدون پرداخت هزینه برای آخرین سختافزار موجود در بازار آموزش دهد. زیلر میگوید: نیمی از نوآوری آنها از مهندسی مستقیم ناشی میشود: «آنها قطعا مهندسان GPU بسیار بسیار خوبی در آن تیم دارند.»
انویدیا نرم افزاری به نام CUDA ارائه می دهد که مهندسان از آن برای تنظیم تنظیمات تراشه های خود استفاده می کنند. اما دیپسیک با استفاده از اسمبلر، یک زبان برنامه نویسی که با خود سخت افزار صحبت می کند، از این کد عبور کرد تا فراتر از آنچه انویدیا از جعبه ارائه می دهد، پیش برود. زیلر میگوید: «این به سختی بهینه سازی این چیزها است. «شما می توانید این کار را انجام دهید، اما اساساً آنقدر دشوار است که هیچ کس این کار را نمی کند.»
مجموعه نوآوری های دیپسیک در چندین مدل چشمگیر است. اما همچنین نشان میدهد که ادعای این شرکت مبنی بر اینکه برای آموزش V3 کمتر از 6 میلیون دلار هزینه کرده است، تمام ماجرا نیست. R1 و V3 بر روی پشته ای از فناوری موجود ساخته شده اند. فریدمن می گوید: "شاید آخرین مرحله - آخرین کلیک دکمه - 6 میلیون دلار برای آنها هزینه داشته باشد، اما تحقیقاتی که منجر به آن شد احتمالاً 10 برابر بیشتر هزینه داشته است." و در یک پست وبلاگی که بسیاری از تبلیغات را از بین برد، داریو آمودی، بنیانگذار و مدیرعامل آنتروپیک، اشاره کرد که دیپسیک احتمالاً حدود 1 میلیارد دلار تراشه دارد، تخمینی بر اساس گزارشهایی مبنی بر اینکه این شرکت در واقع از 50000 پردازنده گرافیکی Nvidia H100 استفاده کرده است.
یک الگوی جدید
اما چرا حالا؟ صدها استارت آپ در سراسر جهان در تلاش برای ساخت چیز بزرگ بعدی هستند. چرا در عرض چند هفته شاهد ظهور رشته ای از مدل های استدلالی مانند o1 و o3 OpenAI، Gemini 2.0 Flash Thinking گوگل دیپمایند و اکنون R1 بوده ایم؟
پاسخ این است که مدلهای پایه—GPT-4o، Gemini 2.0، V3—اکنون به اندازهای خوب هستند که رفتار استدلالمانندی از آنها بیرون کشیده شود. لوئیس تونستال، دانشمند Hugging Face میگوید: «آنچه R1 نشان میدهد این است که با یک مدل پایه قوی به اندازه کافی، یادگیری تقویتی برای استخراج استدلال از یک مدل زبان بدون نظارت انسانی کافی است.»
به عبارت دیگر، شرکت های برتر ایالات متحده ممکن است نحوه انجام آن را فهمیده باشند اما سکوت اختیار کرده بودند. زیلر میگوید: «به نظر میرسد که یک راه هوشمندانه برای گرفتن مدل پایه، مدل از پیش آموزشدادهشده خود و تبدیل آن به یک مدل استدلال بسیار توانمندتر وجود دارد. «و تا به این لحظه، رویه ای که برای تبدیل یک مدل از پیش آموزش دیده به یک مدل استدلال مورد نیاز بود، به خوبی شناخته شده نبود. این عمومی نبود.»
تفاوت R1 این است که دیپسیک نحوه انجام آن را منتشر کرد. زیلر می گوید: "و معلوم شد که این فرآیند آنقدر هم گران نیست. بخش سخت کار، به دست آوردن آن مدل از پیش آموزش داده شده در وهله اول است." همانطور که کارپاتی در مایکروسافت بیلد در سال گذشته فاش کرد، پیشآموزش یک مدل 99 درصد کار و بیشتر هزینه را نشان می دهد.
اگر ساخت مدلهای استدلالی آنقدر که مردم فکر میکردند سخت نباشد، میتوانیم انتظار تکثیر مدلهای رایگان داشته باشیم که بسیار توانمندتر از آنچه تا کنون دیدهایم، هستند. فریدمن فکر می کند که با آشکار شدن دانش فنی، همکاری بیشتری بین شرکت های کوچک وجود خواهد داشت و لبه ای که بزرگترین شرکت ها از آن برخوردار بوده اند، از بین می رود. او می گوید: "من فکر می کنم این می تواند یک لحظه بزرگ باشد."