انتشار مدلهایی مانند DeepSeek-V3 و DeepSeek-R1 نقطه عطفی مهم برای مدلهای زبانی بزرگ (LLM) بود. ناگهان، مدلهای متنباز به عملکردی دست یافتند که بهطور شگفتآوری نزدیک، و در برخی بنچمارکها فراتر از غولهای اختصاصی پیشرو مانند GPT-4o، o1 و Claude 3.5 Sonnet بود—و این کار را تنها با استفاده از کسری از منابع آموزشی انجام دادند. این فقط یک بهبود تدریجی نبود. این نشان داد که هوش مصنوعی پیشرفته منحصراً در انحصار آزمایشگاههای بسته نیست.
اما DeepSeek چگونه به این ترکیب قابل توجه از عملکرد و کارایی دست یافت؟ این فقط یک گلوله جادویی نبود، بلکه مجموعهای از نوآوریهای فنی هوشمندانه در سراسر معماری مدل، الگوریتمهای آموزشی و یکپارچگی سختافزار بود. در یک مقاله اخیر، محققان دانشگاه تگزاس در دالاس و ویرجینیا تک این نوآوریها را به تفصیل بررسی میکنند. در اینجا خلاصهای از این نوآوریها و برخی از مواد اصلی که باعث برجسته شدن مدلهای DeepSeek شد، آورده شده است.
توجه نهفته چند-هد (MLA)
مکانیسم توجه، قلب ترانسفورماتورها است و به مدلها اجازه میدهد هنگام پردازش متن، اهمیت کلمات مختلف را وزن کنند. با این حال، توجه چند-هد استاندارد (MHA) یک پاشنه آشیل پرهزینه دارد: کش کلید-مقدار (KV). برای سرعت بخشیدن به تولید، مدلها محاسبات میانی (کلیدها و مقادیر) را برای توکنهای قبلی ذخیره میکنند. اما این کش به سرعت با طولانیتر شدن متنها متورم میشود و مقادیر زیادی حافظه را میطلبد.
DeepSeek-V2 ایده توجه نهفته چند-هد (MLA) را معرفی کرد. ایده اصلی، فشردهسازی رتبه پایین است: به جای ذخیره کلیدها و مقادیر کامل و با ابعاد بالا، MLA آنها را به یک بردار "نهفته" بسیار کوچکتر فشرده میکند. این را مانند یادداشتهای خلاصه مختصر به جای متن کامل کلمه به کلمه در نظر بگیرید—شما جوهر را با فضای بسیار کمتری ثبت میکنید.
در حالی که تکنیکهای بهینهسازی توجه دیگری نیز وجود دارد (دو تکنیک محبوب دیگر، توجه پرس و جو گروهی و توجه چند پرس و جو هستند)، MLA برجسته است زیرا دقت را برای کارایی قربانی نمیکند.
علاوه بر این، DeepSeek، تعبیه موقعیت چرخشی (RoPE) را اصلاح کرد، تکنیکی که موقعیتهای توکن را هنگام پردازش ورودی به مدل رمزگذاری میکند. RoPE استاندارد، هنگامی که با فشردهسازی MLA ترکیب شود، موانع کارایی را در طول استنتاج ایجاد میکند. DeepSeek آن را جدا کرد: آنها یک مسیر موازی جداگانه با استفاده از بردارهای اختصاصی فقط برای محاسبه تأثیر موقعیتی از طریق RoPE ایجاد کردند. این به محاسبه توجه اصلی (بر اساس معنای معنایی توکنها) اجازه میدهد تا به طور کامل از کارایی فشردهسازی MLA بهرهمند شود، در حالی که هنوز اطلاعات موقعیتی نسبی را به طور دقیق در خود جای میدهد. نتیجه؟ کاهش قابل توجه تقاضای حافظه برای کش KV، که برای مدیریت کارآمد بافتهای طولانی بسیار مهم است.
اصلاح ترکیب خبرگان (MoE) برای انعطافپذیری و کارایی
ترکیب خبرگان (MoE) تکنیکی برای مقیاسبندی کارآمد LLMها است. در داخل هر بلوک ترانسفورماتور LLMهای کلاسیک (که مدلهای متراکم نیز نامیده میشوند)، یک سری شبکههای عصبی پیشخور بزرگ (FFN) وجود دارد که مقادیر محاسبه شده توسط لایههای توجه را پردازش میکنند. MoEها این FFNهای عظیم را به شبکههای "خبره" کوچکتر زیادی تقسیم میکنند که هر کدام در برخی وظایف تخصص دارند. در طول استنتاج، یک "روتر" زیرمجموعهای از خبرگان را بر اساس مقادیر توجه محاسبه شده توکن ورودی فعال میکند. MoEها بسیار موفق بودهاند و در بسیاری از مدلهای محبوب، از جمله (طبق گزارشها) مدلهای GPT-4 و Google Gemini استفاده میشوند.
اما تیم DeepSeek معماری MoE استاندارد را با دو اصلاح بیشتر بهبود بخشید:
تقسیمبندی دقیق خبرگان: آنها خبرگان استاندارد را گرفتند و آنها را به زیر-خبرگان تخصصیتر و کوچکتر تقسیم کردند. در حالی که کل محاسبات در هر توکن ثابت میماند، روتر اکنون میتواند ترکیب بسیار خاصتری از این خبرگان دقیق را انتخاب کند و انعطافپذیری مدل و توانایی آن در رسیدگی به تفاوتهای ظریف را افزایش دهد.
انزوای خبره مشترک: یک خبره به عنوان "مشترک" تعیین شد. هر توکن از این خبره عبور میکند، که دانش مشترکی را یاد میگیرد که در زمینههای مختلف کاربرد دارد (به عنوان مثال، قوانین گرامر یا استدلال اساسی). این امر افزونگی را کاهش میدهد (بنابراین همه خبرگان مسیریابی شده نیازی به یادگیری اصول اولیه یکسان ندارند) و سایر خبرگان را آزاد میکند تا حتی تخصصیتر شوند. ( از معماری مشابهی استفاده میکند.)
برای اینکه این تنظیمات پیچیده MoE به طور کارآمد روی سختافزار کار کند، DeepSeek یک استراتژی متعادلسازی بار را در طول آموزش طراحی کرد تا اطمینان حاصل شود که استنتاج به خوبی در GPUهای مختلف توزیع شده است. بدون متعادلسازی بار، روتر ممکن است چند خبره محبوب را روی یک GPU واحد بارگذاری کند در حالی که بقیه بیکار میمانند و گلوگاه ایجاد میکنند. DeepSeek از استراتژیهایی، از جمله یک مکانیسم تعصب هوشمندانه در DeepSeek-V3، برای تشویق آرام روتر به توزیع یکنواخت توکنها در بین خبرگان موجود استفاده کرد و از استفاده روان و کارآمد از سختافزار شتابدهنده اطمینان حاصل کرد.
یادگیری سریعتر با پیشبینی چند توکنی (MTP)
به طور سنتی، LLMها با پیشبینی یک توکن در یک زمان یاد میگیرند. DeepSeek-V3 برای سرعت بخشیدن به فرآیند آموزش، پیشبینی چند توکنی (MTP) را پیادهسازی کرد. در هر موقعیت، به جای اینکه فقط توکن بعدی را پیشبینی کند، مدل همچنین توکن بعد از آن را پیشبینی میکند، و به طور بالقوه چندین توکن دیگر را با استفاده از سرهای پیشبینی موازی پیشبینی میکند.
چرا؟ کارایی نمونه. این مقدار بیشتری از ارزش یادگیری را از همان دادههای آموزشی میگیرد. پردازش یک موقعیت توکن ورودی به مدل فرصتهای یادگیری متعددی میدهد (تصحیح پیشبینیهای خود برای توکن N+1، N+2، N+3 و غیره) به جای فقط یک فرصت. این به مدل کمک میکند تا سریعتر یاد بگیرد و به طور بالقوه به عملکرد بهتری از همان اندازه مجموعه داده دست یابد.
با این حال، MTP سربار محاسباتی را در طول آموزش افزایش میدهد زیرا باید ماژولهای MTP اضافی را اضافه کنید که در کنار مدل اصلی اجرا میشوند.
همطراحی الگوریتمها و سختافزار
DeepSeek بر اهمیت همطراحی تاکید کرد. این بدان معناست که آنها فقط الگوریتمها را به تنهایی توسعه ندادند. آنها به طور جامع در مورد نحوه تعامل الگوریتمها (مانند MoE خاص یا انواع توجه)، چارچوبهای نرمافزاری (مانند کتابخانههای موازیسازی سفارشی) و سختافزار فیزیکی (مانند GPUهای Nvidia) فکر کردند.
آنها یک استراتژی خط لوله موازیسازی بهینه شده را طراحی کردند تا از شتابدهندهها در طول آموزش بهتر استفاده کنند و زمان بیکاری GPU را به حداقل برسانند. آنها همچنین یک تکنیک آموزش با دقت ترکیبی FP8 را طراحی کردند که از قابلیتهای سختافزاری سریعتر و با دقت پایینتر و عملیاتهای کندتر و با دقت بالاتر به طور هوشمندانه استفاده میکند در حالی که دقت را حفظ میکند. با بهینهسازی کل پشته با هم، آنها به طور قابل توجهی کارایی آموزش را افزایش دادند و زمان و هزینه مورد نیاز برای آموزش مدلهای عظیم خود را کاهش دادند.
به گفته DeepSeek، آنها توانستند پیشآموزش مدل را روی 14.8 تریلیون توکن با 2.788 میلیون ساعت GPU H800 به پایان برسانند، که حدود 5 میلیون دلار است (توجه داشته باشید که این هزینه کامل آموزش نیست و شامل تمام آزمایشاتی که قبل از پیشآموزش انجام دادند و اجراهای پس از آموزش نمیشود).
سادهسازی RL با بهینهسازی سیاست نسبی گروهی (GRPO)
(RL) اغلب پس از آموزش برای همسو کردن LLMها با رفتارهای مطلوب (مفید بودن، ایمنی، پیروی از دستورالعملها) استفاده میشود. الگوریتمهای RL به یک عامل (در این مورد مدل) متکی هستند که حالات (توکنهای ورودی) را مشاهده میکند و اقدامات (تولید پاسخ) را انجام میدهد. سپس یک مدل پاداش پاسخ را بر اساس میزان همسویی آن با رفتار مطلوب ارزیابی میکند (به عنوان مثال، مدل پاداش ممکن است بر اساس رفتارهای لایک/دیسلایک کاربران آموزش داده شود تا پاسخها را مدلسازی کند).
یک الگوریتم محبوب، بهینهسازی سیاست پروگزیمال (PPO)، معمولاً نیاز به آموزش یک "مدل ارزش" کمکی دارد که پاداشهای مورد انتظار را تخمین میزند، که میتواند زمان و منابع را مصرف کند.
DeepSeek از بهینهسازی سیاست نسبی گروهی (GRPO) استفاده کرد. GRPO به طور هوشمندانه نیاز به یک مدل ارزش جداگانه را دور میزند. این یک گروه از پاسخهای بالقوه را برای یک اعلان معین تولید میکند، برای هر کدام پاداش میگیرد و سپس هر پاسخ را نسبت به میانگین پاداش آن گروه خاص ارزیابی میکند. این سیگنال یادگیری لازم را بدون سربار حافظه مدل ارزش فراهم میکند، فرآیند RL را ساده میکند و آن را به طور قابل توجهی از نظر حافظه کارآمدتر میکند.
پیشبرد مرزهای پس از آموزش
تیم DeepSeek مرحله تنظیم دقیق نظارت شده (SFT) را که معمولاً در مرحله پس از آموزش استفاده میشود، کنار گذاشت و مستقیماً به یادگیری تقویتی خالص رفت تا DeepSeek-R1-Zero را از مدل پایه (DeepSeek-V3-Base) ایجاد کند. آنها از GRPO برای آموزش مدل استفاده کردند تا رفتارهای استدلال پیچیده را بدون نیاز به دادههای برچسبگذاری شده استخراج کند. اساساً، مدل فقط بر اساس نتیجه (درست/غلط) و قالب (محصور کردن توکنهای استدلال خود در برچسبهای <think></think>) ارزیابی شد.
این به تنهایی مدل را در توسعه تواناییهای استدلال بسیار پیش برد، اگرچه معایبی نیز داشت، از جمله خوانایی ضعیف (به عنوان مثال، مدل زبانهای مختلف را در استدلال خود مخلوط میکرد).
برای DeepSeek-R1، آنها یک خط لوله چند مرحلهای را به کار گرفتند. آنها با یک SFT "شروع سرد" روی هزاران مثال استدلال شروع کردند. سپس آنها RL را مانند DeepSeek-R1-Zero انجام دادند، اگرچه یک پاداش سازگاری اضافه کردند که مدل را مجبور میکند توالیهای زنجیره فکر (CoT) خواناتری تولید کند.
در مرحله بعد، آنها دور دیگری از تنظیم دقیق را انجام دادند تا توانایی مدل را در نوشتن، ایفای نقش و وظایف عمومی بهبود بخشند. دادههای این وظیفه از مجموعه داده SFT گرفته شده و توسط خود مدل تولید شده و از طریق نمونهبرداری رد فیلتر شده است. در نهایت، آنها دور نهایی RL را اجرا کردند تا مدل را با ترجیحات کاربر هماهنگ کنند.
تعیین یک استاندارد باز جدید
مدلهای DeepSeek نشان دادند که نوآوری و کارایی قابل توجه میتواند بدون پنهان کردن وزنهای مدل، معماری و دستورالعملهای آموزشی شما شکوفا شود. DeepSeek هم مدلهای قدرتمندی و هم یک طرح ارزشمند برای جامعه ارائه کرد. موفقیت آنها شفافیت و تکرارپذیری بیشتری را تشویق میکند و سرعت کشف را برای همه تسریع میبخشد.
برای کسب اطلاعات بیشتر در مورد نوآوریهای پشت مدلهای DeepSeek، با عنوان "بررسی تکنیکهای نوآورانه کلیدی مدلهای DeepSeek" و همچنین موارد زیر را بخوانید:
–
–
– (برای اطلاعات بیشتر در مورد GRPO)