تصویر ایجاد شده با Ideogram
تصویر ایجاد شده با Ideogram

درون کلاه: نوآوری‌هایی که پیشرفت هوش مصنوعی DeepSeek را ممکن ساختند

انتشار مدل‌هایی مانند DeepSeek-V3 و DeepSeek-R1 نقطه عطفی مهم برای مدل‌های زبانی بزرگ (LLM) بود. ناگهان، مدل‌های متن‌باز به عملکردی دست یافتند که به‌طور شگفت‌آوری نزدیک، و در برخی بنچمارک‌ها فراتر از غول‌های اختصاصی پیشرو مانند GPT-4o، o1 و Claude 3.5 Sonnet بود—و این کار را تنها با استفاده از کسری از منابع آموزشی انجام دادند. این فقط یک بهبود تدریجی نبود. این نشان داد که هوش مصنوعی پیشرفته منحصراً در انحصار آزمایشگاه‌های بسته نیست.

اما DeepSeek چگونه به این ترکیب قابل توجه از عملکرد و کارایی دست یافت؟ این فقط یک گلوله جادویی نبود، بلکه مجموعه‌ای از نوآوری‌های فنی هوشمندانه در سراسر معماری مدل، الگوریتم‌های آموزشی و یکپارچگی سخت‌افزار بود. در یک مقاله اخیر، محققان دانشگاه تگزاس در دالاس و ویرجینیا تک این نوآوری‌ها را به تفصیل بررسی می‌کنند. در اینجا خلاصه‌ای از این نوآوری‌ها و برخی از مواد اصلی که باعث برجسته شدن مدل‌های DeepSeek شد، آورده شده است.

توجه نهفته چند-هد (MLA)

مکانیسم توجه، قلب ترانسفورماتورها است و به مدل‌ها اجازه می‌دهد هنگام پردازش متن، اهمیت کلمات مختلف را وزن کنند. با این حال، توجه چند-هد استاندارد (MHA) یک پاشنه آشیل پرهزینه دارد: کش کلید-مقدار (KV). برای سرعت بخشیدن به تولید، مدل‌ها محاسبات میانی (کلیدها و مقادیر) را برای توکن‌های قبلی ذخیره می‌کنند. اما این کش به سرعت با طولانی‌تر شدن متن‌ها متورم می‌شود و مقادیر زیادی حافظه را می‌طلبد.

DeepSeek-V2 ایده توجه نهفته چند-هد (MLA) را معرفی کرد. ایده اصلی، فشرده‌سازی رتبه پایین است: به جای ذخیره کلیدها و مقادیر کامل و با ابعاد بالا، MLA آن‌ها را به یک بردار "نهفته" بسیار کوچکتر فشرده می‌کند. این را مانند یادداشت‌های خلاصه مختصر به جای متن کامل کلمه به کلمه در نظر بگیرید—شما جوهر را با فضای بسیار کمتری ثبت می‌کنید.

در حالی که تکنیک‌های بهینه‌سازی توجه دیگری نیز وجود دارد (دو تکنیک محبوب دیگر، توجه پرس و جو گروهی و توجه چند پرس و جو هستند)، MLA برجسته است زیرا دقت را برای کارایی قربانی نمی‌کند.

علاوه بر این، DeepSeek، تعبیه موقعیت چرخشی (RoPE) را اصلاح کرد، تکنیکی که موقعیت‌های توکن را هنگام پردازش ورودی به مدل رمزگذاری می‌کند. RoPE استاندارد، هنگامی که با فشرده‌سازی MLA ترکیب شود، موانع کارایی را در طول استنتاج ایجاد می‌کند. DeepSeek آن را جدا کرد: آنها یک مسیر موازی جداگانه با استفاده از بردارهای اختصاصی فقط برای محاسبه تأثیر موقعیتی از طریق RoPE ایجاد کردند. این به محاسبه توجه اصلی (بر اساس معنای معنایی توکن‌ها) اجازه می‌دهد تا به طور کامل از کارایی فشرده‌سازی MLA بهره‌مند شود، در حالی که هنوز اطلاعات موقعیتی نسبی را به طور دقیق در خود جای می‌دهد. نتیجه؟ کاهش قابل توجه تقاضای حافظه برای کش KV، که برای مدیریت کارآمد بافت‌های طولانی بسیار مهم است.

توجه نهفته چند-هد
مکانیسم‌های مختلف توجه: MHA، GQA، MQA و MLA (منبع: )

اصلاح ترکیب خبرگان (MoE) برای انعطاف‌پذیری و کارایی

ترکیب خبرگان (MoE) تکنیکی برای مقیاس‌بندی کارآمد LLMها است. در داخل هر بلوک ترانسفورماتور LLMهای کلاسیک (که مدل‌های متراکم نیز نامیده می‌شوند)، یک سری شبکه‌های عصبی پیشخور بزرگ (FFN) وجود دارد که مقادیر محاسبه شده توسط لایه‌های توجه را پردازش می‌کنند. MoEها این FFNهای عظیم را به شبکه‌های "خبره" کوچکتر زیادی تقسیم می‌کنند که هر کدام در برخی وظایف تخصص دارند. در طول استنتاج، یک "روتر" زیرمجموعه‌ای از خبرگان را بر اساس مقادیر توجه محاسبه شده توکن ورودی فعال می‌کند. MoEها بسیار موفق بوده‌اند و در بسیاری از مدل‌های محبوب، از جمله (طبق گزارش‌ها) مدل‌های GPT-4 و Google Gemini استفاده می‌شوند.

اما تیم DeepSeek معماری MoE استاندارد را با دو اصلاح بیشتر بهبود بخشید:

تقسیم‌بندی دقیق خبرگان: آنها خبرگان استاندارد را گرفتند و آنها را به زیر-خبرگان تخصصی‌تر و کوچکتر تقسیم کردند. در حالی که کل محاسبات در هر توکن ثابت می‌ماند، روتر اکنون می‌تواند ترکیب بسیار خاص‌تری از این خبرگان دقیق را انتخاب کند و انعطاف‌پذیری مدل و توانایی آن در رسیدگی به تفاوت‌های ظریف را افزایش دهد.

انزوای خبره مشترک: یک خبره به عنوان "مشترک" تعیین شد. هر توکن از این خبره عبور می‌کند، که دانش مشترکی را یاد می‌گیرد که در زمینه‌های مختلف کاربرد دارد (به عنوان مثال، قوانین گرامر یا استدلال اساسی). این امر افزونگی را کاهش می‌دهد (بنابراین همه خبرگان مسیریابی شده نیازی به یادگیری اصول اولیه یکسان ندارند) و سایر خبرگان را آزاد می‌کند تا حتی تخصصی‌تر شوند. ( از معماری مشابهی استفاده می‌کند.)

DeepSeek MoE
معماری ترکیب خبرگان (MoE) DeepSeek (منبع: )

برای اینکه این تنظیمات پیچیده MoE به طور کارآمد روی سخت‌افزار کار کند، DeepSeek یک استراتژی متعادل‌سازی بار را در طول آموزش طراحی کرد تا اطمینان حاصل شود که استنتاج به خوبی در GPUهای مختلف توزیع شده است. بدون متعادل‌سازی بار، روتر ممکن است چند خبره محبوب را روی یک GPU واحد بارگذاری کند در حالی که بقیه بیکار می‌مانند و گلوگاه ایجاد می‌کنند. DeepSeek از استراتژی‌هایی، از جمله یک مکانیسم تعصب هوشمندانه در DeepSeek-V3، برای تشویق آرام روتر به توزیع یکنواخت توکن‌ها در بین خبرگان موجود استفاده کرد و از استفاده روان و کارآمد از سخت‌افزار شتاب‌دهنده اطمینان حاصل کرد.

یادگیری سریعتر با پیش‌بینی چند توکنی (MTP)

به طور سنتی، LLMها با پیش‌بینی یک توکن در یک زمان یاد می‌گیرند. DeepSeek-V3 برای سرعت بخشیدن به فرآیند آموزش، پیش‌بینی چند توکنی (MTP) را پیاده‌سازی کرد. در هر موقعیت، به جای اینکه فقط توکن بعدی را پیش‌بینی کند، مدل همچنین توکن بعد از آن را پیش‌بینی می‌کند، و به طور بالقوه چندین توکن دیگر را با استفاده از سرهای پیش‌بینی موازی پیش‌بینی می‌کند.

چرا؟ کارایی نمونه. این مقدار بیشتری از ارزش یادگیری را از همان داده‌های آموزشی می‌گیرد. پردازش یک موقعیت توکن ورودی به مدل فرصت‌های یادگیری متعددی می‌دهد (تصحیح پیش‌بینی‌های خود برای توکن N+1، N+2، N+3 و غیره) به جای فقط یک فرصت. این به مدل کمک می‌کند تا سریع‌تر یاد بگیرد و به طور بالقوه به عملکرد بهتری از همان اندازه مجموعه داده دست یابد.

با این حال، MTP سربار محاسباتی را در طول آموزش افزایش می‌دهد زیرا باید ماژول‌های MTP اضافی را اضافه کنید که در کنار مدل اصلی اجرا می‌شوند.

پیش‌بینی چند توکنی
معماری پیش‌بینی چند توکنی (منبع: )

هم‌طراحی الگوریتم‌ها و سخت‌افزار

DeepSeek بر اهمیت هم‌طراحی تاکید کرد. این بدان معناست که آنها فقط الگوریتم‌ها را به تنهایی توسعه ندادند. آنها به طور جامع در مورد نحوه تعامل الگوریتم‌ها (مانند MoE خاص یا انواع توجه)، چارچوب‌های نرم‌افزاری (مانند کتابخانه‌های موازی‌سازی سفارشی) و سخت‌افزار فیزیکی (مانند GPUهای Nvidia) فکر کردند.

آنها یک استراتژی خط لوله موازی‌سازی بهینه شده را طراحی کردند تا از شتاب‌دهنده‌ها در طول آموزش بهتر استفاده کنند و زمان بیکاری GPU را به حداقل برسانند. آنها همچنین یک تکنیک آموزش با دقت ترکیبی FP8 را طراحی کردند که از قابلیت‌های سخت‌افزاری سریع‌تر و با دقت پایین‌تر و عملیات‌های کندتر و با دقت بالاتر به طور هوشمندانه استفاده می‌کند در حالی که دقت را حفظ می‌کند. با بهینه‌سازی کل پشته با هم، آنها به طور قابل توجهی کارایی آموزش را افزایش دادند و زمان و هزینه مورد نیاز برای آموزش مدل‌های عظیم خود را کاهش دادند.

به گفته DeepSeek، آنها توانستند پیش‌آموزش مدل را روی 14.8 تریلیون توکن با 2.788 میلیون ساعت GPU H800 به پایان برسانند، که حدود 5 میلیون دلار است (توجه داشته باشید که این هزینه کامل آموزش نیست و شامل تمام آزمایشاتی که قبل از پیش‌آموزش انجام دادند و اجراهای پس از آموزش نمی‌شود).

ساده‌سازی RL با بهینه‌سازی سیاست نسبی گروهی (GRPO)

(RL) اغلب پس از آموزش برای همسو کردن LLMها با رفتارهای مطلوب (مفید بودن، ایمنی، پیروی از دستورالعمل‌ها) استفاده می‌شود. الگوریتم‌های RL به یک عامل (در این مورد مدل) متکی هستند که حالات (توکن‌های ورودی) را مشاهده می‌کند و اقدامات (تولید پاسخ) را انجام می‌دهد. سپس یک مدل پاداش پاسخ را بر اساس میزان همسویی آن با رفتار مطلوب ارزیابی می‌کند (به عنوان مثال، مدل پاداش ممکن است بر اساس رفتارهای لایک/دیس‌لایک کاربران آموزش داده شود تا پاسخ‌ها را مدل‌سازی کند).

یک الگوریتم محبوب، بهینه‌سازی سیاست پروگزیمال (PPO)، معمولاً نیاز به آموزش یک "مدل ارزش" کمکی دارد که پاداش‌های مورد انتظار را تخمین می‌زند، که می‌تواند زمان و منابع را مصرف کند.

DeepSeek از بهینه‌سازی سیاست نسبی گروهی (GRPO) استفاده کرد. GRPO به طور هوشمندانه نیاز به یک مدل ارزش جداگانه را دور می‌زند. این یک گروه از پاسخ‌های بالقوه را برای یک اعلان معین تولید می‌کند، برای هر کدام پاداش می‌گیرد و سپس هر پاسخ را نسبت به میانگین پاداش آن گروه خاص ارزیابی می‌کند. این سیگنال یادگیری لازم را بدون سربار حافظه مدل ارزش فراهم می‌کند، فرآیند RL را ساده می‌کند و آن را به طور قابل توجهی از نظر حافظه کارآمدتر می‌کند.

GRPO در مقابل PPO
GRPO در مقابل PPO (منبع: )

پیشبرد مرزهای پس از آموزش

تیم DeepSeek مرحله تنظیم دقیق نظارت شده (SFT) را که معمولاً در مرحله پس از آموزش استفاده می‌شود، کنار گذاشت و مستقیماً به یادگیری تقویتی خالص رفت تا DeepSeek-R1-Zero را از مدل پایه (DeepSeek-V3-Base) ایجاد کند. آنها از GRPO برای آموزش مدل استفاده کردند تا رفتارهای استدلال پیچیده را بدون نیاز به داده‌های برچسب‌گذاری شده استخراج کند. اساساً، مدل فقط بر اساس نتیجه (درست/غلط) و قالب (محصور کردن توکن‌های استدلال خود در برچسب‌های <think></think>) ارزیابی شد.

این به تنهایی مدل را در توسعه توانایی‌های استدلال بسیار پیش برد، اگرچه معایبی نیز داشت، از جمله خوانایی ضعیف (به عنوان مثال، مدل زبان‌های مختلف را در استدلال خود مخلوط می‌کرد).

برای DeepSeek-R1، آنها یک خط لوله چند مرحله‌ای را به کار گرفتند. آنها با یک SFT "شروع سرد" روی هزاران مثال استدلال شروع کردند. سپس آنها RL را مانند DeepSeek-R1-Zero انجام دادند، اگرچه یک پاداش سازگاری اضافه کردند که مدل را مجبور می‌کند توالی‌های زنجیره فکر (CoT) خواناتری تولید کند.

در مرحله بعد، آنها دور دیگری از تنظیم دقیق را انجام دادند تا توانایی مدل را در نوشتن، ایفای نقش و وظایف عمومی بهبود بخشند. داده‌های این وظیفه از مجموعه داده SFT گرفته شده و توسط خود مدل تولید شده و از طریق نمونه‌برداری رد فیلتر شده است. در نهایت، آنها دور نهایی RL را اجرا کردند تا مدل را با ترجیحات کاربر هماهنگ کنند.

تعیین یک استاندارد باز جدید

مدل‌های DeepSeek نشان دادند که نوآوری و کارایی قابل توجه می‌تواند بدون پنهان کردن وزن‌های مدل، معماری و دستورالعمل‌های آموزشی شما شکوفا شود. DeepSeek هم مدل‌های قدرتمندی و هم یک طرح ارزشمند برای جامعه ارائه کرد. موفقیت آنها شفافیت و تکرارپذیری بیشتری را تشویق می‌کند و سرعت کشف را برای همه تسریع می‌بخشد.

برای کسب اطلاعات بیشتر در مورد نوآوری‌های پشت مدل‌های DeepSeek، با عنوان "بررسی تکنیک‌های نوآورانه کلیدی مدل‌های DeepSeek" و همچنین موارد زیر را بخوانید:

– (برای اطلاعات بیشتر در مورد GRPO)