توضیح DeepSeek-V3، قسمت 1: درک توجه نهفته چندگانه

این اولین مقاله از سری جدید ما با عنوان

توضیح DeepSeek-V3

است، که در آن سعی خواهیم کرد DeepSeek-V3 [1، 2]، آخرین مدل منبع باز شده توسط DeepSeek را رمزگشایی کنیم.

هدف ما در این مجموعه پوشش دو موضوع اصلی است:

نوآوری‌های معماری اصلی در DeepSeek-V3، از جمله MLA (توجه نهفته چندگانه) [3]، DeepSeekMoE [4]، متعادل‌سازی بار بدون تلفات کمکی [5] و آموزش پیش‌بینی چند نشانه‌ای.
آموزش DeepSeek-V3، پوشش مراحل پیش‌آموزش، تنظیم دقیق و همسویی یادگیری تقویتی (RL).

این مقاله عمدتاً بر توجه نهفته چندگانه تمرکز دارد، که برای اولین بار در طول توسعه DeepSeek-V2 معرفی شد و بعداً در DeepSeek-V3 نیز به کار گرفته شد.

پیشینه ما با مروری بر توجه چندگانه (MHA) استاندارد شروع می‌کنیم و نیاز به حافظه پنهان کلید-مقدار (KV) در طول استنتاج را توضیح می‌دهیم. سپس بررسی می‌کنیم که چگونه MQA (توجه چند پرسشی) و GQA (توجه پرسشی گروه‌بندی شده) قصد دارند حافظه و کارایی محاسباتی را بهینه کنند. در نهایت، به این موضوع می‌پردازیم که چگونه RoPE (تعبیه موقعیتی چرخشی) اطلاعات موقعیتی را در سازوکار توجه ادغام می‌کند.
توجه نهفته چندگانه معرفی عمیق MLA، پوشش انگیزه‌های اصلی آن، نیاز به RoPE جدا شده و چگونگی بهبود عملکرد آن در مقایسه با سازوکارهای توجه سنتی.
منابع

پیشینه

برای درک بهتر MLA و اینکه این مقاله خود-بسنده باشد، قبل از پرداختن به جزئیات توجه نهفته چندگانه، چندین مفهوم مرتبط را در این بخش بازبینی خواهیم کرد.

MHA در ترانسفورماتورهای فقط رمزگشا

توجه داشته باشید که MLA به طور خاص برای تسریع استنتاج در تولید متن خود-رگرسیونی طراحی شده است. بنابراین، توجه چندگانه (MHA) که ما در این زمینه به آن اشاره می‌کنیم، در معماری ترانسفورماتور فقط رمزگشا قرار دارد.

شکل زیر سه معماری ترانسفورماتور مورد استفاده برای رمزگشایی را مقایسه می‌کند. در (الف)، هم رمزگذار و هم رمزگشا را همانطور که در مقاله

توجه تمام آن چیزی است که شما نیاز دارید

پیشنهاد شده بود، می‌بینیم. این طراحی رمزگشا بعداً توسط [6] ساده شد و در نتیجه ترانسفورماتور فقط رمزگشا نشان داده شده در (ب…

https://pub.towardsai.net/deepseek-v3-explained-part-1-understanding-multi-head-latent-attention-bac648681926?source=rss----98111c9905da---4