این اولین مقاله از سری جدید ما با عنوان
توضیح DeepSeek-V3
است، که در آن سعی خواهیم کرد DeepSeek-V3 [1، 2]، آخرین مدل منبع باز شده توسط DeepSeek را رمزگشایی کنیم.
هدف ما در این مجموعه پوشش دو موضوع اصلی است:
- نوآوریهای معماری اصلی در DeepSeek-V3، از جمله MLA (توجه نهفته چندگانه) [3]، DeepSeekMoE [4]، متعادلسازی بار بدون تلفات کمکی [5] و آموزش پیشبینی چند نشانهای.
- آموزش DeepSeek-V3، پوشش مراحل پیشآموزش، تنظیم دقیق و همسویی یادگیری تقویتی (RL).
این مقاله عمدتاً بر توجه نهفته چندگانه تمرکز دارد، که برای اولین بار در طول توسعه DeepSeek-V2 معرفی شد و بعداً در DeepSeek-V3 نیز به کار گرفته شد.
- پیشینه ما با مروری بر توجه چندگانه (MHA) استاندارد شروع میکنیم و نیاز به حافظه پنهان کلید-مقدار (KV) در طول استنتاج را توضیح میدهیم. سپس بررسی میکنیم که چگونه MQA (توجه چند پرسشی) و GQA (توجه پرسشی گروهبندی شده) قصد دارند حافظه و کارایی محاسباتی را بهینه کنند. در نهایت، به این موضوع میپردازیم که چگونه RoPE (تعبیه موقعیتی چرخشی) اطلاعات موقعیتی را در سازوکار توجه ادغام میکند.
- توجه نهفته چندگانه معرفی عمیق MLA، پوشش انگیزههای اصلی آن، نیاز به RoPE جدا شده و چگونگی بهبود عملکرد آن در مقایسه با سازوکارهای توجه سنتی.
- منابع
پیشینه
برای درک بهتر MLA و اینکه این مقاله خود-بسنده باشد، قبل از پرداختن به جزئیات توجه نهفته چندگانه، چندین مفهوم مرتبط را در این بخش بازبینی خواهیم کرد.
MHA در ترانسفورماتورهای فقط رمزگشا
توجه داشته باشید که MLA به طور خاص برای تسریع استنتاج در تولید متن خود-رگرسیونی طراحی شده است. بنابراین، توجه چندگانه (MHA) که ما در این زمینه به آن اشاره میکنیم، در معماری ترانسفورماتور فقط رمزگشا قرار دارد.
شکل زیر سه معماری ترانسفورماتور مورد استفاده برای رمزگشایی را مقایسه میکند. در (الف)، هم رمزگذار و هم رمزگشا را همانطور که در مقاله
توجه تمام آن چیزی است که شما نیاز دارید
پیشنهاد شده بود، میبینیم. این طراحی رمزگشا بعداً توسط [6] ساده شد و در نتیجه ترانسفورماتور فقط رمزگشا نشان داده شده در (ب…