سن خوزه، کالیفرنیا – انویدیا با نرمافزار جدید سازماندهی استنتاج در مراکز داده به نام Dynamo، عملکرد استنتاج پردازندههای گرافیکی (GPU) خود را به طرز چشمگیری افزایش داده است. Dynamo، جانشین سرور استنتاج Triton، به گونهای طراحی شده است تا به اپراتورهای مراکز داده کمک کند تا درآمد حاصل از تولید توکن مدلهای زبان بزرگ (LLM) را به حداکثر برسانند. برای پردازندههای گرافیکی نسل Hopper، این نرمافزار جدید قبلاً عملکرد توکن بر ثانیه به ازای هر کاربر را ۳۰ برابر افزایش داده است. اما چگونه کار میکند؟
یان باک، معاون و مدیر کل بخش هایپراسکیل و محاسبات با عملکرد بالا (HPC) در انویدیا، گفت: «این یک بدهبستان است. من میتوانم مقدار توکنهای یک کاربر را با مقدار کل توکنهای کارخانه هوش مصنوعیام مبادله کنم... کاری که روی پردازندههای گرافیکی ما انجام میشود، بهینهسازی کلی کارخانه هوش مصنوعی است.»
نقطه بهینه در این بدهبستان برای سودآوری کارخانه هوش مصنوعی حیاتی است و ممکن است برای کاربردهای مختلف متفاوت باشد - به عنوان مثال، برای تحقیقات عمیق که نیازی به تعاملی بودن ندارند، در مقابل چتباتها که به سرعت بسیار بالای توکن برای هر کاربر نیاز دارند.
باک گفت: «هیچکس استنتاج با دسته (batch) برابر با یک را اجرا نمیکند. هیچ کارخانه هوش مصنوعی این کار را کاملاً آفلاین انجام نمیدهد؛ همه آنها در تلاشند تا بهترین سرویس، بهترین تجربه کاربری را ارائه دهند و همچنین کارایی پردازنده گرافیکی خود، هزینه کل به ازای هر توکن و البته درآمدها را به حداکثر برسانند.»
کارخانه هوش مصنوعی امروزی با پیادهسازیهای اولیه که در آن یک سرور GPU میتوانست یک LLM را اجرا کند، بسیار متفاوت است - ممکن است صدها هزار GPU در حال اجرای مدلهای متعدد باشند. باک با اشاره به اینکه DeepSeek-R1-671B دارای ۶۷۱ میلیارد پارامتر است و پیش از شروع تولید خروجی خود، ۱۰,۰۰۰ توکن «تفکر» تولید میکند، گفت که تکنیکهای پیشرفته استنتاج مانند استدلال میتوانند به هزاران توکن «تفکر» نیاز داشته باشند.
او گفت: «این مدلها از این جهت ارزشمند هستند که هوش مصنوعی را به سطح کاملاً جدیدی از دانش، سودمندی و بهرهوری سازمانی میرسانند و ما به یک پشته نرمافزاری نیاز داریم که بتواند این چالش را برآورده کند.»
Dynamo، که باک آن را «سیستم عامل کارخانه هوش مصنوعی» توصیف میکند، میتواند ناوگان بزرگی از پردازندههای گرافیکی را با هدف حذف هرگونه زمان انتظار برای داده مدیریت کند.
حافظه نهان کلید-مقدار (KV cache) – که عملاً حافظه کاری مدل است – اهمیت ویژهای دارد. این حافظه نهان اطلاعات مربوط به سؤالات قبلی کاربر را ذخیره میکند تا زمینه را در کل مکالمه حفظ کند. کارخانههای هوش مصنوعی مدرن باید حافظه نهان KV را برای هر کاربر (به عنوان مثال، ChatGPT بیش از یک میلیارد کاربر ماهانه دارد) حفظ کنند، بدانند که این حافظه نهان برای هر کاربر روی کدام GPU قرار دارد تا درخواستهای کاربر به GPU صحیح ارسال شود و در صورت لزوم با تغییرات هماهنگ شوند.
Dynamo شامل یک مکانیسم مسیریابی هوشمند است که سعی میکند از محاسبه مجدد مقادیر حافظه نهان KV در صورتی که قبلاً در جایی از سیستم وجود دارند، جلوگیری کند. داشتن نرخ برخورد (hit rate) بالا برای حافظه نهان KV، سرعت استنتاج را به طور قابل توجهی افزایش میدهد.
عامل حیاتی دیگر در افزایش عملکرد Dynamo، تفکیکپذیری (disaggregation) است. مدلهای LLM مدرن برای اجرا بر روی یک GPU یا حتی یک سرور GPU بسیار بزرگ هستند. Dynamo برای تقسیم کارآمد مدلها بین تعداد زیادی GPU برای بهترین عملکرد طراحی شده است.
Dynamo همچنین پردازش توکنهای ورودی (مرحله پیشپر کردن یا pre-fill) را از تولید توکنهای خروجی (مرحله رمزگشایی یا decode) جدا میکند. این دو بخش از حجم کاری به اندازهای متفاوت هستند که اجرای جداگانه آنها میتواند بهینهسازیهایی را امکانپذیر کند که منجر به مزایای عملکردی بزرگ میشود.
باک با اشاره به اینکه این به معنای دو برابر شدن درآمد برای مشتری است، گفت: «ما Llama-70B را روی یک خوشه Hopper اجرا کردیم و فعال کردن Dynamo توان عملیاتی آن مرکز داده Hopper را دو برابر کرد.» وی افزود: «برای مدلهایی مانند DeepSeek که ساختار ترکیب متخصصان (MoE یا mixture of experts) با ۲۵۷ متخصص در هر لایه دارند، توزیع متخصصان مختلف بر روی پردازندههای گرافیکی مختلف، سرعت را ۳۰ برابر افزایش داد. بنابراین، این نرمافزار واقعاً مهمی برای ماست که درباره آن صحبت کنیم.»
همانطور که باک توضیح داد، توکنهای ورودی میتوانند به صورت موازی پردازش شوند زیرا همه آنها به طور همزمان به مدل ارائه میشوند - سؤال میتواند به یکباره دریافت شود. برای تولید، DeepSeek خودبازگشتی (autoregressive) است؛ یعنی هر توکن خروجی تولید شده به حافظه نهان KV اضافه میشود تا توکن بعدی، یک توکن در هر بار، تولید شود.
باک گفت: «با جدا کردن این دو مرحله، میتوانم مرحله توکن ورودی را به طور چشمگیری فشرده کنم - میتوانم آن را موازیسازی کنم، آن را به یک محاسبه متراکم FP4 تبدیل کنم و مدل را برای پردازش موازی تمام توکنهای ورودی بهینه کنم.» وی افزود: «در سمت خروجی، میخواهم با توزیع آن تا حد امکان در کل رک NVL72، تا حد ممکن سریع اجرا کنم، بنابراین پهنای باند NVLink و دریافت هرچه بیشتر GPU برایم اهمیت بیشتری دارد.»
سیستمها قبلاً برای دستیابی به نتیجه خوب در هر دو بخش حجم کاری متعادل میشدند، که دیگر بهینه نیست، به ویژه برای مدلهای MoE بسیار بزرگ مانند DeepSeek. باک گفت، یک سال پیش، انویدیا مدلی با ۱۶ متخصص را بزرگ میدانست؛ DeepSeek دارای ۲۵۷ متخصص در هر لایه است.
مقاله DeepSeek-R1 نشان میدهد که آزمایشگاه تحقیقاتی هوش مصنوعی چینی از ۳۲ پردازنده گرافیکی برای مرحله پیشپر کردن/ورودی و حداقل ۳۲۰ پردازنده گرافیکی برای مرحله تولید/خروجی استفاده کرده است، اگرچه آنها مجبور بودند نرمافزار خود را بنویسند تا هستههای محاسباتی انویدیا را به موتورهای دسترسی مستقیم به حافظه (DMA یا direct memory access) سفارشی تبدیل کنند تا این کار را انجام دهند.
باک گفت که از زمان راهاندازی، استنتاج DeepSeek-R1 از حدود ۵۰ توکن «تفکر» در ثانیه بر روی سختافزار نسل Hopper به حدود ۱۲۰ توکن بر ثانیه در پردازندههای گرافیکی نسل بعدی B200 بهبود یافته است. او گفت هدف انویدیا برای B200، ۳۵۰ توکن در ثانیه است، در حالی که GB300 به DeepSeek-R1 اجازه میدهد تا با سرعتی نزدیک به ۱۰۰۰ توکن در ثانیه «تفکر» کند و عملاً در زمان واقعی عمل نماید.
در حالی که سختافزار جدید با هر نسل نرخ توکن را بهبود میبخشد، نوآوریهای زیادی نیز از نرمافزارهای جدیدی مانند Dynamo همراه با هستهها (kernels) و بهینهسازیهای جدید از تیمهای انویدیا و جامعه CUDA حاصل خواهد شد.
باک گفت: «مأموریت Dynamo ارائه تفکیکپذیری است که عملکرد را بهبود میبخشد و مدیریت ناوگانی از پردازندههای گرافیکی در سراسر زیرساخت و فعال نگه داشتن آنهاست.»
او افزود: «مأموریت ما سرعت بخشیدن حداکثری به کارخانههای هوش مصنوعی است - استنتاج فوقالعاده سخت است.»