یان باک (منبع: انویدیا)
یان باک (منبع: انویدیا)

انویدیا چگونه عملکرد استنتاج Hopper را 30 برابر بهبود بخشید؟

سن خوزه، کالیفرنیا – انویدیا با نرم‌افزار جدید سازماندهی استنتاج در مراکز داده به نام Dynamo، عملکرد استنتاج پردازنده‌های گرافیکی (GPU) خود را به طرز چشمگیری افزایش داده است. Dynamo، جانشین سرور استنتاج Triton، به گونه‌ای طراحی شده است تا به اپراتورهای مراکز داده کمک کند تا درآمد حاصل از تولید توکن مدل‌های زبان بزرگ (LLM) را به حداکثر برسانند. برای پردازنده‌های گرافیکی نسل Hopper، این نرم‌افزار جدید قبلاً عملکرد توکن بر ثانیه به ازای هر کاربر را ۳۰ برابر افزایش داده است. اما چگونه کار می‌کند؟

یان باک، معاون و مدیر کل بخش هایپراسکیل و محاسبات با عملکرد بالا (HPC) در انویدیا، گفت: «این یک بده‌بستان است. من می‌توانم مقدار توکن‌های یک کاربر را با مقدار کل توکن‌های کارخانه هوش مصنوعی‌ام مبادله کنم... کاری که روی پردازنده‌های گرافیکی ما انجام می‌شود، بهینه‌سازی کلی کارخانه هوش مصنوعی است.»

نقطه بهینه در این بده‌بستان برای سودآوری کارخانه هوش مصنوعی حیاتی است و ممکن است برای کاربردهای مختلف متفاوت باشد - به عنوان مثال، برای تحقیقات عمیق که نیازی به تعاملی بودن ندارند، در مقابل چت‌بات‌ها که به سرعت بسیار بالای توکن برای هر کاربر نیاز دارند.

باک گفت: «هیچ‌کس استنتاج با دسته (batch) برابر با یک را اجرا نمی‌کند. هیچ کارخانه هوش مصنوعی این کار را کاملاً آفلاین انجام نمی‌دهد؛ همه آن‌ها در تلاشند تا بهترین سرویس، بهترین تجربه کاربری را ارائه دهند و همچنین کارایی پردازنده گرافیکی خود، هزینه کل به ازای هر توکن و البته درآمدها را به حداکثر برسانند.»

کارخانه هوش مصنوعی امروزی با پیاده‌سازی‌های اولیه که در آن یک سرور GPU می‌توانست یک LLM را اجرا کند، بسیار متفاوت است - ممکن است صدها هزار GPU در حال اجرای مدل‌های متعدد باشند. باک با اشاره به اینکه DeepSeek-R1-671B دارای ۶۷۱ میلیارد پارامتر است و پیش از شروع تولید خروجی خود، ۱۰,۰۰۰ توکن «تفکر» تولید می‌کند، گفت که تکنیک‌های پیشرفته استنتاج مانند استدلال می‌توانند به هزاران توکن «تفکر» نیاز داشته باشند.

او گفت: «این مدل‌ها از این جهت ارزشمند هستند که هوش مصنوعی را به سطح کاملاً جدیدی از دانش، سودمندی و بهره‌وری سازمانی می‌رسانند و ما به یک پشته نرم‌افزاری نیاز داریم که بتواند این چالش را برآورده کند.»

Dynamo، که باک آن را «سیستم عامل کارخانه هوش مصنوعی» توصیف می‌کند، می‌تواند ناوگان بزرگی از پردازنده‌های گرافیکی را با هدف حذف هرگونه زمان انتظار برای داده مدیریت کند.

حافظه نهان کلید-مقدار (KV cache) – که عملاً حافظه کاری مدل است – اهمیت ویژه‌ای دارد. این حافظه نهان اطلاعات مربوط به سؤالات قبلی کاربر را ذخیره می‌کند تا زمینه را در کل مکالمه حفظ کند. کارخانه‌های هوش مصنوعی مدرن باید حافظه نهان KV را برای هر کاربر (به عنوان مثال، ChatGPT بیش از یک میلیارد کاربر ماهانه دارد) حفظ کنند، بدانند که این حافظه نهان برای هر کاربر روی کدام GPU قرار دارد تا درخواست‌های کاربر به GPU صحیح ارسال شود و در صورت لزوم با تغییرات هماهنگ شوند.

Dynamo شامل یک مکانیسم مسیریابی هوشمند است که سعی می‌کند از محاسبه مجدد مقادیر حافظه نهان KV در صورتی که قبلاً در جایی از سیستم وجود دارند، جلوگیری کند. داشتن نرخ برخورد (hit rate) بالا برای حافظه نهان KV، سرعت استنتاج را به طور قابل توجهی افزایش می‌دهد.

عامل حیاتی دیگر در افزایش عملکرد Dynamo، تفکیک‌پذیری (disaggregation) است. مدل‌های LLM مدرن برای اجرا بر روی یک GPU یا حتی یک سرور GPU بسیار بزرگ هستند. Dynamo برای تقسیم کارآمد مدل‌ها بین تعداد زیادی GPU برای بهترین عملکرد طراحی شده است.

Dynamo همچنین پردازش توکن‌های ورودی (مرحله پیش‌پر کردن یا pre-fill) را از تولید توکن‌های خروجی (مرحله رمزگشایی یا decode) جدا می‌کند. این دو بخش از حجم کاری به اندازه‌ای متفاوت هستند که اجرای جداگانه آن‌ها می‌تواند بهینه‌سازی‌هایی را امکان‌پذیر کند که منجر به مزایای عملکردی بزرگ می‌شود.

باک با اشاره به اینکه این به معنای دو برابر شدن درآمد برای مشتری است، گفت: «ما Llama-70B را روی یک خوشه Hopper اجرا کردیم و فعال کردن Dynamo توان عملیاتی آن مرکز داده Hopper را دو برابر کرد.» وی افزود: «برای مدل‌هایی مانند DeepSeek که ساختار ترکیب متخصصان (MoE یا mixture of experts) با ۲۵۷ متخصص در هر لایه دارند، توزیع متخصصان مختلف بر روی پردازنده‌های گرافیکی مختلف، سرعت را ۳۰ برابر افزایش داد. بنابراین، این نرم‌افزار واقعاً مهمی برای ماست که درباره آن صحبت کنیم.»

همانطور که باک توضیح داد، توکن‌های ورودی می‌توانند به صورت موازی پردازش شوند زیرا همه آن‌ها به طور همزمان به مدل ارائه می‌شوند - سؤال می‌تواند به یکباره دریافت شود. برای تولید، DeepSeek خودبازگشتی (autoregressive) است؛ یعنی هر توکن خروجی تولید شده به حافظه نهان KV اضافه می‌شود تا توکن بعدی، یک توکن در هر بار، تولید شود.

باک گفت: «با جدا کردن این دو مرحله، می‌توانم مرحله توکن ورودی را به طور چشمگیری فشرده کنم - می‌توانم آن را موازی‌سازی کنم، آن را به یک محاسبه متراکم FP4 تبدیل کنم و مدل را برای پردازش موازی تمام توکن‌های ورودی بهینه کنم.» وی افزود: «در سمت خروجی، می‌خواهم با توزیع آن تا حد امکان در کل رک NVL72، تا حد ممکن سریع اجرا کنم، بنابراین پهنای باند NVLink و دریافت هرچه بیشتر GPU برایم اهمیت بیشتری دارد.»

سیستم‌ها قبلاً برای دستیابی به نتیجه خوب در هر دو بخش حجم کاری متعادل می‌شدند، که دیگر بهینه نیست، به ویژه برای مدل‌های MoE بسیار بزرگ مانند DeepSeek. باک گفت، یک سال پیش، انویدیا مدلی با ۱۶ متخصص را بزرگ می‌دانست؛ DeepSeek دارای ۲۵۷ متخصص در هر لایه است.

مقاله DeepSeek-R1 نشان می‌دهد که آزمایشگاه تحقیقاتی هوش مصنوعی چینی از ۳۲ پردازنده گرافیکی برای مرحله پیش‌پر کردن/ورودی و حداقل ۳۲۰ پردازنده گرافیکی برای مرحله تولید/خروجی استفاده کرده است، اگرچه آنها مجبور بودند نرم‌افزار خود را بنویسند تا هسته‌های محاسباتی انویدیا را به موتورهای دسترسی مستقیم به حافظه (DMA یا direct memory access) سفارشی تبدیل کنند تا این کار را انجام دهند.

باک گفت که از زمان راه‌اندازی، استنتاج DeepSeek-R1 از حدود ۵۰ توکن «تفکر» در ثانیه بر روی سخت‌افزار نسل Hopper به حدود ۱۲۰ توکن بر ثانیه در پردازنده‌های گرافیکی نسل بعدی B200 بهبود یافته است. او گفت هدف انویدیا برای B200، ۳۵۰ توکن در ثانیه است، در حالی که GB300 به DeepSeek-R1 اجازه می‌دهد تا با سرعتی نزدیک به ۱۰۰۰ توکن در ثانیه «تفکر» کند و عملاً در زمان واقعی عمل نماید.

در حالی که سخت‌افزار جدید با هر نسل نرخ توکن را بهبود می‌بخشد، نوآوری‌های زیادی نیز از نرم‌افزارهای جدیدی مانند Dynamo همراه با هسته‌ها (kernels) و بهینه‌سازی‌های جدید از تیم‌های انویدیا و جامعه CUDA حاصل خواهد شد.

باک گفت: «مأموریت Dynamo ارائه تفکیک‌پذیری است که عملکرد را بهبود می‌بخشد و مدیریت ناوگانی از پردازنده‌های گرافیکی در سراسر زیرساخت و فعال نگه داشتن آن‌هاست.»

او افزود: «مأموریت ما سرعت بخشیدن حداکثری به کارخانه‌های هوش مصنوعی است - استنتاج فوق‌العاده سخت است.»