همانطور که از این اسلاید ارائه‌شده توسط جنسن هوانگ، مدیرعامل انویدیا، مشاهده می‌کنید، عملکرد استنتاج می‌تواند
  بسته به نحوه توزیع یک مدل، بسیار متفاوت باشد. این نمودار توکن‌ها در ثانیه را برای یک کاربر در مقابل کل توکن‌ها در
  ثانیه در هر مگاوات نشان می‌دهد ... برای بزرگنمایی کلیک کنید.
همانطور که از این اسلاید ارائه‌شده توسط جنسن هوانگ، مدیرعامل انویدیا، مشاهده می‌کنید، عملکرد استنتاج می‌تواند بسته به نحوه توزیع یک مدل، بسیار متفاوت باشد. این نمودار توکن‌ها در ثانیه را برای یک کاربر در مقابل کل توکن‌ها در ثانیه در هر مگاوات نشان می‌دهد ... برای بزرگنمایی کلیک کنید.

نگاهی دقیق‌تر به Dynamo، 'سیستم عامل' انویدیا برای استنتاج هوش مصنوعی

غول پردازنده‌های گرافیکی ادعا می‌کند که این فناوری می‌تواند توان عملیاتی را برای Hopper تا 2 برابر و برای Blackwell تا 30 برابر افزایش دهد

GTC در کنفرانس فناوری پردازنده‌های گرافیکی (GPU Technology Conference) این هفته, Blackwell Ultra و پردازنده‌های مرکزی (CPU) و پردازنده‌های گرافیکی (GPU) آینده Vera و Rubin انویدیا، بحث‌های اصلی را به خود اختصاص دادند. اما به جرات می‌توان گفت که یکی از مهم‌ترین اعلامیه‌های این رویداد سالانه توسعه‌دهندگان، اصلاً یک تراشه نبود، بلکه یک چارچوب نرم‌افزاری به نام Dynamo بود که برای مقابله با چالش‌های استنتاج هوش مصنوعی در مقیاس بزرگ طراحی شده است.

این چارچوب که در GTC اعلام شد، توسط مدیرعامل، جنسن هوانگ، به عنوان "سیستم عامل یک کارخانه هوش مصنوعی" توصیف شد و با دیناموهای دنیای واقعی که آغازگر یک انقلاب صنعتی بودند، مقایسه شد. مدیرعامل اجرایی گفت: "دینامو اولین ابزاری بود که انقلاب صنعتی اخیر را آغاز کرد. انقلاب صنعتی انرژی - آب وارد می‌شود، برق خارج می‌شود."

در هسته خود، مجموعه استنتاج متن‌باز برای بهینه‌سازی بهتر موتورهای استنتاج مانند TensorRT LLM، SGLang و vLLM طراحی شده است تا در مقادیر زیادی از پردازنده‌های گرافیکی (GPU) با سرعت و کارایی هرچه بیشتر اجرا شوند.

همانطور که قبلاً بحث کردیم، هرچه سریع‌تر و ارزان‌تر بتوانید توکن‌ها را از یک مدل بیرون بیاورید، تجربه بهتری برای کاربران ایجاد می‌شود.

استنتاج دشوارتر از آن چیزی است که به نظر می‌رسد

در سطح بالا، عملکرد خروجی مدل‌های زبانی بزرگ (LLM) را می‌توان به دو دسته گسترده تقسیم کرد: پیش‌پردازش (Prefill) و رمزگشایی (Decode). پیش‌پردازش توسط سرعت پردازش ورودی توسط شتاب‌دهنده‌های ریاضی ماتریس ممیز شناور (floating-point matrix math accelerators) پردازنده گرافیکی تعیین می‌شود. هرچه درخواست طولانی‌تر باشد - مثلاً یک وظیفه خلاصه‌سازی - معمولاً زمان بیشتری طول می‌کشد.

از طرف دیگر، رمزگشایی، همان چیزی است که بیشتر مردم با عملکرد LLM مرتبط می‌دانند و برابر است با سرعت تولید توکن‌های واقعی توسط پردازنده‌های گرافیکی به عنوان پاسخی به درخواست کاربر.

تا زمانی که پردازنده گرافیکی شما حافظه کافی برای جای دادن مدل داشته باشد، عملکرد رمزگشایی معمولاً تابعی از سرعت آن حافظه و تعداد توکن‌هایی است که تولید می‌کنید. یک پردازنده گرافیکی با پهنای باند حافظه 8 ترابایت بر ثانیه، توکن‌ها را بیش از دو برابر سریع‌تر از یک پردازنده گرافیکی با 3.35 ترابایت بر ثانیه تولید می‌کند.

زمانی که شروع به ارائه مدل‌های بزرگ‌تر به افراد بیشتر با توالی‌های ورودی و خروجی طولانی‌تر می‌کنید، مانند آنچه ممکن است در یک دستیار تحقیقاتی هوش مصنوعی یا مدل استدلال ببینید، اوضاع پیچیده می‌شود.

به گفته هوانگ: "در زیر مرز پارتو (Pareto frontier) میلیون‌ها نقطه وجود دارد که می‌توانستیم مرکز داده را برای انجام آن پیکربندی کنیم. ما می‌توانستیم کار را به روش‌های مختلف موازی و تقسیم و تکه‌تکه کنیم."

منظور او این است که بسته به نحوه موازی‌سازی مدل شما، ممکن است بتوانید به میلیون‌ها کاربر همزمان سرویس دهید، اما فقط با 10 توکن در ثانیه برای هر کاربر. در همین حال، ترکیب دیگری فقط می‌تواند به چند هزار درخواست همزمان سرویس دهد، اما صدها توکن را در یک چشم به هم زدن تولید کند.

به گفته هوانگ، اگر بتوانید تشخیص دهید که حجم کاری شما در کجای این منحنی، ترکیب ایده‌آلی از عملکرد فردی را ارائه می‌دهد و در عین حال حداکثر توان عملیاتی ممکن را نیز به دست می‌آورید، می‌توانید هزینه بیشتری را برای خدمات خود دریافت کنید و در عین حال هزینه‌های عملیاتی را نیز کاهش دهید. ما تصور می‌کنیم که این عمل متعادل‌سازی حداقل برخی از ارائه‌دهندگان LLM هنگام مقیاس‌بندی برنامه‌ها و خدمات مولد خود برای مشتریان بیشتر و بیشتر انجام می‌دهند.

به کار انداختن Dynamo

به ما گفته شده است که یافتن این حد وسط خوشایند بین عملکرد و توان عملیاتی یکی از قابلیت‌های اصلی ارائه شده توسط Dynamo است.

علاوه بر ارائه بینش به کاربران در مورد اینکه ترکیب ایده‌آل تخصص، خط لوله یا موازی‌سازی تانسور (tensor parallelism) چیست، Dynamo پیش‌پردازش و رمزگشایی را روی شتاب‌دهنده‌های مختلف جدا می‌کند.

به گفته انویدیا، یک برنامه‌ریز پردازنده گرافیکی با Dynamo تعیین می‌کند که چه تعداد شتاب‌دهنده باید بر اساس تقاضا به پیش‌پردازش و رمزگشایی اختصاص داده شوند.

با این حال، Dynamo فقط یک پروفایلر پردازنده گرافیکی نیست. این چارچوب همچنین شامل قابلیت مسیریابی سریع (prompt routing functionality) است که درخواست‌های همپوشانی را شناسایی می‌کند و آنها را به گروه‌های خاصی از پردازنده‌های گرافیکی هدایت می‌کند تا احتمال برخورد حافظه کلید-مقدار (KV) را به حداکثر برساند.

اگر با حافظه KV آشنا نیستید، این حافظه نشان‌دهنده وضعیت مدل در هر زمان معین است. بنابراین، اگر چندین کاربر سؤالات مشابهی را در مدت کوتاهی بپرسند، مدل می‌تواند به جای محاسبه مجدد وضعیت مدل بارها و بارها، از این حافظه استفاده کند.

در کنار مسیریاب هوشمند، Dynamo همچنین دارای یک کتابخانه ارتباطی با تأخیر کم برای سرعت بخشیدن به جریان داده‌های پردازنده گرافیکی به پردازنده گرافیکی و یک زیرسیستم مدیریت حافظه است که مسئول انتقال داده‌های حافظه KV از HBM به حافظه سیستم یا فضای ذخیره‌سازی سرد یا برعکس است تا پاسخگویی را به حداکثر برساند و زمان‌های انتظار را به حداقل برساند.

انویدیا ادعا می‌کند که Dynamo می‌تواند به طور موثری عملکرد استنتاج را برای سیستم‌های مبتنی بر Hopper که مدل‌های Llama را اجرا می‌کنند، دو برابر کند. در همین حال، این غول پردازنده گرافیکی ادعا می‌کند که برای سیستم‌های بزرگتر Blackwell NVL72، یک مزیت 30 برابری در DeepSeek-R1 نسبت به Hopper با فعال بودن این چارچوب وجود دارد.

سازگاری گسترده

در حالی که Dynamo بدیهی است که برای سخت‌افزار و پشته‌های نرم‌افزاری انویدیا تنظیم شده است، مانند Triton Inference Server که جایگزین آن می‌شود، این چارچوب برای ادغام با کتابخانه‌های نرم‌افزاری محبوب برای ارائه مدل، مانند vLLM، PyTorch و SGLang طراحی شده است.

این بدان معناست که اگر در یک محیط محاسباتی ناهمگن کار می‌کنید که علاوه بر پردازنده‌های گرافیکی انویدیا، شامل تعدادی شتاب‌دهنده AMD یا Intel نیز می‌شود، نیازی به واجد شرایط کردن و نگهداری یک موتور استنتاج دیگر ندارید و در عوض می‌توانید به vLLM یا SGLang پایبند باشید اگر این همان چیزی است که قبلاً از آن استفاده می‌کنید.

بدیهی است که Dynamo با سخت‌افزار AMD یا Intel کار نخواهد کرد، اما روی هر پردازنده گرافیکی انویدیا که به Ampere بازمی‌گردد، اجرا می‌شود. بنابراین، اگر هنوز هم در تلاش برای استفاده از تعداد زیادی A100 هستید، همچنان می‌توانید از سیستم عامل هوش مصنوعی جدید انویدیا بهره‌مند شوید.

انویدیا قبلاً دستورالعمل‌هایی را برای راه‌اندازی Dynamo در GitHub منتشر کرده است و همچنین این چارچوب را به عنوان یک تصویر کانتینری - یا NIM همانطور که آنها آن را نامیده‌اند - برای سهولت استقرار ارائه می‌دهد.

اکنون بخوانید: انویدیا چشم هوش مصنوعی خود را به سمت شرکت‌ها می‌چرخاند