GTC در کنفرانس فناوری پردازندههای گرافیکی (GPU Technology Conference) این هفته, Blackwell Ultra و پردازندههای مرکزی (CPU) و پردازندههای گرافیکی (GPU) آینده Vera و Rubin انویدیا، بحثهای اصلی را به خود اختصاص دادند. اما به جرات میتوان گفت که یکی از مهمترین اعلامیههای این رویداد سالانه توسعهدهندگان، اصلاً یک تراشه نبود، بلکه یک چارچوب نرمافزاری به نام Dynamo بود که برای مقابله با چالشهای استنتاج هوش مصنوعی در مقیاس بزرگ طراحی شده است.
این چارچوب که در GTC اعلام شد، توسط مدیرعامل، جنسن هوانگ، به عنوان "سیستم عامل یک کارخانه هوش مصنوعی" توصیف شد و با دیناموهای دنیای واقعی که آغازگر یک انقلاب صنعتی بودند، مقایسه شد. مدیرعامل اجرایی گفت: "دینامو اولین ابزاری بود که انقلاب صنعتی اخیر را آغاز کرد. انقلاب صنعتی انرژی - آب وارد میشود، برق خارج میشود."
در هسته خود، مجموعه استنتاج متنباز برای بهینهسازی بهتر موتورهای استنتاج مانند TensorRT LLM، SGLang و vLLM طراحی شده است تا در مقادیر زیادی از پردازندههای گرافیکی (GPU) با سرعت و کارایی هرچه بیشتر اجرا شوند.
همانطور که قبلاً بحث کردیم، هرچه سریعتر و ارزانتر بتوانید توکنها را از یک مدل بیرون بیاورید، تجربه بهتری برای کاربران ایجاد میشود.
استنتاج دشوارتر از آن چیزی است که به نظر میرسد
در سطح بالا، عملکرد خروجی مدلهای زبانی بزرگ (LLM) را میتوان به دو دسته گسترده تقسیم کرد: پیشپردازش (Prefill) و رمزگشایی (Decode). پیشپردازش توسط سرعت پردازش ورودی توسط شتابدهندههای ریاضی ماتریس ممیز شناور (floating-point matrix math accelerators) پردازنده گرافیکی تعیین میشود. هرچه درخواست طولانیتر باشد - مثلاً یک وظیفه خلاصهسازی - معمولاً زمان بیشتری طول میکشد.
از طرف دیگر، رمزگشایی، همان چیزی است که بیشتر مردم با عملکرد LLM مرتبط میدانند و برابر است با سرعت تولید توکنهای واقعی توسط پردازندههای گرافیکی به عنوان پاسخی به درخواست کاربر.
تا زمانی که پردازنده گرافیکی شما حافظه کافی برای جای دادن مدل داشته باشد، عملکرد رمزگشایی معمولاً تابعی از سرعت آن حافظه و تعداد توکنهایی است که تولید میکنید. یک پردازنده گرافیکی با پهنای باند حافظه 8 ترابایت بر ثانیه، توکنها را بیش از دو برابر سریعتر از یک پردازنده گرافیکی با 3.35 ترابایت بر ثانیه تولید میکند.
زمانی که شروع به ارائه مدلهای بزرگتر به افراد بیشتر با توالیهای ورودی و خروجی طولانیتر میکنید، مانند آنچه ممکن است در یک دستیار تحقیقاتی هوش مصنوعی یا مدل استدلال ببینید، اوضاع پیچیده میشود.
به گفته هوانگ: "در زیر مرز پارتو (Pareto frontier) میلیونها نقطه وجود دارد که میتوانستیم مرکز داده را برای انجام آن پیکربندی کنیم. ما میتوانستیم کار را به روشهای مختلف موازی و تقسیم و تکهتکه کنیم."
منظور او این است که بسته به نحوه موازیسازی مدل شما، ممکن است بتوانید به میلیونها کاربر همزمان سرویس دهید، اما فقط با 10 توکن در ثانیه برای هر کاربر. در همین حال، ترکیب دیگری فقط میتواند به چند هزار درخواست همزمان سرویس دهد، اما صدها توکن را در یک چشم به هم زدن تولید کند.
به گفته هوانگ، اگر بتوانید تشخیص دهید که حجم کاری شما در کجای این منحنی، ترکیب ایدهآلی از عملکرد فردی را ارائه میدهد و در عین حال حداکثر توان عملیاتی ممکن را نیز به دست میآورید، میتوانید هزینه بیشتری را برای خدمات خود دریافت کنید و در عین حال هزینههای عملیاتی را نیز کاهش دهید. ما تصور میکنیم که این عمل متعادلسازی حداقل برخی از ارائهدهندگان LLM هنگام مقیاسبندی برنامهها و خدمات مولد خود برای مشتریان بیشتر و بیشتر انجام میدهند.
به کار انداختن Dynamo
به ما گفته شده است که یافتن این حد وسط خوشایند بین عملکرد و توان عملیاتی یکی از قابلیتهای اصلی ارائه شده توسط Dynamo است.
علاوه بر ارائه بینش به کاربران در مورد اینکه ترکیب ایدهآل تخصص، خط لوله یا موازیسازی تانسور (tensor parallelism) چیست، Dynamo پیشپردازش و رمزگشایی را روی شتابدهندههای مختلف جدا میکند.
به گفته انویدیا، یک برنامهریز پردازنده گرافیکی با Dynamo تعیین میکند که چه تعداد شتابدهنده باید بر اساس تقاضا به پیشپردازش و رمزگشایی اختصاص داده شوند.
با این حال، Dynamo فقط یک پروفایلر پردازنده گرافیکی نیست. این چارچوب همچنین شامل قابلیت مسیریابی سریع (prompt routing functionality) است که درخواستهای همپوشانی را شناسایی میکند و آنها را به گروههای خاصی از پردازندههای گرافیکی هدایت میکند تا احتمال برخورد حافظه کلید-مقدار (KV) را به حداکثر برساند.
اگر با حافظه KV آشنا نیستید، این حافظه نشاندهنده وضعیت مدل در هر زمان معین است. بنابراین، اگر چندین کاربر سؤالات مشابهی را در مدت کوتاهی بپرسند، مدل میتواند به جای محاسبه مجدد وضعیت مدل بارها و بارها، از این حافظه استفاده کند.
در کنار مسیریاب هوشمند، Dynamo همچنین دارای یک کتابخانه ارتباطی با تأخیر کم برای سرعت بخشیدن به جریان دادههای پردازنده گرافیکی به پردازنده گرافیکی و یک زیرسیستم مدیریت حافظه است که مسئول انتقال دادههای حافظه KV از HBM به حافظه سیستم یا فضای ذخیرهسازی سرد یا برعکس است تا پاسخگویی را به حداکثر برساند و زمانهای انتظار را به حداقل برساند.
انویدیا ادعا میکند که Dynamo میتواند به طور موثری عملکرد استنتاج را برای سیستمهای مبتنی بر Hopper که مدلهای Llama را اجرا میکنند، دو برابر کند. در همین حال، این غول پردازنده گرافیکی ادعا میکند که برای سیستمهای بزرگتر Blackwell NVL72، یک مزیت 30 برابری در DeepSeek-R1 نسبت به Hopper با فعال بودن این چارچوب وجود دارد.
- انویدیا هفتهها پس از آنکه مدیرعامل گفت دهها سال با مفید بودن فاصله دارد، در محاسبات کوانتومی سرمایهگذاری میکند
- نقشه راه Vera Rubin CPU و GPU انویدیا مسیری را برای رگههای داغ 600 کیلووات ترسیم میکند
- انویدیا میخواهد با DGX Station و Spark PC، یک GB300 Superchip را روی میز شما قرار دهد
- شنیدهایم که HBM را دوست دارید - پردازندههای گرافیکی Blackwell Ultra انویدیا 288 گیگابایت از آن را خواهند داشت
سازگاری گسترده
در حالی که Dynamo بدیهی است که برای سختافزار و پشتههای نرمافزاری انویدیا تنظیم شده است، مانند Triton Inference Server که جایگزین آن میشود، این چارچوب برای ادغام با کتابخانههای نرمافزاری محبوب برای ارائه مدل، مانند vLLM، PyTorch و SGLang طراحی شده است.
این بدان معناست که اگر در یک محیط محاسباتی ناهمگن کار میکنید که علاوه بر پردازندههای گرافیکی انویدیا، شامل تعدادی شتابدهنده AMD یا Intel نیز میشود، نیازی به واجد شرایط کردن و نگهداری یک موتور استنتاج دیگر ندارید و در عوض میتوانید به vLLM یا SGLang پایبند باشید اگر این همان چیزی است که قبلاً از آن استفاده میکنید.
بدیهی است که Dynamo با سختافزار AMD یا Intel کار نخواهد کرد، اما روی هر پردازنده گرافیکی انویدیا که به Ampere بازمیگردد، اجرا میشود. بنابراین، اگر هنوز هم در تلاش برای استفاده از تعداد زیادی A100 هستید، همچنان میتوانید از سیستم عامل هوش مصنوعی جدید انویدیا بهرهمند شوید.
انویدیا قبلاً دستورالعملهایی را برای راهاندازی Dynamo در GitHub منتشر کرده است و همچنین این چارچوب را به عنوان یک تصویر کانتینری - یا NIM همانطور که آنها آن را نامیدهاند - برای سهولت استقرار ارائه میدهد.
اکنون بخوانید: انویدیا چشم هوش مصنوعی خود را به سمت شرکتها میچرخاند