NVIDIA دینامو (Dynamo) را راهاندازی کرده است، یک نرمافزار استنتاج متنباز که برای تسریع و مقیاسبندی مدلهای استدلال در کارخانههای هوش مصنوعی طراحی شده است.
مدیریت و هماهنگی کارآمد درخواستهای استنتاج هوش مصنوعی در سراسر ناوگان GPU یک تلاش حیاتی است تا اطمینان حاصل شود که کارخانههای هوش مصنوعی میتوانند با مقرونبهصرفهترین هزینه کار کنند و تولید درآمد توکن را به حداکثر برسانند.
از آنجایی که استدلال هوش مصنوعی به طور فزایندهای رایج میشود، انتظار میرود که هر مدل هوش مصنوعی با هر درخواست، دهها هزار توکن تولید کند که اساساً نشاندهنده فرآیند "تفکر" آن است. بنابراین، افزایش عملکرد استنتاج و در عین حال کاهش هزینه آن، برای تسریع رشد و افزایش فرصتهای درآمدزایی برای ارائهدهندگان خدمات بسیار مهم است.
نسل جدیدی از نرمافزار استنتاج هوش مصنوعی
NVIDIA Dynamo، که جانشین NVIDIA Triton Inference Server است، نشاندهنده نسل جدیدی از نرمافزار استنتاج هوش مصنوعی است که بهطور خاص برای به حداکثر رساندن تولید درآمد توکن برای کارخانههای هوش مصنوعی که مدلهای هوش مصنوعی استدلالی را مستقر میکنند، طراحی شده است.
Dynamo ارتباطات استنتاج را در سراسر هزاران GPU احتمالی سازماندهی و تسریع میکند. این نرمافزار از سرویسدهی جداگانه استفاده میکند، تکنیکی که فازهای پردازش و تولید مدلهای زبان بزرگ (LLM) را بر روی GPUهای متمایز جدا میکند. این رویکرد به هر فاز اجازه میدهد تا بهطور مستقل بهینهسازی شود، نیازهای محاسباتی خاص خود را برآورده کند و از حداکثر استفاده از منابع GPU اطمینان حاصل کند.
جنسن هوانگ (Jensen Huang)، بنیانگذار و مدیرعامل NVIDIA، اظهار داشت: «صنایع در سراسر جهان در حال آموزش مدلهای هوش مصنوعی هستند تا به روشهای مختلف فکر کنند و یاد بگیرند و با گذشت زمان پیچیدهتر شوند.» «برای فعال کردن آیندهای از هوش مصنوعی استدلالی سفارشی، NVIDIA Dynamo به ارائه این مدلها در مقیاس کمک میکند و باعث صرفهجویی در هزینه و کارایی در سراسر کارخانههای هوش مصنوعی میشود.»
Dynamo با استفاده از همان تعداد GPU، توانایی دو برابر کردن عملکرد و درآمد کارخانههای هوش مصنوعی را که مدلهای Llama را روی پلتفرم Hopper فعلی NVIDIA ارائه میدهند، نشان داده است. علاوه بر این، هنگام اجرای مدل DeepSeek-R1 روی یک خوشه بزرگ از رکهای GB200 NVL72، بهینهسازیهای استنتاج هوشمند NVIDIA Dynamo نشان داده است که تعداد توکنهای تولید شده را بیش از 30 برابر در هر GPU افزایش میدهد.
برای دستیابی به این پیشرفتها در عملکرد استنتاج، NVIDIA Dynamo چندین ویژگی کلیدی را در خود جای داده است که برای افزایش توان عملیاتی و کاهش هزینههای عملیاتی طراحی شدهاند.
Dynamo میتواند به صورت پویا GPUها را در زمان واقعی اضافه، حذف و دوباره تخصیص دهد تا با حجم و انواع درخواستهای متغیر سازگار شود. این نرمافزار همچنین میتواند GPUهای خاصی را در خوشههای بزرگ شناسایی کند که برای به حداقل رساندن محاسبات پاسخ و مسیریابی کارآمد پرسوجوها مناسبتر هستند. Dynamo همچنین میتواند دادههای استنتاج را به حافظه و دستگاههای ذخیرهسازی مقرونبهصرفهتر منتقل کند و در صورت نیاز به سرعت آن را بازیابی کند و در نتیجه هزینههای کلی استنتاج را به حداقل برساند.
NVIDIA Dynamo به عنوان یک پروژه کاملاً متنباز منتشر میشود و سازگاری گستردهای با چارچوبهای محبوب مانند PyTorch، SGLang، NVIDIA TensorRT-LLM و vLLM ارائه میدهد. این رویکرد باز از شرکتها، استارتآپها و محققان در توسعه و بهینهسازی روشهای جدید برای ارائه مدلهای هوش مصنوعی در سراسر زیرساختهای استنتاج جداگانه پشتیبانی میکند.
NVIDIA انتظار دارد که Dynamo پذیرش استنتاج هوش مصنوعی را در طیف گستردهای از سازمانها، از جمله ارائهدهندگان اصلی ابر و نوآوران هوش مصنوعی مانند AWS، Cohere، CoreWeave، Dell، Fireworks، Google Cloud، Lambda، Meta، Microsoft Azure، Nebius، NetApp، OCI، Perplexity، Together AI و VAST تسریع بخشد.
NVIDIA Dynamo: سوپرشارژ استنتاج و هوش مصنوعی عاملمحور
یکی از نوآوریهای کلیدی NVIDIA Dynamo در توانایی آن در ترسیم دانش است که سیستمهای استنتاج در حافظه از ارائه درخواستهای قبلی، معروف به KV cache، در سراسر هزاران GPU احتمالی نگهداری میکنند.
این نرمافزار سپس به طور هوشمندانه درخواستهای استنتاج جدید را به GPUهایی هدایت میکند که بهترین تطابق دانش را دارند، به طور موثر از محاسبات مجدد پرهزینه جلوگیری میکند و سایر GPUها را برای رسیدگی به درخواستهای ورودی جدید آزاد میکند. این مکانیسم مسیریابی هوشمند به طور قابل توجهی کارایی را افزایش میدهد و تأخیر را کاهش میدهد.
دنیس یاراتس (Denis Yarats)، مدیر ارشد فناوری Perplexity AI، گفت: «برای رسیدگی به صدها میلیون درخواست در ماه، ما به GPUهای NVIDIA و نرمافزار استنتاج برای ارائه عملکرد، قابلیت اطمینان و مقیاسی که کسبوکار و کاربران ما میخواهند، تکیه میکنیم.»
«ما مشتاقانه منتظر استفاده از Dynamo، با قابلیتهای پیشرفته سرویسدهی توزیعشده آن، برای افزایش بیشتر کارایی سرویسدهی استنتاج و برآورده کردن خواستههای محاسباتی مدلهای استدلال هوش مصنوعی جدید هستیم.»
پلتفرم هوش مصنوعی Cohere در حال حاضر در حال برنامهریزی برای استفاده از NVIDIA Dynamo برای افزایش قابلیتهای هوش مصنوعی عاملمحور در سری مدلهای Command خود است.
سوراب باجی (Saurabh Baji)، معاون ارشد مهندسی در Cohere، توضیح داد: «مقیاسبندی مدلهای هوش مصنوعی پیشرفته نیازمند زمانبندی پیچیده چند GPU، هماهنگی یکپارچه و کتابخانههای ارتباطی با تأخیر کم است که زمینههای استدلال را به طور یکپارچه در سراسر حافظه و فضای ذخیرهسازی منتقل میکنند.»
«ما انتظار داریم NVIDIA Dynamo به ما کمک کند تا یک تجربه کاربری برتر را به مشتریان سازمانی خود ارائه دهیم.»
پشتیبانی از سرویسدهی جداگانه
پلتفرم استنتاج NVIDIA Dynamo همچنین از پشتیبانی قوی برای سرویسدهی جداگانه برخوردار است. این تکنیک پیشرفته، فازهای محاسباتی مختلف LLMها - از جمله مراحل مهم درک درخواست کاربر و سپس تولید مناسبترین پاسخ - را به GPUهای مختلف در داخل زیرساخت اختصاص میدهد.
سرویسدهی جداگانه بهویژه برای مدلهای استدلال، مانند خانواده مدل جدید NVIDIA Llama Nemotron، که از تکنیکهای استنتاج پیشرفته برای درک متنی و تولید پاسخ بهبود یافته استفاده میکند، مناسب است. با اجازه دادن به هر فاز برای تنظیم دقیق و تخصیص منابع به طور مستقل، سرویسدهی جداگانه توان عملیاتی کلی را بهبود میبخشد و زمان پاسخگویی سریعتری را به کاربران ارائه میدهد.
Together AI، یک بازیگر برجسته در فضای ابر شتابدهنده هوش مصنوعی، نیز به دنبال ادغام موتور استنتاج اختصاصی خود Together Inference Engine با NVIDIA Dynamo است. هدف این ادغام، فعال کردن مقیاسبندی یکپارچه حجمهای کاری استنتاج در چندین گره GPU است. علاوه بر این، به Together AI اجازه میدهد تا به صورت پویا به گلوگاههای ترافیکی که ممکن است در مراحل مختلف خط لوله مدل ایجاد شوند، رسیدگی کند.
Ce Zhang، مدیر ارشد فناوری Together AI، اظهار داشت: «مقیاسبندی مقرونبهصرفه مدلهای استدلال نیازمند تکنیکهای استنتاج پیشرفته جدید، از جمله سرویسدهی جداگانه و مسیریابی آگاه از متن است.»
«باز بودن و مدولار بودن NVIDIA Dynamo به ما این امکان را میدهد که اجزای آن را به طور یکپارچه به موتور خود متصل کنیم تا درخواستهای بیشتری را ارائه دهیم و در عین حال استفاده از منابع را بهینه کنیم - و سرمایهگذاری محاسباتی شتابیافته خود را به حداکثر برسانیم. ما هیجانزده هستیم که از قابلیتهای پیشگامانه این پلتفرم برای ارائه مقرونبهصرفه مدلهای استدلال متنباز به کاربران خود استفاده کنیم.»
چهار نوآوری کلیدی NVIDIA Dynamo
NVIDIA چهار نوآوری کلیدی را در Dynamo برجسته کرده است که به کاهش هزینههای سرویسدهی استنتاج و افزایش تجربه کلی کاربر کمک میکند:
- برنامهریز GPU: یک موتور برنامهریزی پیچیده که GPUها را به صورت پویا بر اساس تقاضای متغیر کاربر اضافه و حذف میکند. این امر تخصیص بهینه منابع را تضمین میکند و از تخصیص بیش از حد و تخصیص کمتر ظرفیت GPU جلوگیری میکند.
- روتر هوشمند: یک روتر هوشمند و آگاه از LLM که درخواستهای استنتاج را در سراسر ناوگان بزرگ GPU هدایت میکند. وظیفه اصلی آن به حداقل رساندن محاسبات مجدد پرهزینه GPU درخواستهای تکراری یا همپوشانی است، در نتیجه منابع ارزشمند GPU را برای رسیدگی کارآمدتر به درخواستهای ورودی جدید آزاد میکند.
- کتابخانه ارتباطی با تأخیر کم: یک کتابخانه بهینهسازیشده برای استنتاج که برای پشتیبانی از ارتباطات GPU به GPU پیشرفته طراحی شده است. این کتابخانه پیچیدگیهای تبادل داده در سراسر دستگاههای ناهمگن را خلاصه میکند و سرعت انتقال داده را به طور قابل توجهی تسریع میکند.
- مدیر حافظه: یک موتور هوشمند که مدیریت تخلیه و بارگیری مجدد دادههای استنتاج به و از حافظه و دستگاههای ذخیرهسازی کمهزینهتر را بر عهده دارد. این فرآیند به گونهای طراحی شده است که یکپارچه باشد و هیچ تأثیر منفی بر تجربه کاربر نداشته باشد.
NVIDIA Dynamo در ریزسرویسهای NIM در دسترس خواهد بود و در نسخه آینده پلتفرم نرمافزاری هوش مصنوعی سازمانی این شرکت پشتیبانی خواهد شد.
همچنین ببینید: LG EXAONE Deep یک متخصص ریاضیات، علوم و برنامهنویسی است
درباره نویسنده
رایان داوز، سردبیر ارشد
رایان داوز (Ryan Daws) سردبیر ارشد TechForge Media با بیش از یک دهه تجربه در ساختن روایتهای جذاب و قابل دسترس کردن موضوعات پیچیده است. مقالات و مصاحبههای او با رهبران صنعت، او را به عنوان یک فرد تأثیرگذار کلیدی توسط سازمانهایی مانند Onalytica به رسمیت شناخته است. تحت رهبری او، نشریات توسط شرکتهای تحلیلگر مانند Forrester برای برتری و عملکرد مورد تحسین قرار گرفتهاند. با او در X (@gadget_ry)، Bluesky (@gadgetry.bsky.social) و/یا Mastodon (@[email protected]) در ارتباط باشید.