NVIDIA Dynamo: مقیاس‌بندی استنتاج هوش مصنوعی با کارایی متن‌باز

NVIDIA دینامو (Dynamo) را راه‌اندازی کرده است، یک نرم‌افزار استنتاج متن‌باز که برای تسریع و مقیاس‌بندی مدل‌های استدلال در کارخانه‌های هوش مصنوعی طراحی شده است.

مدیریت و هماهنگی کارآمد درخواست‌های استنتاج هوش مصنوعی در سراسر ناوگان GPU یک تلاش حیاتی است تا اطمینان حاصل شود که کارخانه‌های هوش مصنوعی می‌توانند با مقرون‌به‌صرفه‌ترین هزینه کار کنند و تولید درآمد توکن را به حداکثر برسانند.

از آنجایی که استدلال هوش مصنوعی به طور فزاینده‌ای رایج می‌شود، انتظار می‌رود که هر مدل هوش مصنوعی با هر درخواست، ده‌ها هزار توکن تولید کند که اساساً نشان‌دهنده فرآیند "تفکر" آن است. بنابراین، افزایش عملکرد استنتاج و در عین حال کاهش هزینه آن، برای تسریع رشد و افزایش فرصت‌های درآمدزایی برای ارائه‌دهندگان خدمات بسیار مهم است.

نسل جدیدی از نرم‌افزار استنتاج هوش مصنوعی

NVIDIA Dynamo، که جانشین NVIDIA Triton Inference Server است، نشان‌دهنده نسل جدیدی از نرم‌افزار استنتاج هوش مصنوعی است که به‌طور خاص برای به حداکثر رساندن تولید درآمد توکن برای کارخانه‌های هوش مصنوعی که مدل‌های هوش مصنوعی استدلالی را مستقر می‌کنند، طراحی شده است.

Dynamo ارتباطات استنتاج را در سراسر هزاران GPU احتمالی سازماندهی و تسریع می‌کند. این نرم‌افزار از سرویس‌دهی جداگانه استفاده می‌کند، تکنیکی که فازهای پردازش و تولید مدل‌های زبان بزرگ (LLM) را بر روی GPUهای متمایز جدا می‌کند. این رویکرد به هر فاز اجازه می‌دهد تا به‌طور مستقل بهینه‌سازی شود، نیازهای محاسباتی خاص خود را برآورده کند و از حداکثر استفاده از منابع GPU اطمینان حاصل کند.

جنسن هوانگ (Jensen Huang)، بنیانگذار و مدیرعامل NVIDIA، اظهار داشت: «صنایع در سراسر جهان در حال آموزش مدل‌های هوش مصنوعی هستند تا به روش‌های مختلف فکر کنند و یاد بگیرند و با گذشت زمان پیچیده‌تر شوند.» «برای فعال کردن آینده‌ای از هوش مصنوعی استدلالی سفارشی، NVIDIA Dynamo به ارائه این مدل‌ها در مقیاس کمک می‌کند و باعث صرفه‌جویی در هزینه و کارایی در سراسر کارخانه‌های هوش مصنوعی می‌شود.»

Dynamo با استفاده از همان تعداد GPU، توانایی دو برابر کردن عملکرد و درآمد کارخانه‌های هوش مصنوعی را که مدل‌های Llama را روی پلتفرم Hopper فعلی NVIDIA ارائه می‌دهند، نشان داده است. علاوه بر این، هنگام اجرای مدل DeepSeek-R1 روی یک خوشه بزرگ از رک‌های GB200 NVL72، بهینه‌سازی‌های استنتاج هوشمند NVIDIA Dynamo نشان داده است که تعداد توکن‌های تولید شده را بیش از 30 برابر در هر GPU افزایش می‌دهد.

برای دستیابی به این پیشرفت‌ها در عملکرد استنتاج، NVIDIA Dynamo چندین ویژگی کلیدی را در خود جای داده است که برای افزایش توان عملیاتی و کاهش هزینه‌های عملیاتی طراحی شده‌اند.

Dynamo می‌تواند به صورت پویا GPUها را در زمان واقعی اضافه، حذف و دوباره تخصیص دهد تا با حجم و انواع درخواست‌های متغیر سازگار شود. این نرم‌افزار همچنین می‌تواند GPUهای خاصی را در خوشه‌های بزرگ شناسایی کند که برای به حداقل رساندن محاسبات پاسخ و مسیریابی کارآمد پرس‌وجوها مناسب‌تر هستند. Dynamo همچنین می‌تواند داده‌های استنتاج را به حافظه و دستگاه‌های ذخیره‌سازی مقرون‌به‌صرفه‌تر منتقل کند و در صورت نیاز به سرعت آن را بازیابی کند و در نتیجه هزینه‌های کلی استنتاج را به حداقل برساند.

NVIDIA Dynamo به عنوان یک پروژه کاملاً متن‌باز منتشر می‌شود و سازگاری گسترده‌ای با چارچوب‌های محبوب مانند PyTorch، SGLang، NVIDIA TensorRT-LLM و vLLM ارائه می‌دهد. این رویکرد باز از شرکت‌ها، استارت‌آپ‌ها و محققان در توسعه و بهینه‌سازی روش‌های جدید برای ارائه مدل‌های هوش مصنوعی در سراسر زیرساخت‌های استنتاج جداگانه پشتیبانی می‌کند.

NVIDIA انتظار دارد که Dynamo پذیرش استنتاج هوش مصنوعی را در طیف گسترده‌ای از سازمان‌ها، از جمله ارائه‌دهندگان اصلی ابر و نوآوران هوش مصنوعی مانند AWS، Cohere، CoreWeave، Dell، Fireworks، Google Cloud، Lambda، Meta، Microsoft Azure، Nebius، NetApp، OCI، Perplexity، Together AI و VAST تسریع بخشد.

NVIDIA Dynamo: سوپرشارژ استنتاج و هوش مصنوعی عامل‌محور

یکی از نوآوری‌های کلیدی NVIDIA Dynamo در توانایی آن در ترسیم دانش است که سیستم‌های استنتاج در حافظه از ارائه درخواست‌های قبلی، معروف به KV cache، در سراسر هزاران GPU احتمالی نگهداری می‌کنند.

این نرم‌افزار سپس به طور هوشمندانه درخواست‌های استنتاج جدید را به GPUهایی هدایت می‌کند که بهترین تطابق دانش را دارند، به طور موثر از محاسبات مجدد پرهزینه جلوگیری می‌کند و سایر GPUها را برای رسیدگی به درخواست‌های ورودی جدید آزاد می‌کند. این مکانیسم مسیریابی هوشمند به طور قابل توجهی کارایی را افزایش می‌دهد و تأخیر را کاهش می‌دهد.

دنیس یاراتس (Denis Yarats)، مدیر ارشد فناوری Perplexity AI، گفت: «برای رسیدگی به صدها میلیون درخواست در ماه، ما به GPUهای NVIDIA و نرم‌افزار استنتاج برای ارائه عملکرد، قابلیت اطمینان و مقیاسی که کسب‌وکار و کاربران ما می‌خواهند، تکیه می‌کنیم.»

«ما مشتاقانه منتظر استفاده از Dynamo، با قابلیت‌های پیشرفته سرویس‌دهی توزیع‌شده آن، برای افزایش بیشتر کارایی سرویس‌دهی استنتاج و برآورده کردن خواسته‌های محاسباتی مدل‌های استدلال هوش مصنوعی جدید هستیم.»

پلتفرم هوش مصنوعی Cohere در حال حاضر در حال برنامه‌ریزی برای استفاده از NVIDIA Dynamo برای افزایش قابلیت‌های هوش مصنوعی عامل‌محور در سری مدل‌های Command خود است.

سوراب باجی (Saurabh Baji)، معاون ارشد مهندسی در Cohere، توضیح داد: «مقیاس‌بندی مدل‌های هوش مصنوعی پیشرفته نیازمند زمان‌بندی پیچیده چند GPU، هماهنگی یکپارچه و کتابخانه‌های ارتباطی با تأخیر کم است که زمینه‌های استدلال را به طور یکپارچه در سراسر حافظه و فضای ذخیره‌سازی منتقل می‌کنند.»

«ما انتظار داریم NVIDIA Dynamo به ما کمک کند تا یک تجربه کاربری برتر را به مشتریان سازمانی خود ارائه دهیم.»

پشتیبانی از سرویس‌دهی جداگانه

پلتفرم استنتاج NVIDIA Dynamo همچنین از پشتیبانی قوی برای سرویس‌دهی جداگانه برخوردار است. این تکنیک پیشرفته، فازهای محاسباتی مختلف LLMها - از جمله مراحل مهم درک درخواست کاربر و سپس تولید مناسب‌ترین پاسخ - را به GPUهای مختلف در داخل زیرساخت اختصاص می‌دهد.

سرویس‌دهی جداگانه به‌ویژه برای مدل‌های استدلال، مانند خانواده مدل جدید NVIDIA Llama Nemotron، که از تکنیک‌های استنتاج پیشرفته برای درک متنی و تولید پاسخ بهبود یافته استفاده می‌کند، مناسب است. با اجازه دادن به هر فاز برای تنظیم دقیق و تخصیص منابع به طور مستقل، سرویس‌دهی جداگانه توان عملیاتی کلی را بهبود می‌بخشد و زمان پاسخگویی سریع‌تری را به کاربران ارائه می‌دهد.

Together AI، یک بازیگر برجسته در فضای ابر شتاب‌دهنده هوش مصنوعی، نیز به دنبال ادغام موتور استنتاج اختصاصی خود Together Inference Engine با NVIDIA Dynamo است. هدف این ادغام، فعال کردن مقیاس‌بندی یکپارچه حجم‌های کاری استنتاج در چندین گره GPU است. علاوه بر این، به Together AI اجازه می‌دهد تا به صورت پویا به گلوگاه‌های ترافیکی که ممکن است در مراحل مختلف خط لوله مدل ایجاد شوند، رسیدگی کند.

Ce Zhang، مدیر ارشد فناوری Together AI، اظهار داشت: «مقیاس‌بندی مقرون‌به‌صرفه مدل‌های استدلال نیازمند تکنیک‌های استنتاج پیشرفته جدید، از جمله سرویس‌دهی جداگانه و مسیریابی آگاه از متن است.»

«باز بودن و مدولار بودن NVIDIA Dynamo به ما این امکان را می‌دهد که اجزای آن را به طور یکپارچه به موتور خود متصل کنیم تا درخواست‌های بیشتری را ارائه دهیم و در عین حال استفاده از منابع را بهینه کنیم - و سرمایه‌گذاری محاسباتی شتاب‌یافته خود را به حداکثر برسانیم. ما هیجان‌زده هستیم که از قابلیت‌های پیشگامانه این پلتفرم برای ارائه مقرون‌به‌صرفه مدل‌های استدلال متن‌باز به کاربران خود استفاده کنیم.»

چهار نوآوری کلیدی NVIDIA Dynamo

NVIDIA چهار نوآوری کلیدی را در Dynamo برجسته کرده است که به کاهش هزینه‌های سرویس‌دهی استنتاج و افزایش تجربه کلی کاربر کمک می‌کند:

برنامه‌ریز GPU: یک موتور برنامه‌ریزی پیچیده که GPUها را به صورت پویا بر اساس تقاضای متغیر کاربر اضافه و حذف می‌کند. این امر تخصیص بهینه منابع را تضمین می‌کند و از تخصیص بیش از حد و تخصیص کمتر ظرفیت GPU جلوگیری می‌کند.
روتر هوشمند: یک روتر هوشمند و آگاه از LLM که درخواست‌های استنتاج را در سراسر ناوگان بزرگ GPU هدایت می‌کند. وظیفه اصلی آن به حداقل رساندن محاسبات مجدد پرهزینه GPU درخواست‌های تکراری یا همپوشانی است، در نتیجه منابع ارزشمند GPU را برای رسیدگی کارآمدتر به درخواست‌های ورودی جدید آزاد می‌کند.
کتابخانه ارتباطی با تأخیر کم: یک کتابخانه بهینه‌سازی‌شده برای استنتاج که برای پشتیبانی از ارتباطات GPU به GPU پیشرفته طراحی شده است. این کتابخانه پیچیدگی‌های تبادل داده در سراسر دستگاه‌های ناهمگن را خلاصه می‌کند و سرعت انتقال داده را به طور قابل توجهی تسریع می‌کند.
مدیر حافظه: یک موتور هوشمند که مدیریت تخلیه و بارگیری مجدد داده‌های استنتاج به و از حافظه و دستگاه‌های ذخیره‌سازی کم‌هزینه‌تر را بر عهده دارد. این فرآیند به گونه‌ای طراحی شده است که یکپارچه باشد و هیچ تأثیر منفی بر تجربه کاربر نداشته باشد.

NVIDIA Dynamo در ریزسرویس‌های NIM در دسترس خواهد بود و در نسخه آینده پلتفرم نرم‌افزاری هوش مصنوعی سازمانی این شرکت پشتیبانی خواهد شد.

همچنین ببینید: LG EXAONE Deep یک متخصص ریاضیات، علوم و برنامه‌نویسی است

درباره نویسنده

رایان داوز، سردبیر ارشد

رایان داوز (Ryan Daws) سردبیر ارشد TechForge Media با بیش از یک دهه تجربه در ساختن روایت‌های جذاب و قابل دسترس کردن موضوعات پیچیده است. مقالات و مصاحبه‌های او با رهبران صنعت، او را به عنوان یک فرد تأثیرگذار کلیدی توسط سازمان‌هایی مانند Onalytica به رسمیت شناخته است. تحت رهبری او، نشریات توسط شرکت‌های تحلیلگر مانند Forrester برای برتری و عملکرد مورد تحسین قرار گرفته‌اند. با او در X (@gadget_ry)، Bluesky (@gadgetry.bsky.social) و/یا Mastodon (@[email protected]) در ارتباط باشید.

https://www.artificialintelligence-news.com/news/nvidia-dynamo-scaling-ai-inference-open-source-efficiency/