NVIDIA AI Dynamo را به عنوان یک کتابخانه استنتاج متن‌باز برای تسریع و مقیاس‌بندی مدل‌های استدلال هوش مصنوعی در کارخانه‌های هوش مصنوعی منتشر کرد

پیشرفت سریع هوش مصنوعی (AI) منجر به توسعه مدل‌های پیچیده‌ای شده است که قادر به درک و تولید متن شبیه به انسان هستند. استقرار این مدل‌های زبانی بزرگ (LLM) در برنامه‌های کاربردی دنیای واقعی چالش‌های مهمی را ارائه می‌دهد، به ویژه در بهینه‌سازی عملکرد و مدیریت کارآمد منابع محاسباتی.

چالش‌ها در مقیاس‌بندی مدل‌های استدلال هوش مصنوعی

همزمان با افزایش پیچیدگی مدل‌های هوش مصنوعی، تقاضای استقرار آن‌ها افزایش می‌یابد، به خصوص در مرحله استنتاج - مرحله‌ای که مدل‌ها بر اساس داده‌های جدید خروجی تولید می‌کنند. چالش‌های کلیدی عبارتند از:

  • تخصیص منابع: متعادل کردن بارهای محاسباتی در خوشه‌های گسترده GPU برای جلوگیری از گلوگاه‌ها و استفاده ناکافی، پیچیده است.
  • کاهش تأخیر: اطمینان از زمان پاسخ سریع برای رضایت کاربر بسیار مهم است و نیاز به فرایندهای استنتاج با تأخیر کم دارد.
  • مدیریت هزینه: الزامات محاسباتی قابل توجه LLMها می‌تواند منجر به افزایش هزینه‌های عملیاتی شود و راه حل‌های مقرون به صرفه را ضروری می‌سازد.

معرفی NVIDIA Dynamo

در پاسخ به این چالش‌ها، NVIDIA Dynamo را معرفی کرده است، یک کتابخانه استنتاج متن‌باز که برای تسریع و مقیاس‌بندی مدل‌های استدلال هوش مصنوعی به طور کارآمد و مقرون به صرفه طراحی شده است. Dynamo به عنوان جانشین NVIDIA Triton Inference Server™، یک چارچوب مدولار متناسب با محیط‌های توزیع شده ارائه می‌دهد که مقیاس‌بندی یکپارچه بارهای کاری استنتاج را در ناوگان بزرگ GPU امکان‌پذیر می‌کند.

نوآوری‌های فنی و مزایا

Dynamo چندین نوآوری کلیدی را در خود جای داده است که به طور جمعی عملکرد استنتاج را افزایش می‌دهند:

  • سرویس‌دهی مجزا: این رویکرد فازهای context (پیش‌پردازش) و generation (رمزگشایی) استنتاج LLM را جدا می‌کند و آن‌ها را به GPUهای متمایز اختصاص می‌دهد. سرویس‌دهی مجزا با اجازه دادن به هر فاز برای بهینه‌سازی مستقل، استفاده از منابع را بهبود می‌بخشد و تعداد درخواست‌های استنتاج ارائه شده در هر GPU را افزایش می‌دهد.
  • برنامه‌ریز منابع GPU: موتور برنامه‌ریزی Dynamo به طور پویا تخصیص GPU را در پاسخ به نوسانات تقاضای کاربر تنظیم می‌کند، از تامین بیش از حد یا کمبود آن جلوگیری می‌کند و عملکرد مطلوب را تضمین می‌کند.
  • روتر هوشمند: این مؤلفه به طور موثر درخواست‌های استنتاج ورودی را در ناوگان بزرگ GPU هدایت می‌کند و با استفاده از دانش درخواست‌های قبلی، معروف به KV cache، محاسبات مجدد پرهزینه را به حداقل می‌رساند.
  • کتابخانه ارتباطی با تأخیر کم (NIXL): NIXL انتقال داده بین GPUها و انواع مختلف حافظه و ذخیره‌سازی را تسریع می‌کند، زمان پاسخ استنتاج را کاهش می‌دهد و پیچیدگی‌های تبادل داده را ساده می‌کند.
  • مدیر حافظه KV: Dynamo با انتقال داده‌های استنتاجی که کمتر به آن‌ها دسترسی پیدا می‌شود به حافظه‌ها و دستگاه‌های ذخیره‌سازی مقرون به صرفه‌تر، هزینه‌های کلی استنتاج را بدون تأثیر بر تجربه کاربری کاهش می‌دهد.

دیدگاه‌های عملکردی

تأثیر Dynamo بر عملکرد استنتاج قابل توجه است. هنگام سرویس‌دهی به مدل استدلال متن‌باز DeepSeek-R1 671B در NVIDIA GB200 NVL72، Dynamo توان عملیاتی را - که بر حسب توکن در ثانیه در هر GPU اندازه‌گیری می‌شود - تا 30 برابر افزایش داد. علاوه بر این، سرویس‌دهی به مدل Llama 70B در NVIDIA Hopper™ منجر به بیش از دو برابر شدن توان عملیاتی شد.

این پیشرفت‌ها ارائه‌دهندگان خدمات هوش مصنوعی را قادر می‌سازد تا درخواست‌های استنتاج بیشتری را در هر GPU ارائه دهند، زمان پاسخ را تسریع کنند و هزینه‌های عملیاتی را کاهش دهند، در نتیجه بازدهی سرمایه‌گذاری‌های محاسباتی شتاب‌یافته خود را به حداکثر برسانند.

نتیجه‌گیری

NVIDIA Dynamo نشان‌دهنده یک پیشرفت قابل توجه در استقرار مدل‌های استدلال هوش مصنوعی است که چالش‌های مهمی را در مقیاس‌بندی، کارایی و مقرون به صرفه بودن برطرف می‌کند. ماهیت متن‌باز آن و سازگاری با باطن‌های اصلی استنتاج هوش مصنوعی، از جمله PyTorch، SGLang، NVIDIA TensorRT™-LLM و vLLM، به شرکت‌ها، استارت‌آپ‌ها و محققان این امکان را می‌دهد تا ارائه مدل هوش مصنوعی را در محیط‌های استنتاج مجزا بهینه کنند. سازمان‌ها با استفاده از ویژگی‌های نوآورانه Dynamo می‌توانند قابلیت‌های هوش مصنوعی خود را افزایش دهند و خدمات هوش مصنوعی سریع‌تر و کارآمدتر را برای پاسخگویی به خواسته‌های رو به رشد برنامه‌های مدرن ارائه دهند.