همکاری Alluxio با پشته تولید vLLM برای تسریع استنتاج LLM

زمان سریع‌تر برای اولین توکن و مدیریت پیشرفته حافظه پنهان KV

Alluxio، توسعه‌دهنده پلتفرم داده پیشرو برای هوش مصنوعی و تجزیه و تحلیل، امروز از همکاری استراتژیک با پشته تولید vLLM خبر داد. پشته تولید vLLM یک پیاده‌سازی متن‌باز از سیستم خدمت‌رسانی vLLM خوشه‌ای و کامل است که توسط آزمایشگاه LMCache در دانشگاه شیکاگو توسعه یافته است. هدف از این همکاری، پیشبرد زیرساخت هوش مصنوعی نسل بعدی برای مدل‌های زبانی بزرگ (LLM) است.

ظهور استنتاج هوش مصنوعی، تقاضای زیرساخت داده را تغییر داده و چالش‌های متمایزی در مقایسه با حجم‌ کاری سنتی ایجاد کرده است. استنتاج به تاخیر کم، توان عملیاتی بالا و دسترسی تصادفی برای رسیدگی به حجم کاری خواندن و نوشتن در مقیاس بزرگ نیاز دارد. با اختلالات اخیر، هزینه‌ها نیز به یک نکته مهم برای زیرساخت خدمت‌رسانی LLM تبدیل شده‌اند.

برای برآوردن این الزامات منحصربه‌فرد، Alluxio با پشته تولید vLLM همکاری کرده است تا با ارائه یک راه‌حل یکپارچه برای مدیریت حافظه پنهان KV، عملکرد استنتاج LLM را تسریع بخشد. Alluxio موقعیت منحصربه‌فردی دارد تا به یک راه‌حل ایده‌آل برای مدیریت حافظه پنهان KV تبدیل شود زیرا Alluxio با استفاده از DRAM و NVME ظرفیت بیشتری را فعال می‌کند، ابزارهای مدیریت بهتری مانند فضای نام یکپارچه و سرویس مدیریت داده ارائه می‌دهد و از پشتیبانی چند ابری هیبریدی پشتیبانی می‌کند. این راه‌حل مشترک فراتر از مدیریت حافظه دو لایه سنتی است و اشتراک‌گذاری کارآمد حافظه پنهان KV را در GPU، CPU و یک لایه ذخیره‌سازی توزیع‌شده امکان‌پذیر می‌کند. با بهینه‌سازی مکان‌یابی و دسترسی به داده‌ها در لایه‌های مختلف ذخیره‌سازی، تاخیر کم، مقیاس‌پذیری بیشتر و کارایی بهبودیافته را برای حجم کاری استنتاج هوش مصنوعی در مقیاس بزرگ ارائه می‌دهد.

جونچن جیانگ، رئیس آزمایشگاه LMCache در دانشگاه شیکاگو، گفت: «همکاری با Alluxio به ما این امکان را می‌دهد که مرزهای کارایی استنتاج LLM را جابجا کنیم. با ترکیب نقاط قوت خود، ما در حال ساختن یک پایه مقیاس‌پذیرتر و بهینه‌شده‌تر برای استقرار هوش مصنوعی هستیم و نوآوری را در طیف گسترده‌ای از برنامه‌ها هدایت می‌کنیم.»

پروفسور یون استویکا، مدیر آزمایشگاه Sky Computing در دانشگاه کالیفرنیا، برکلی، گفت: «پشته تولید vLLM نشان می‌دهد که چگونه تحقیقات محکم می‌تواند از طریق منبع باز در اکوسیستم vLLM، تأثیر واقعی در دنیای واقعی داشته باشد. با ارائه یک سیستم مرجع بهینه‌شده برای استقرار vLLM مقیاس‌پذیر، نقش مهمی در پر کردن شکاف بین نوآوری پیشرفته و خدمت‌رسانی LLM در سطح سازمانی ایفا می‌کند.»

راه‌حل مشترک Alluxio و vLLM Production Stack نکات برجسته:

زمان تسریع شده برای اولین توکن
KVCache یک تکنیک کلیدی برای تسریع زمان پاسخ درک شده توسط کاربر یک پرسش LLM (زمان تا اولین توکن) است. با ذخیره نتایج کامل یا جزئی پرسش‌های مشاهده شده قبلی، هزینه محاسبه مجدد را در زمانی که بخشی از اعلان قبلاً پردازش شده است، صرفه‌جویی می‌کند، که یک اتفاق رایج در استنتاج LLM است. Alluxio ظرفیت سیستم‌های خدمت‌رسانی LLM را گسترش می‌دهد تا حافظه پنهان بیشتری از این نتایج جزئی را با استفاده از حافظه CPU/GPU و NVMe ذخیره کند، که منجر به زمان پاسخگویی متوسط ​​سریع‌تر می‌شود.

ظرفیت حافظه پنهان KV گسترده شده برای حجم کاری پیچیده Agentic
پنجره‌های متنی بزرگ کلید گردش کار پیچیده عامل هستند. راه‌حل مشترک می‌تواند به طور انعطاف‌پذیر KVCache را در حافظه GPU/CPU و یک لایه ذخیره‌سازی توزیع‌شده (Alluxio مبتنی بر NVMe) ذخیره کند. این برای موارد استفاده از زمینه طولانی LLM بسیار مهم است.

اشتراک‌گذاری حافظه پنهان KV توزیع‌شده برای کاهش محاسبات اضافی:
ذخیره KV Cache در یک لایه سرویس Alluxio اضافی به جای محلی در دستگاه‌های GPU، به دستگاه‌های پیش‌پرکننده و رمزگشا اجازه می‌دهد تا KV Cache یکسانی را به طور موثرتر به اشتراک بگذارند. با استفاده از فناوری mmap یا کپی صفر، راه‌حل مشترک توان عملیاتی استنتاج را با فعال کردن انتقال کارآمد KV Cache بین دستگاه‌های GPU و Alluxio، به حداقل رساندن کپی‌های حافظه و کاهش سربار I/O افزایش می‌دهد. همچنین مقرون به صرفه‌تر است زیرا گزینه‌های ذخیره‌سازی در نمونه‌های GPU محدود و گران هستند.

عملکرد بالا و مقرون به صرفه:
راه‌حل مشترک، فضای ذخیره‌سازی KVCache گسترده‌تری را با هزینه مالکیت کمتر ارائه می‌دهد. در مقایسه با راه‌حل فقط DRAM، Alluxio از NVMe استفاده می‌کند که هزینه واحد کمتری در هر بایت ارائه می‌دهد. به جای سایر سیستم‌های فایل موازی، Alluxio می‌تواند از سخت‌افزار تجاری برای ارائه عملکرد مشابه استفاده کند.

Bin Fan، معاون فناوری Alluxio، گفت: «این همکاری امکانات جدیدی را برای افزایش عملکرد استنتاج LLM باز می‌کند، به ویژه با رسیدگی به نیاز حیاتی به دسترسی به داده با توان عملیاتی بالا و تاخیر کم. ما در حال مقابله با برخی از سخت‌ترین چالش‌های داده و زیرساخت هوش مصنوعی هستیم و استنتاج کارآمدتر، مقیاس‌پذیرتر و مقرون‌به‌صرفه‌تر را در طیف گسترده‌ای از برنامه‌ها امکان‌پذیر می‌کنیم.»

برای آخرین پیشرفت‌ها در هوش مصنوعی، اینترنت اشیا، امنیت سایبری، اخبار AITech و به‌روزرسانی‌های روشنگرانه از کارشناسان صنعت، AITechPark را بررسی کنید!