زمان سریعتر برای اولین توکن و مدیریت پیشرفته حافظه پنهان KV
Alluxio، توسعهدهنده پلتفرم داده پیشرو برای هوش مصنوعی و تجزیه و تحلیل، امروز از همکاری استراتژیک با پشته تولید vLLM خبر داد. پشته تولید vLLM یک پیادهسازی متنباز از سیستم خدمترسانی vLLM خوشهای و کامل است که توسط آزمایشگاه LMCache در دانشگاه شیکاگو توسعه یافته است. هدف از این همکاری، پیشبرد زیرساخت هوش مصنوعی نسل بعدی برای مدلهای زبانی بزرگ (LLM) است.
ظهور استنتاج هوش مصنوعی، تقاضای زیرساخت داده را تغییر داده و چالشهای متمایزی در مقایسه با حجم کاری سنتی ایجاد کرده است. استنتاج به تاخیر کم، توان عملیاتی بالا و دسترسی تصادفی برای رسیدگی به حجم کاری خواندن و نوشتن در مقیاس بزرگ نیاز دارد. با اختلالات اخیر، هزینهها نیز به یک نکته مهم برای زیرساخت خدمترسانی LLM تبدیل شدهاند.
برای برآوردن این الزامات منحصربهفرد، Alluxio با پشته تولید vLLM همکاری کرده است تا با ارائه یک راهحل یکپارچه برای مدیریت حافظه پنهان KV، عملکرد استنتاج LLM را تسریع بخشد. Alluxio موقعیت منحصربهفردی دارد تا به یک راهحل ایدهآل برای مدیریت حافظه پنهان KV تبدیل شود زیرا Alluxio با استفاده از DRAM و NVME ظرفیت بیشتری را فعال میکند، ابزارهای مدیریت بهتری مانند فضای نام یکپارچه و سرویس مدیریت داده ارائه میدهد و از پشتیبانی چند ابری هیبریدی پشتیبانی میکند. این راهحل مشترک فراتر از مدیریت حافظه دو لایه سنتی است و اشتراکگذاری کارآمد حافظه پنهان KV را در GPU، CPU و یک لایه ذخیرهسازی توزیعشده امکانپذیر میکند. با بهینهسازی مکانیابی و دسترسی به دادهها در لایههای مختلف ذخیرهسازی، تاخیر کم، مقیاسپذیری بیشتر و کارایی بهبودیافته را برای حجم کاری استنتاج هوش مصنوعی در مقیاس بزرگ ارائه میدهد.
جونچن جیانگ، رئیس آزمایشگاه LMCache در دانشگاه شیکاگو، گفت: «همکاری با Alluxio به ما این امکان را میدهد که مرزهای کارایی استنتاج LLM را جابجا کنیم. با ترکیب نقاط قوت خود، ما در حال ساختن یک پایه مقیاسپذیرتر و بهینهشدهتر برای استقرار هوش مصنوعی هستیم و نوآوری را در طیف گستردهای از برنامهها هدایت میکنیم.»
پروفسور یون استویکا، مدیر آزمایشگاه Sky Computing در دانشگاه کالیفرنیا، برکلی، گفت: «پشته تولید vLLM نشان میدهد که چگونه تحقیقات محکم میتواند از طریق منبع باز در اکوسیستم vLLM، تأثیر واقعی در دنیای واقعی داشته باشد. با ارائه یک سیستم مرجع بهینهشده برای استقرار vLLM مقیاسپذیر، نقش مهمی در پر کردن شکاف بین نوآوری پیشرفته و خدمترسانی LLM در سطح سازمانی ایفا میکند.»
راهحل مشترک Alluxio و vLLM Production Stack نکات برجسته:
زمان تسریع شده برای اولین توکن
KVCache یک تکنیک کلیدی برای تسریع زمان پاسخ درک شده توسط کاربر یک پرسش LLM (زمان تا اولین توکن) است. با ذخیره نتایج کامل یا جزئی پرسشهای مشاهده شده قبلی، هزینه محاسبه مجدد را در زمانی که بخشی از اعلان قبلاً پردازش شده است، صرفهجویی میکند، که یک اتفاق رایج در استنتاج LLM است. Alluxio ظرفیت سیستمهای خدمترسانی LLM را گسترش میدهد تا حافظه پنهان بیشتری از این نتایج جزئی را با استفاده از حافظه CPU/GPU و NVMe ذخیره کند، که منجر به زمان پاسخگویی متوسط سریعتر میشود.
ظرفیت حافظه پنهان KV گسترده شده برای حجم کاری پیچیده Agentic
پنجرههای متنی بزرگ کلید گردش کار پیچیده عامل هستند. راهحل مشترک میتواند به طور انعطافپذیر KVCache را در حافظه GPU/CPU و یک لایه ذخیرهسازی توزیعشده (Alluxio مبتنی بر NVMe) ذخیره کند. این برای موارد استفاده از زمینه طولانی LLM بسیار مهم است.
اشتراکگذاری حافظه پنهان KV توزیعشده برای کاهش محاسبات اضافی:
ذخیره KV Cache در یک لایه سرویس Alluxio اضافی به جای محلی در دستگاههای GPU، به دستگاههای پیشپرکننده و رمزگشا اجازه میدهد تا KV Cache یکسانی را به طور موثرتر به اشتراک بگذارند. با استفاده از فناوری mmap یا کپی صفر، راهحل مشترک توان عملیاتی استنتاج را با فعال کردن انتقال کارآمد KV Cache بین دستگاههای GPU و Alluxio، به حداقل رساندن کپیهای حافظه و کاهش سربار I/O افزایش میدهد. همچنین مقرون به صرفهتر است زیرا گزینههای ذخیرهسازی در نمونههای GPU محدود و گران هستند.
عملکرد بالا و مقرون به صرفه:
راهحل مشترک، فضای ذخیرهسازی KVCache گستردهتری را با هزینه مالکیت کمتر ارائه میدهد. در مقایسه با راهحل فقط DRAM، Alluxio از NVMe استفاده میکند که هزینه واحد کمتری در هر بایت ارائه میدهد. به جای سایر سیستمهای فایل موازی، Alluxio میتواند از سختافزار تجاری برای ارائه عملکرد مشابه استفاده کند.
Bin Fan، معاون فناوری Alluxio، گفت: «این همکاری امکانات جدیدی را برای افزایش عملکرد استنتاج LLM باز میکند، به ویژه با رسیدگی به نیاز حیاتی به دسترسی به داده با توان عملیاتی بالا و تاخیر کم. ما در حال مقابله با برخی از سختترین چالشهای داده و زیرساخت هوش مصنوعی هستیم و استنتاج کارآمدتر، مقیاسپذیرتر و مقرونبهصرفهتر را در طیف گستردهای از برنامهها امکانپذیر میکنیم.»
برای آخرین پیشرفتها در هوش مصنوعی، اینترنت اشیا، امنیت سایبری، اخبار AITech و بهروزرسانیهای روشنگرانه از کارشناسان صنعت، AITechPark را بررسی کنید!