ارزش پیشنهادی IP فشرده‌سازی حافظه ZeroPoint Technologies (تصویر: ZeroPoint Technologies)
ارزش پیشنهادی IP فشرده‌سازی حافظه ZeroPoint Technologies (تصویر: ZeroPoint Technologies)

ائتلاف در تلاش برای ارائه هوش مصنوعی بهینه شده برای حافظه برای استنتاج

شرکت سوئدی ZeroPoint Technologies، فعال در حوزه IP بهینه‌سازی حافظه، امروز از یک اتحاد استراتژیک با Rebellions برای توسعه نسل بعدی شتاب‌دهنده‌های هوش مصنوعی بهینه‌شده حافظه برای استنتاج هوش مصنوعی خبر داد. این شرکت‌ها قصد دارند در سال ۲۰۲۶ از محصولات جدید خود رونمایی کنند و ادعا می‌کنند که "عملکرد بی‌سابقه‌ای از نظر توکن در ثانیه بر وات" را ارائه خواهند کرد.

به عنوان بخشی از این همکاری، دو شرکت قصد دارند با استفاده از فناوری‌های فشرده‌سازی، تراکم و مدیریت حافظه ZeroPoint Technologies، پهنای باند و ظرفیت حافظه مؤثر را برای گردش‌کارهای استنتاج مدل بنیادی افزایش دهند. به گفته Klas Moreau، مدیرعامل ZeroPoint Technologies، این بهینه‌سازی حافظه مبتنی بر سخت‌افزار می‌تواند به افزایش ظرفیت ذخیره‌سازی قابل آدرس‌دهی در محیط‌های مرکز داده کمک کند تا تقریباً 1000 برابر سریع‌تر از استفاده از فشرده‌سازی نرم‌افزاری عمل کند.

در نتیجه، این شرکت امیدوار است با استفاده از فشرده‌سازی مدل بدون اتلاف، اندازه مدل و انرژی مورد نیاز برای انتقال اجزای مدل را کاهش داده و توکن در ثانیه بر وات را بدون کاهش دقت، افزایش دهد.

Sunghyun Park، مدیرعامل Rebellions، در بیانیه مشترک شرکت‌ها گفت: "در Rebellions، ما با تمرکز بی‌وقفه بر کارایی، مرزهای شتاب‌دهی هوش مصنوعی را جابجا می‌کنیم. مشارکت ما با ZeroPoint ما را قادر می‌سازد تا آنچه را که در عملکرد استنتاج در هر وات ممکن است، دوباره تعریف کنیم - ارائه زیرساخت‌های هوش مصنوعی هوشمندتر، کم‌هزینه‌تر و پایدارتر برای عصر هوش مصنوعی مولد."

Moreau در این بیانیه افزود: "ما متقاعد شده‌ایم که شتاب‌دهی حافظه به سرعت از یک مزیت رقابتی به یک جزء ضروری از هر راه‌حل شتاب‌دهنده استنتاج پیشرفته تبدیل خواهد شد و مفتخریم که Rebellions در تعهد ما برای کارآمدتر کردن مراکز داده هوش مصنوعی سهیم است."

درصد داده‌های ذخیره شده در حافظه اضافی هستند

Moreau در جلسه‌ای در اوایل سال جاری با EE Times، خاطرنشان کرد که بیش از 70 درصد از داده‌هایی که در حافظه ذخیره می‌شوند، اضافی هستند. "این بدان معناست که شما می‌توانید به طور کامل از شر آن خلاص شوید و همچنان فشرده‌سازی بدون اتلاف ارائه دهید. با این حال، برای اینکه این کار به طور یکپارچه انجام شود، این فناوری باید سه کار بسیار خاص را در آن مقیاس نانوثانیه (که مربوط به چند چرخه ساعت سیستم است) انجام دهد."

"اول، باید فشرده‌سازی و رفع فشرده‌سازی را انجام دهد. دوم، باید داده‌های حاصل را نیز فشرده کند [قرار دادن تکه‌های کوچک داده‌های فشرده شده در یک خط حافظه پنهان فردی برای بهبود چشمگیر پهنای باند ظاهری حافظه]، و در نهایت باید به طور یکپارچه داده‌ها را مدیریت کند تا مکان همه قطعات ترکیبی را ردیابی کند. برای به حداقل رساندن تأخیر، این نوع رویکرد بهینه‌سازی حافظه با شتاب سخت‌افزاری معمولاً باید در سطح دانه بندی خط حافظه پنهان عمل کند - فشرده‌سازی، تراکم و مدیریت داده‌ها در قطعات 64 بایتی [در مقایسه با اندازه‌های داده‌ای بسیار بزرگتر 4-128 کیلوبایتی که توسط روش‌های فشرده‌سازی سنتی‌تر مانند ZSTD و LZ4 استفاده می‌شود]."

Moreau گفت که وقتی این کار به درستی انجام شود، مزایا می‌تواند قابل توجه باشد. "برای حجم‌کارهای عمومی، مثلاً در یک مرکز داده hyperscale، ظرفیت و پهنای باند حافظه قابل آدرس‌دهی می‌تواند دو تا چهار برابر افزایش یابد، عملکرد در هر وات می‌تواند 50 درصد افزایش یابد و [بیشتر به دلیل افزایش کارایی] TCO می‌تواند به طور چشمگیری کاهش یابد."

Moreau گفت که این شرکت در توسعه راه‌حل خود، مدتی را صرف بررسی دقیق این موضوع کرده است که آیا فشرده‌سازی، تراکم و تکنیک‌های مدیریت حافظه ممکن است برای حجم‌کارهای مدل بنیادی ارائه دهند یا خیر.

وی افزود: "پیشرفت‌های اخیر توسط شرکت‌هایی مانند Marvell Technology و Intel در حافظه با پهنای باند بالا منجر به افزایش عملکردی شده است که ناکارآمدی‌های دیرینه در عملیات مراکز داده را برطرف می‌کند. با این حال، ما قویاً معتقدیم که پتانسیل بهبود بیشتر در پذیرش فشرده‌سازی، تراکم و فناوری‌های مدیریت حافظه با شتاب سخت‌افزاری نهفته است."

وی افزود که آنها این فرضیات را تأیید کرده‌اند و دریافتند که برای برنامه‌های کاربردی تخصصی مانند LLM، ادغام فشرده‌سازی نرم‌افزاری همراه با رفع فشرده‌سازی سخت‌افزاری (که هرگونه تأخیر اضافی را به حداقل می‌رساند) در حال حاضر افزایش حدود 50 درصدی در ظرفیت حافظه قابل آدرس‌دهی، پهنای باند و توکن در ثانیه - یک معیار حیاتی برای عملکرد برنامه - نشان داده است.

Moreau گفت: "ادغام آینده فناوری‌های فشرده‌سازی و رفع فشرده‌سازی سخت‌افزاری، وعده بهبودهای چشمگیرتری را می‌دهد. به عنوان مثال، برای حجم‌کارهای مدل بنیادی، یک مرکز داده مجهز به 100 گیگابایت حافظه با پهنای باند بالا می‌تواند از این فناوری‌های فشرده‌سازی، تراکم و مدیریت حافظه استفاده کند تا به گونه‌ای عمل کند که گویی 150 گیگابایت حافظه دارد و به طور قابل توجهی کارایی هزینه، عملکرد و پهنای باند را افزایش می‌دهد. این نه تنها نشان دهنده میلیاردها صرفه‌جویی بالقوه در هزینه است، بلکه می‌تواند قابلیت‌های عملکردی مدل‌های هوش مصنوعی پیچیده را نیز افزایش دهد."

وی افزود: "این پیشرفت‌ها یک پایه قوی برای شرکت‌های سازنده تراشه‌های هوش مصنوعی فراهم می‌کند تا سلطه غول‌های صنعتی مانند Nvidia را به چالش بکشند و آنها را با فناوری‌های اصلی که کارایی و عملکرد حافظه را بهینه می‌کنند، توانمند سازند. این توانمندسازی آنها را قادر می‌سازد تا در مقیاس جهانی رقابت کنند، نه تنها با برآورده کردن مشخصات فنی، بلکه از طریق نوآوری در کارایی انرژی و مقرون به صرفه بودن - عوامل کلیدی برای پذیرش گسترده و استقلال فناوری."