شرکت سوئدی ZeroPoint Technologies، فعال در حوزه IP بهینهسازی حافظه، امروز از یک اتحاد استراتژیک با Rebellions برای توسعه نسل بعدی شتابدهندههای هوش مصنوعی بهینهشده حافظه برای استنتاج هوش مصنوعی خبر داد. این شرکتها قصد دارند در سال ۲۰۲۶ از محصولات جدید خود رونمایی کنند و ادعا میکنند که "عملکرد بیسابقهای از نظر توکن در ثانیه بر وات" را ارائه خواهند کرد.
به عنوان بخشی از این همکاری، دو شرکت قصد دارند با استفاده از فناوریهای فشردهسازی، تراکم و مدیریت حافظه ZeroPoint Technologies، پهنای باند و ظرفیت حافظه مؤثر را برای گردشکارهای استنتاج مدل بنیادی افزایش دهند. به گفته Klas Moreau، مدیرعامل ZeroPoint Technologies، این بهینهسازی حافظه مبتنی بر سختافزار میتواند به افزایش ظرفیت ذخیرهسازی قابل آدرسدهی در محیطهای مرکز داده کمک کند تا تقریباً 1000 برابر سریعتر از استفاده از فشردهسازی نرمافزاری عمل کند.
در نتیجه، این شرکت امیدوار است با استفاده از فشردهسازی مدل بدون اتلاف، اندازه مدل و انرژی مورد نیاز برای انتقال اجزای مدل را کاهش داده و توکن در ثانیه بر وات را بدون کاهش دقت، افزایش دهد.
Sunghyun Park، مدیرعامل Rebellions، در بیانیه مشترک شرکتها گفت: "در Rebellions، ما با تمرکز بیوقفه بر کارایی، مرزهای شتابدهی هوش مصنوعی را جابجا میکنیم. مشارکت ما با ZeroPoint ما را قادر میسازد تا آنچه را که در عملکرد استنتاج در هر وات ممکن است، دوباره تعریف کنیم - ارائه زیرساختهای هوش مصنوعی هوشمندتر، کمهزینهتر و پایدارتر برای عصر هوش مصنوعی مولد."
Moreau در این بیانیه افزود: "ما متقاعد شدهایم که شتابدهی حافظه به سرعت از یک مزیت رقابتی به یک جزء ضروری از هر راهحل شتابدهنده استنتاج پیشرفته تبدیل خواهد شد و مفتخریم که Rebellions در تعهد ما برای کارآمدتر کردن مراکز داده هوش مصنوعی سهیم است."
درصد دادههای ذخیره شده در حافظه اضافی هستند
Moreau در جلسهای در اوایل سال جاری با EE Times، خاطرنشان کرد که بیش از 70 درصد از دادههایی که در حافظه ذخیره میشوند، اضافی هستند. "این بدان معناست که شما میتوانید به طور کامل از شر آن خلاص شوید و همچنان فشردهسازی بدون اتلاف ارائه دهید. با این حال، برای اینکه این کار به طور یکپارچه انجام شود، این فناوری باید سه کار بسیار خاص را در آن مقیاس نانوثانیه (که مربوط به چند چرخه ساعت سیستم است) انجام دهد."
"اول، باید فشردهسازی و رفع فشردهسازی را انجام دهد. دوم، باید دادههای حاصل را نیز فشرده کند [قرار دادن تکههای کوچک دادههای فشرده شده در یک خط حافظه پنهان فردی برای بهبود چشمگیر پهنای باند ظاهری حافظه]، و در نهایت باید به طور یکپارچه دادهها را مدیریت کند تا مکان همه قطعات ترکیبی را ردیابی کند. برای به حداقل رساندن تأخیر، این نوع رویکرد بهینهسازی حافظه با شتاب سختافزاری معمولاً باید در سطح دانه بندی خط حافظه پنهان عمل کند - فشردهسازی، تراکم و مدیریت دادهها در قطعات 64 بایتی [در مقایسه با اندازههای دادهای بسیار بزرگتر 4-128 کیلوبایتی که توسط روشهای فشردهسازی سنتیتر مانند ZSTD و LZ4 استفاده میشود]."
Moreau گفت که وقتی این کار به درستی انجام شود، مزایا میتواند قابل توجه باشد. "برای حجمکارهای عمومی، مثلاً در یک مرکز داده hyperscale، ظرفیت و پهنای باند حافظه قابل آدرسدهی میتواند دو تا چهار برابر افزایش یابد، عملکرد در هر وات میتواند 50 درصد افزایش یابد و [بیشتر به دلیل افزایش کارایی] TCO میتواند به طور چشمگیری کاهش یابد."
Moreau گفت که این شرکت در توسعه راهحل خود، مدتی را صرف بررسی دقیق این موضوع کرده است که آیا فشردهسازی، تراکم و تکنیکهای مدیریت حافظه ممکن است برای حجمکارهای مدل بنیادی ارائه دهند یا خیر.
وی افزود: "پیشرفتهای اخیر توسط شرکتهایی مانند Marvell Technology و Intel در حافظه با پهنای باند بالا منجر به افزایش عملکردی شده است که ناکارآمدیهای دیرینه در عملیات مراکز داده را برطرف میکند. با این حال، ما قویاً معتقدیم که پتانسیل بهبود بیشتر در پذیرش فشردهسازی، تراکم و فناوریهای مدیریت حافظه با شتاب سختافزاری نهفته است."
وی افزود که آنها این فرضیات را تأیید کردهاند و دریافتند که برای برنامههای کاربردی تخصصی مانند LLM، ادغام فشردهسازی نرمافزاری همراه با رفع فشردهسازی سختافزاری (که هرگونه تأخیر اضافی را به حداقل میرساند) در حال حاضر افزایش حدود 50 درصدی در ظرفیت حافظه قابل آدرسدهی، پهنای باند و توکن در ثانیه - یک معیار حیاتی برای عملکرد برنامه - نشان داده است.
Moreau گفت: "ادغام آینده فناوریهای فشردهسازی و رفع فشردهسازی سختافزاری، وعده بهبودهای چشمگیرتری را میدهد. به عنوان مثال، برای حجمکارهای مدل بنیادی، یک مرکز داده مجهز به 100 گیگابایت حافظه با پهنای باند بالا میتواند از این فناوریهای فشردهسازی، تراکم و مدیریت حافظه استفاده کند تا به گونهای عمل کند که گویی 150 گیگابایت حافظه دارد و به طور قابل توجهی کارایی هزینه، عملکرد و پهنای باند را افزایش میدهد. این نه تنها نشان دهنده میلیاردها صرفهجویی بالقوه در هزینه است، بلکه میتواند قابلیتهای عملکردی مدلهای هوش مصنوعی پیچیده را نیز افزایش دهد."
وی افزود: "این پیشرفتها یک پایه قوی برای شرکتهای سازنده تراشههای هوش مصنوعی فراهم میکند تا سلطه غولهای صنعتی مانند Nvidia را به چالش بکشند و آنها را با فناوریهای اصلی که کارایی و عملکرد حافظه را بهینه میکنند، توانمند سازند. این توانمندسازی آنها را قادر میسازد تا در مقیاس جهانی رقابت کنند، نه تنها با برآورده کردن مشخصات فنی، بلکه از طریق نوآوری در کارایی انرژی و مقرون به صرفه بودن - عوامل کلیدی برای پذیرش گسترده و استقلال فناوری."