HIGGS - روش نوآورانه برای فشردهسازی مدلهای زبانی بزرگ با همکاری تیمهایی در Yandex Research، MIT، KAUST و ISTA توسعه یافته است.
HIGGS این امکان را فراهم میکند تا مدلهای LLM را بدون دادههای اضافی یا بهینهسازی پارامترهای پرهزینه فشرده کرد.
برخلاف سایر روشهای فشردهسازی، HIGGS نیازی به سختافزار تخصصی و GPUهای قدرتمند ندارد. مدلها را میتوان مستقیماً روی یک تلفن هوشمند یا لپتاپ در عرض چند دقیقه و بدون افت کیفیت قابل توجه، کوانتیزه کرد.
این روش در حال حاضر برای کوانتیزه کردن مدلهای محبوب LLaMA 3.1 و 3.2 و همچنین مدلهای DeepSeek و Qwen استفاده شده است.
تیم Yandex Research به همراه محققانی از مؤسسه فناوری ماساچوست (MIT)، مؤسسه علم و فناوری اتریش (ISTA) و دانشگاه علم و صنعت ملک عبدالله (KAUST)، روشی برای فشردهسازی سریع مدلهای زبانی بزرگ بدون افت کیفیت قابل توجه توسعه دادند.
پیش از این، استقرار مدلهای زبانی بزرگ بر روی دستگاههای تلفن همراه یا لپتاپ شامل یک فرآیند کوانتیزاسیون بود - که بین ساعتها تا هفتهها طول میکشید و برای حفظ کیفیت خوب باید روی سرورهای صنعتی اجرا میشد. اکنون، کوانتیزاسیون میتواند در عرض چند دقیقه درست روی یک تلفن هوشمند یا لپتاپ بدون سختافزار درجه صنعتی یا GPUهای قدرتمند تکمیل شود.
HIGGS با از بین بردن نیاز به قدرت محاسباتی صنعتی، مانع ورود برای آزمایش و استقرار مدلهای جدید در دستگاههای درجه مصرفکننده، مانند رایانههای شخصی و تلفنهای هوشمند را کاهش میدهد.
این روش فشردهسازی نوآورانه، تعهد این شرکت را برای در دسترس قرار دادن مدلهای زبانی بزرگ برای همه، از بازیکنان بزرگ، SMBها و سازمانهای غیرانتفاعی گرفته تا مشارکتکنندگان فردی، توسعهدهندگان و محققان، بیشتر میکند. سال گذشته، محققان Yandex با همکاری دانشگاههای بزرگ علوم و فناوری، دو روش جدید فشردهسازی LLM را معرفی کردند: کوانتیزاسیون افزودنی مدلهای زبانی بزرگ (AQLM) و PV-Tuning. این روشها در مجموع میتوانند اندازه مدل را تا 8 برابر کاهش دهند و در عین حال 95٪ کیفیت پاسخ را حفظ کنند.
از بین بردن موانع پذیرش LLM
مدلهای زبانی بزرگ به منابع محاسباتی قابل توجهی نیاز دارند، که آنها را برای اکثر افراد غیرقابل دسترس و پرهزینه میکند. این مورد برای مدلهای متنباز، مانند DeepSeek R1 محبوب نیز صدق میکند، که حتی نمیتوان به راحتی آن را در پیشرفتهترین سرورهای طراحی شده برای آموزش مدل و سایر وظایف یادگیری ماشین مستقر کرد.
در نتیجه، دسترسی به این مدلهای قدرتمند به طور سنتی محدود به تعداد انگشت شماری از سازمانها با زیرساخت و قدرت محاسباتی لازم بوده است، علیرغم در دسترس بودن عمومی آنها.
با این حال، HIGGS میتواند راه را برای دسترسی گستردهتر هموار کند. توسعهدهندگان اکنون میتوانند اندازه مدل را بدون فدا کردن کیفیت کاهش دهند و آنها را بر روی دستگاههای مقرون به صرفهتر اجرا کنند. به عنوان مثال، از این روش میتوان برای فشردهسازی LLMهایی مانند DeepSeek R1 با 671 میلیارد پارامتر و Llama 4 Maverick با 400 میلیارد پارامتر استفاده کرد، که قبلاً فقط با افت کیفیت قابل توجهی میتوانست کوانتیزه (فشرده) شود. این تکنیک کوانتیزاسیون، روشهای جدیدی را برای استفاده از LLMها در زمینههای مختلف، به ویژه در محیطهای با محدودیت منابع، باز میکند. اکنون، استارتآپها و توسعهدهندگان مستقل میتوانند از مدلهای فشرده شده برای ساخت محصولات و خدمات نوآورانه استفاده کنند، در حالی که هزینهها را در تجهیزات گران قیمت کاهش میدهند.
Yandex در حال حاضر از HIGGS برای نمونهسازی و تسریع توسعه محصول و آزمایش ایده استفاده میکند، زیرا مدلهای فشرده شده امکان آزمایش سریعتر از همتایان در مقیاس کامل خود را فراهم میکنند.
درباره روش
HIGGS (ناهماهنگی Hadamard با شبکههای بهینه MSE گاوسی) مدلهای زبانی بزرگ را بدون نیاز به دادههای اضافی یا روشهای گرادیان کاهشی فشرده میکند، و کوانتیزاسیون را برای طیف گستردهای از برنامهها و دستگاهها در دسترستر و کارآمدتر میکند. این امر به ویژه زمانی ارزشمند است که دادههای مناسبی برای کالیبره کردن مدل وجود نداشته باشد. این روش تعادلی بین کیفیت مدل، اندازه و پیچیدگی کوانتیزاسیون ارائه میدهد، و امکان استفاده از مدلها را در طیف گستردهای از دستگاهها مانند تلفنهای هوشمند و لپتاپهای مصرفکننده فراهم میکند.
HIGGS روی مدلهای LLaMA 3.1 و 3.2 و همچنین روی مدلهای Qwen آزمایش شد. آزمایشها نشان میدهد که HIGGS از نظر نسبت کیفیت به اندازه، از سایر روشهای کوانتیزاسیون بدون داده، از جمله NF4 (NormalFloat 4 بیتی) و HQQ (کوانتیزاسیون نیمه درجه دوم) بهتر عمل میکند.
توسعهدهندگان و محققان میتوانند از قبل به این روش در Hugging Face دسترسی داشته باشند یا مقاله تحقیقاتی را که در arXiv در دسترس است، بررسی کنند. در پایان این ماه، این تیم مقاله خود را در NAACL، یکی از برترین کنفرانسهای جهان در زمینه هوش مصنوعی، ارائه خواهد کرد.
تعهد مستمر به پیشرفت علم و بهینهسازی
این یکی از چندین مقالهای است که Yandex Research در مورد کوانتیزاسیون مدلهای زبانی بزرگ ارائه کرده است. به عنوان مثال، این تیم AQLM و PV-Tuning را ارائه کرد، دو روش فشردهسازی LLM که میتواند بودجه محاسباتی یک شرکت را تا 8 برابر بدون افت قابل توجه در کیفیت پاسخ هوش مصنوعی کاهش دهد. این تیم همچنین سرویسی ساخت که به کاربران امکان میدهد یک مدل 8B را روی یک رایانه شخصی معمولی یا تلفن هوشمند از طریق یک رابط مبتنی بر مرورگر، حتی بدون قدرت محاسباتی بالا، اجرا کنند.
فراتر از کوانتیزاسیون LLM، Yandex چندین ابزار را متنباز کرده است که منابع مورد استفاده در آموزش LLM را بهینه میکنند. به عنوان مثال، کتابخانه YaFSDP آموزش LLM را تا 25٪ تسریع میکند و منابع GPU را برای آموزش تا 20٪ کاهش میدهد.
در اوایل سال جاری، توسعهدهندگان Yandex ابزار Perforator را متنباز کردند، ابزاری برای نظارت و تجزیه و تحلیل مداوم و بیدرنگ سرورها و برنامهها. Perforator ناکارآمدیهای کد را برجسته میکند و بینشهای عملی ارائه میدهد، که به شرکتها کمک میکند تا هزینههای زیرساخت را تا 20٪ کاهش دهند. این میتواند به صرفهجویی بالقوه در میلیونها یا حتی میلیاردها دلار در سال، بسته به اندازه شرکت، منجر شود.