مدل‌های زبانی بزرگ دیگر نیازی به سرورهای قدرتمند ندارند: محققان MIT، KAUST، ISTA و Yandex رویکرد جدیدی برای هوش مصنوعی معرفی می‌کنند

HIGGS - روش نوآورانه برای فشرده‌سازی مدل‌های زبانی بزرگ با همکاری تیم‌هایی در Yandex Research، MIT، KAUST و ISTA توسعه یافته است.

HIGGS این امکان را فراهم می‌کند تا مدل‌های LLM را بدون داده‌های اضافی یا بهینه‌سازی پارامترهای پرهزینه فشرده کرد.

برخلاف سایر روش‌های فشرده‌سازی، HIGGS نیازی به سخت‌افزار تخصصی و GPUهای قدرتمند ندارد. مدل‌ها را می‌توان مستقیماً روی یک تلفن هوشمند یا لپ‌تاپ در عرض چند دقیقه و بدون افت کیفیت قابل توجه، کوانتیزه کرد.

این روش در حال حاضر برای کوانتیزه کردن مدل‌های محبوب LLaMA 3.1 و 3.2 و همچنین مدل‌های DeepSeek و Qwen استفاده شده است.

تیم Yandex Research به همراه محققانی از مؤسسه فناوری ماساچوست (MIT)، مؤسسه علم و فناوری اتریش (ISTA) و دانشگاه علم و صنعت ملک عبدالله (KAUST)، روشی برای فشرده‌سازی سریع مدل‌های زبانی بزرگ بدون افت کیفیت قابل توجه توسعه دادند.

پیش از این، استقرار مدل‌های زبانی بزرگ بر روی دستگاه‌های تلفن همراه یا لپ‌تاپ شامل یک فرآیند کوانتیزاسیون بود - که بین ساعت‌ها تا هفته‌ها طول می‌کشید و برای حفظ کیفیت خوب باید روی سرورهای صنعتی اجرا می‌شد. اکنون، کوانتیزاسیون می‌تواند در عرض چند دقیقه درست روی یک تلفن هوشمند یا لپ‌تاپ بدون سخت‌افزار درجه صنعتی یا GPUهای قدرتمند تکمیل شود.

HIGGS با از بین بردن نیاز به قدرت محاسباتی صنعتی، مانع ورود برای آزمایش و استقرار مدل‌های جدید در دستگاه‌های درجه مصرف‌کننده، مانند رایانه‌های شخصی و تلفن‌های هوشمند را کاهش می‌دهد.

این روش فشرده‌سازی نوآورانه، تعهد این شرکت را برای در دسترس قرار دادن مدل‌های زبانی بزرگ برای همه، از بازیکنان بزرگ، SMBها و سازمان‌های غیرانتفاعی گرفته تا مشارکت‌کنندگان فردی، توسعه‌دهندگان و محققان، بیشتر می‌کند. سال گذشته، محققان Yandex با همکاری دانشگاه‌های بزرگ علوم و فناوری، دو روش جدید فشرده‌سازی LLM را معرفی کردند: کوانتیزاسیون افزودنی مدل‌های زبانی بزرگ (AQLM) و PV-Tuning. این روش‌ها در مجموع می‌توانند اندازه مدل را تا 8 برابر کاهش دهند و در عین حال 95٪ کیفیت پاسخ را حفظ کنند.

از بین بردن موانع پذیرش LLM

مدل‌های زبانی بزرگ به منابع محاسباتی قابل توجهی نیاز دارند، که آنها را برای اکثر افراد غیرقابل دسترس و پرهزینه می‌کند. این مورد برای مدل‌های متن‌باز، مانند DeepSeek R1 محبوب نیز صدق می‌کند، که حتی نمی‌توان به راحتی آن را در پیشرفته‌ترین سرورهای طراحی شده برای آموزش مدل و سایر وظایف یادگیری ماشین مستقر کرد.

در نتیجه، دسترسی به این مدل‌های قدرتمند به طور سنتی محدود به تعداد انگشت شماری از سازمان‌ها با زیرساخت و قدرت محاسباتی لازم بوده است، علیرغم در دسترس بودن عمومی آنها.

با این حال، HIGGS می‌تواند راه را برای دسترسی گسترده‌تر هموار کند. توسعه‌دهندگان اکنون می‌توانند اندازه مدل را بدون فدا کردن کیفیت کاهش دهند و آنها را بر روی دستگاه‌های مقرون به صرفه‌تر اجرا کنند. به عنوان مثال، از این روش می‌توان برای فشرده‌سازی LLMهایی مانند DeepSeek R1 با 671 میلیارد پارامتر و Llama 4 Maverick با 400 میلیارد پارامتر استفاده کرد، که قبلاً فقط با افت کیفیت قابل توجهی می‌توانست کوانتیزه (فشرده) شود. این تکنیک کوانتیزاسیون، روش‌های جدیدی را برای استفاده از LLMها در زمینه‌های مختلف، به ویژه در محیط‌های با محدودیت منابع، باز می‌کند. اکنون، استارت‌آپ‌ها و توسعه‌دهندگان مستقل می‌توانند از مدل‌های فشرده شده برای ساخت محصولات و خدمات نوآورانه استفاده کنند، در حالی که هزینه‌ها را در تجهیزات گران قیمت کاهش می‌دهند.

Yandex در حال حاضر از HIGGS برای نمونه‌سازی و تسریع توسعه محصول و آزمایش ایده استفاده می‌کند، زیرا مدل‌های فشرده شده امکان آزمایش سریع‌تر از همتایان در مقیاس کامل خود را فراهم می‌کنند.

درباره روش

HIGGS (ناهماهنگی Hadamard با شبکه‌های بهینه MSE گاوسی) مدل‌های زبانی بزرگ را بدون نیاز به داده‌های اضافی یا روش‌های گرادیان کاهشی فشرده می‌کند، و کوانتیزاسیون را برای طیف گسترده‌ای از برنامه‌ها و دستگاه‌ها در دسترس‌تر و کارآمدتر می‌کند. این امر به ویژه زمانی ارزشمند است که داده‌های مناسبی برای کالیبره کردن مدل وجود نداشته باشد. این روش تعادلی بین کیفیت مدل، اندازه و پیچیدگی کوانتیزاسیون ارائه می‌دهد، و امکان استفاده از مدل‌ها را در طیف گسترده‌ای از دستگاه‌ها مانند تلفن‌های هوشمند و لپ‌تاپ‌های مصرف‌کننده فراهم می‌کند.

HIGGS روی مدل‌های LLaMA 3.1 و 3.2 و همچنین روی مدل‌های Qwen آزمایش شد. آزمایش‌ها نشان می‌دهد که HIGGS از نظر نسبت کیفیت به اندازه، از سایر روش‌های کوانتیزاسیون بدون داده، از جمله NF4 (NormalFloat 4 بیتی) و HQQ (کوانتیزاسیون نیمه درجه دوم) بهتر عمل می‌کند.

توسعه‌دهندگان و محققان می‌توانند از قبل به این روش در Hugging Face دسترسی داشته باشند یا مقاله تحقیقاتی را که در arXiv در دسترس است، بررسی کنند. در پایان این ماه، این تیم مقاله خود را در NAACL، یکی از برترین کنفرانس‌های جهان در زمینه هوش مصنوعی، ارائه خواهد کرد.

تعهد مستمر به پیشرفت علم و بهینه‌سازی

این یکی از چندین مقاله‌ای است که Yandex Research در مورد کوانتیزاسیون مدل‌های زبانی بزرگ ارائه کرده است. به عنوان مثال، این تیم AQLM و PV-Tuning را ارائه کرد، دو روش فشرده‌سازی LLM که می‌تواند بودجه محاسباتی یک شرکت را تا 8 برابر بدون افت قابل توجه در کیفیت پاسخ هوش مصنوعی کاهش دهد. این تیم همچنین سرویسی ساخت که به کاربران امکان می‌دهد یک مدل 8B را روی یک رایانه شخصی معمولی یا تلفن هوشمند از طریق یک رابط مبتنی بر مرورگر، حتی بدون قدرت محاسباتی بالا، اجرا کنند.

فراتر از کوانتیزاسیون LLM، Yandex چندین ابزار را متن‌باز کرده است که منابع مورد استفاده در آموزش LLM را بهینه می‌کنند. به عنوان مثال، کتابخانه YaFSDP آموزش LLM را تا 25٪ تسریع می‌کند و منابع GPU را برای آموزش تا 20٪ کاهش می‌دهد.

در اوایل سال جاری، توسعه‌دهندگان Yandex ابزار Perforator را متن‌باز کردند، ابزاری برای نظارت و تجزیه و تحلیل مداوم و بی‌درنگ سرورها و برنامه‌ها. Perforator ناکارآمدی‌های کد را برجسته می‌کند و بینش‌های عملی ارائه می‌دهد، که به شرکت‌ها کمک می‌کند تا هزینه‌های زیرساخت را تا 20٪ کاهش دهند. این می‌تواند به صرفه‌جویی بالقوه در میلیون‌ها یا حتی میلیاردها دلار در سال، بسته به اندازه شرکت، منجر شود.