Gemma-3-27b-it-qat-q4_0-gguf شبیه رمز وای‌فای است، اما کوچک‌ترین مدل زبانی بزرگ گوگل است

نمودار میله‌ای: الزامات VRAM اندازه‌های مختلف مدل Gemma 3، مقایسه بین نسخه‌های خام (bf16) و کوانتیزه‌شده (int4).
کوانتیزاسیون مدل‌های Gemma منجر به کاهش چشمگیری در الزامات VRAM می‌شود. به عنوان مثال، در حالی که مدل 27B به 54 گیگابایت در فرمت خام خود نیاز دارد، نسخه کوانتیزه‌شده تنها با 14.1 گیگابایت اجرا می‌شود—با عملکردی که به گفته گوگل، به دلیل آموزش آگاه از کوانتیزاسیون قابل مقایسه باقی می‌ماند. | تصویر: گوگل

آموزش آگاه از کوانتیزاسیون به آخرین مدل‌های گوگل اجازه می‌دهد تا بر روی پردازنده‌های گرافیکی محلی و حتی دستگاه‌های تلفن همراه اجرا شوند.

با یک رویکرد آموزشی تخصصی، این مدل‌های جدید Gemma 3 اکنون می‌توانند به طور موثر بر روی سخت‌افزار مصرف‌کننده—مانند پردازنده‌های گرافیکی مخصوص بازی یا حتی دستگاه‌های تلفن همراه—اجرا شوند، بدون اینکه کیفیت آن‌ها به طور چشمگیری کاهش یابد. برای درک بهتر، مدل‌های اصلی Gemma 3 برای تنظیمات با کارایی بالا با استفاده از NVIDIA H100s و دقت BFloat16 ساخته شده‌اند که آن‌ها را عمدتاً از دسترس کاربران عادی دور نگه می‌دارد.

نکته کلیدی این تغییر، کوانتیزاسیون (Quantization) است، فرآیندی که به طور چشمگیری مصرف حافظه را کاهش می‌دهد. هر دو مدل و نقاط بازرسی آن‌ها اکنون در Hugging Face و Kaggle در دسترس هستند.

کوانتیزاسیون به معنای ذخیره وزن‌ها و فعال‌سازی‌ها با بیت‌های کمتر است—اغلب ۸، ۴، یا حتی فقط ۲—به جای ۱۶ یا ۳۲ معمول. این منجر به مدل‌های کوچک‌تری می‌شود که سریع‌تر اجرا می‌شوند، زیرا اعداد با دقت پایین‌تر سریع‌تر منتقل و پردازش می‌شوند.

کاهش استفاده از حافظه از طریق آموزش آگاه از کوانتیزاسیون

در Gemma 3، گوگل از آموزش آگاه از کوانتیزاسیون (Quantization-Aware Training - QAT) استفاده می‌کند، تکنیکی که شرایط دقت کاهش‌یافته را در طول آموزش معرفی می‌کند. با شبیه‌سازی عرض بیت پایین‌تر از ابتدا، مدل یاد می‌گیرد که با این محدودیت‌ها سازگار شود و کاهش عملکرد معمول در هنگام اجرا با دقت پایین‌تر را به حداقل می‌رساند.

صرفه‌جویی در حافظه قابل توجه است. به عنوان مثال، مدل 27B از 54 گیگابایت VRAM به تنها 14.1 گیگابایت در فرمت int4 کاهش می‌یابد. مدل 12B از 24 گیگابایت به 6.6 گیگابایت کاهش می‌یابد. حتی مدل‌های کوچک‌تر نیز سود می‌برند: نسخه 4B با 2.6 گیگابایت ارائه می‌شود، در حالی که مدل 1B تنها به 0.5 گیگابایت نیاز دارد.

گوگل ادعا می‌کند که به دلیل QAT، مدل‌ها در برابر کوانتیزاسیون مقاوم هستند، شرایطی که معمولاً منجر به از دست دادن کیفیت مدل می‌شود. با این حال، این شرکت نتایج معیار به‌روز شده‌ای را برای حمایت از این ادعا منتشر نکرده است.

این مدل‌ها با موتورهای استنتاج رایج برای ادغام در گردش کار موجود سازگار هستند. پشتیبانی بومی برای Ollama، LM Studio و MLX (برای Apple Silicon) در دسترس است. ابزارهایی مانند llama.cpp و gemma.cpp نیز پشتیبانی از مدل‌های کوانتیزه‌شده Gemma را در فرمت GGUF ارائه می‌دهند.

فراتر از نسخه‌های رسمی گوگل، جامعه نیز تحت بنر "Gemmaverse" در حال آزمایش است—انواع جامعه که از کوانتیزاسیون پس از آموزش برای ترکیب و تطبیق اندازه مدل، سرعت و کیفیت استفاده می‌کنند.

خلاصه

  • گوگل نسخه‌های جدیدی از مدل‌های زبانی Gemma 3 خود را منتشر کرده است که از کوانتیزاسیون برای کاهش الزامات حافظه استفاده می‌کنند و به آن‌ها اجازه می‌دهند تا بر روی پردازنده‌های گرافیکی مصرف‌کننده مانند RTX 3090 و حتی بر روی دستگاه‌های تلفن همراه اجرا شوند.
  • با استفاده از آموزش آگاه از کوانتیزاسیون (QAT)، مدل‌ها کیفیت خود را در حالی که از عرض بیت بسیار کوچک‌تری استفاده می‌کنند، حفظ می‌کنند - بزرگ‌ترین نسخه هنگام استفاده از فرمت int4 از حدود یک چهارم VRAM اصلی استفاده می‌کند.
  • این مدل‌های بهینه‌شده با موتورهای استنتاج محبوب مانند Ollama، LM Studio و MLX کار می‌کنند و در فرمت‌های مختلف در پلتفرم‌هایی مانند Hugging Face و Kaggle در دسترس هستند.

منابع: Google Developers