گوگل از خانواده Gemma 3 QAT، نسخههای کوانتیزهشده از مدلهای زبانی متنباز Gemma 3 خود، رونمایی کرد. این مدلها از آموزش آگاه از کوانتیزاسیون (Quantization-Aware Training - QAT) برای حفظ دقت بالا در زمان کوانتیزه کردن وزنها از ۱۶ به ۴ بیت استفاده میکنند.
اکنون هر چهار اندازه مدل Gemma 3 در نسخههای QAT در دسترس هستند: مدلهای ۱B، ۴B، ۱۲B و ۲۷B پارامتری. نسخههای کوانتیزهشده به میزان VRAM بسیار کمتری (تا ۲۵٪ VRAM مورد نیاز مدلهای ۱۶ بیتی) نیاز دارند. گوگل ادعا میکند که مدل ۲۷B میتواند روی یک پردازنده گرافیکی دسکتاپ NVIDIA RTX 3090 با ۲۴ گیگابایت VRAM اجرا شود، در حالی که مدل ۱۲B میتواند روی یک پردازنده گرافیکی لپتاپ NVIDIA RTX 4060 با ۸ گیگابایت VRAM اجرا شود. مدلهای کوچکتر میتوانند روی تلفنهای همراه یا سایر دستگاههای اج اجرا شوند. گوگل با استفاده از آموزش آگاه از کوانتیزاسیون توانست افت دقت ناشی از کوانتیزاسیون را تا ۵۴٪ کاهش دهد. طبق گفته گوگل:
در حالی که عملکرد برتر روی سختافزارهای پیشرفته برای استقرار در ابر و تحقیقات عالی است، ما صدای شما را بلند و واضح شنیدیم: شما قدرت Gemma 3 را روی سختافزاری که از قبل دارید، میخواهید. ما متعهد به دسترسپذیر کردن هوش مصنوعی قدرتمند هستیم، و این به معنای امکان عملکرد کارآمد روی پردازندههای گرافیکی مصرفکننده موجود در دسکتاپها، لپتاپها و حتی تلفنهاست... آوردن عملکرد پیشرفته هوش مصنوعی به سختافزارهای دسترسپذیر گامی کلیدی در دموکراتیزه کردن توسعه هوش مصنوعی است... ما بیصبرانه منتظریم ببینیم شما با Gemma 3 که به صورت محلی اجرا میشود، چه چیزی میسازید!
اینفوکیو راهاندازی اولیه سری Gemma توسط گوگل در سال ۲۰۲۴ را پوشش داد، که به سرعت با Gemma 2 دنبال شد. این مدلهای متنباز با ترکیب عناصر طراحی از مدلهای پرچمدار Gemini گوگل، عملکردی رقابتی با مدلهای دو برابر بزرگتر را به دست آوردند. جدیدترین تکرار، Gemma 3، بهبودهای عملکردی دارد که آن را به "مدل جمعوجور متنباز برتر" تبدیل کرده است، طبق گفته گوگل. Gemma 3 همچنین قابلیتهای بینایی را اضافه کرد، به جز در اندازه ۱B.
در حالی که مدلهای Gemma 3 بدون کوانتیزه عملکرد قابل توجهی برای اندازه خود نشان میدهند، هنوز هم به منابع GPU قابل توجهی نیاز دارند. به عنوان مثال، مدل ۱۲B بدون کوانتیزه به یک RTX 5090 با ۳۲ گیگابایت VRAM نیاز دارد. گوگل برای اجازه دادن به کوانتیزاسیون وزنهای مدل بدون قربانی کردن عملکرد، از QAT استفاده کرد. این تکنیک شبیهسازی کوانتیزاسیون زمان استنتاج را در طول آموزش انجام میدهد، به جای اینکه صرفاً مدل را پس از آموزش کوانتیزه کند.
عمر سانزویرو، توسعهدهنده گوگل، در یک رشته در X درباره استفاده از مدلهای QAT نوشت و پیشنهاد کرد که هنوز جای پیشرفت وجود دارد:
ما هنوز توصیه میکنیم با مدلها کار کنید (به عنوان مثال ما embedding ها را کوانتیزه نکردیم، برخی افراد حتی کوانتیزاسیون ۳ بیتی را انجام دادند و بهتر از ۴ بیت naive کار میکرد)
کاربران از عملکرد مدلهای QAT در بحثی در Hacker News تمجید کردند:
من چند سوال خصوصی برای "بررسی حال و هوا" دارم و مدل ۲۷B QAT 4 بیتی به درستی به همه آنها پاسخ داد. من از چگالی اطلاعاتی که در فقط ۱۳ گیگابایت وزن قفل شده است، شوکه هستم. اگر کسی در Deepmind این را میخواند — Gemma 3 27B چشمگیرترین مدل متنبازی است که تا کنون استفاده کردهام. عالی انجام شد!
سایمون ویلیسون، همبنیانگذار Django Web Framework، درباره آزمایشات خود با مدلها نوشت و گفت:
بعد از مدتی که آن را از طریق Open WebUI و Tailscale برای دسترسی به لپتاپم از تلفنم تست کردم، فکر میکنم این ممکن است مدل محلی عمومی جدید مورد علاقه من باشد. به نظر میرسد Ollama در حین اجرای مدل ۲۲ گیگابایت رم مصرف میکند، که فضای کافی را در دستگاه ۶۴ گیگابایتی من برای برنامههای دیگر باقی میگذارد.
وزنهای مدل Gemma 3 QAT در HuggingFace و در چندین فریمورک محبوب LLM، از جمله Ollama، LM Studio، Gemma.cpp و llama.cpp در دسترس هستند.