مدل‌های زبان Gemma 3 QAT گوگل می‌توانند به صورت محلی روی پردازنده‌های گرافیکی مصرف‌کننده اجرا شوند

گوگل از خانواده Gemma 3 QAT، نسخه‌های کوانتیزه‌شده از مدل‌های زبانی متن‌باز Gemma 3 خود، رونمایی کرد. این مدل‌ها از آموزش آگاه از کوانتیزاسیون (Quantization-Aware Training - QAT) برای حفظ دقت بالا در زمان کوانتیزه کردن وزن‌ها از ۱۶ به ۴ بیت استفاده می‌کنند.

اکنون هر چهار اندازه مدل Gemma 3 در نسخه‌های QAT در دسترس هستند: مدل‌های ۱B، ۴B، ۱۲B و ۲۷B پارامتری. نسخه‌های کوانتیزه‌شده به میزان VRAM بسیار کمتری (تا ۲۵٪ VRAM مورد نیاز مدل‌های ۱۶ بیتی) نیاز دارند. گوگل ادعا می‌کند که مدل ۲۷B می‌تواند روی یک پردازنده گرافیکی دسکتاپ NVIDIA RTX 3090 با ۲۴ گیگابایت VRAM اجرا شود، در حالی که مدل ۱۲B می‌تواند روی یک پردازنده گرافیکی لپ‌تاپ NVIDIA RTX 4060 با ۸ گیگابایت VRAM اجرا شود. مدل‌های کوچک‌تر می‌توانند روی تلفن‌های همراه یا سایر دستگاه‌های اج اجرا شوند. گوگل با استفاده از آموزش آگاه از کوانتیزاسیون توانست افت دقت ناشی از کوانتیزاسیون را تا ۵۴٪ کاهش دهد. طبق گفته گوگل:

در حالی که عملکرد برتر روی سخت‌افزارهای پیشرفته برای استقرار در ابر و تحقیقات عالی است، ما صدای شما را بلند و واضح شنیدیم: شما قدرت Gemma 3 را روی سخت‌افزاری که از قبل دارید، می‌خواهید. ما متعهد به دسترس‌پذیر کردن هوش مصنوعی قدرتمند هستیم، و این به معنای امکان عملکرد کارآمد روی پردازنده‌های گرافیکی مصرف‌کننده موجود در دسکتاپ‌ها، لپ‌تاپ‌ها و حتی تلفن‌هاست... آوردن عملکرد پیشرفته هوش مصنوعی به سخت‌افزارهای دسترس‌پذیر گامی کلیدی در دموکراتیزه کردن توسعه هوش مصنوعی است... ما بی‌صبرانه منتظریم ببینیم شما با Gemma 3 که به صورت محلی اجرا می‌شود، چه چیزی می‌سازید!

اینفوکیو راه‌اندازی اولیه سری Gemma توسط گوگل در سال ۲۰۲۴ را پوشش داد، که به سرعت با Gemma 2 دنبال شد. این مدل‌های متن‌باز با ترکیب عناصر طراحی از مدل‌های پرچمدار Gemini گوگل، عملکردی رقابتی با مدل‌های دو برابر بزرگتر را به دست آوردند. جدیدترین تکرار، Gemma 3، بهبودهای عملکردی دارد که آن را به "مدل جمع‌وجور متن‌باز برتر" تبدیل کرده است، طبق گفته گوگل. Gemma 3 همچنین قابلیت‌های بینایی را اضافه کرد، به جز در اندازه ۱B.

در حالی که مدل‌های Gemma 3 بدون کوانتیزه عملکرد قابل توجهی برای اندازه خود نشان می‌دهند، هنوز هم به منابع GPU قابل توجهی نیاز دارند. به عنوان مثال، مدل ۱۲B بدون کوانتیزه به یک RTX 5090 با ۳۲ گیگابایت VRAM نیاز دارد. گوگل برای اجازه دادن به کوانتیزاسیون وزن‌های مدل بدون قربانی کردن عملکرد، از QAT استفاده کرد. این تکنیک شبیه‌سازی کوانتیزاسیون زمان استنتاج را در طول آموزش انجام می‌دهد، به جای اینکه صرفاً مدل را پس از آموزش کوانتیزه کند.

عمر سانزویرو، توسعه‌دهنده گوگل، در یک رشته در X درباره استفاده از مدل‌های QAT نوشت و پیشنهاد کرد که هنوز جای پیشرفت وجود دارد:

ما هنوز توصیه می‌کنیم با مدل‌ها کار کنید (به عنوان مثال ما embedding ها را کوانتیزه نکردیم، برخی افراد حتی کوانتیزاسیون ۳ بیتی را انجام دادند و بهتر از ۴ بیت naive کار می‌کرد)

کاربران از عملکرد مدل‌های QAT در بحثی در Hacker News تمجید کردند:

من چند سوال خصوصی برای "بررسی حال و هوا" دارم و مدل ۲۷B QAT 4 بیتی به درستی به همه آن‌ها پاسخ داد. من از چگالی اطلاعاتی که در فقط ۱۳ گیگابایت وزن قفل شده است، شوکه هستم. اگر کسی در Deepmind این را می‌خواند — Gemma 3 27B چشمگیرترین مدل متن‌بازی است که تا کنون استفاده کرده‌ام. عالی انجام شد!

سایمون ویلیسون، هم‌بنیان‌گذار Django Web Framework، درباره آزمایشات خود با مدل‌ها نوشت و گفت:

بعد از مدتی که آن را از طریق Open WebUI و Tailscale برای دسترسی به لپ‌تاپم از تلفنم تست کردم، فکر می‌کنم این ممکن است مدل محلی عمومی جدید مورد علاقه من باشد. به نظر می‌رسد Ollama در حین اجرای مدل ۲۲ گیگابایت رم مصرف می‌کند، که فضای کافی را در دستگاه ۶۴ گیگابایتی من برای برنامه‌های دیگر باقی می‌گذارد.

وزن‌های مدل Gemma 3 QAT در HuggingFace و در چندین فریم‌ورک محبوب LLM، از جمله Ollama، LM Studio، Gemma.cpp و llama.cpp در دسترس هستند.