یادداشتهایی درباره Gemma 3 گوگل
تیم Gemma گوگل امروز یک مدل جدید چشمگیر (تحت مجوز Gemma خود که متنباز نیست) منتشر کرد. Gemma 3 در چهار اندازه 1B، 4B، 12B و 27B عرضه میشود و در حالی که 1B فقط متنی است، سه مدل بزرگتر همگی چندوجهی برای دید هستند:
Gemma 3 قابلیت چندوجهی بودن را معرفی میکند و از ورودی زبان دیداری و خروجی متن پشتیبانی میکند. این مدل پنجرههای متنی تا 128k توکن را مدیریت میکند، بیش از 140 زبان را درک میکند و قابلیتهای ریاضی، استدلال و چت بهبود یافتهای را ارائه میدهد، از جمله خروجیهای ساختاریافته و فراخوانی عملکرد.
من بزرگترین مدل را با استفاده از آخرین نسخه Ollama آزمایش کردم—این دومین بار است که من یک مدل اصلی را میبینم که در روز عرضه با Ollama همکاری میکند، اولین بار Mistral Small 3 بود.
من این را اجرا کردم (پس از ارتقاء Ollama از طریق گزینه ارتقاء نماد منوی آن):
ollama pull gemma3:27b
این 17 گیگابایت وزن مدل را کشید. من آن را با استفاده از LLM و llm-ollama آزمایش کردهام:
llm install llm-ollama
llm -m gemma3:27b 'Build a single page HTML+CSS+JavaScript UI that gives me a large textarea for writing in which constantly saves what I have entered to localStorage (restoring when I reload the page) and displays a word counter'
این یک تکرار از پرامپتی بود که چند ماه پیش در برابر Claude Artifacts اجرا کردم. آنچه Gemma ساخت و رونوشت کامل چت را اینجا ببینید. این یک مثال ساده است اما درست کار کرد.
بیایید حالت دید را امتحان کنیم و از آن بخواهیم این عکس را توصیف کند:
llm -m gemma3:27b describe -a https://static.simonwillison.net/static/2025/two-pelicans.jpg
پاسخ کامل را اینجا ببینید:
تصور کلی:
این تصویر دو پلیکان قهوهای را در حال پرواز در برابر یک پسزمینه آبی روشن نشان میدهد. ترکیببندی پویا است و پرندگان را در حین بال زدن به تصویر میکشد.
جزئیات:
- پلیکانها: هر دو پلیکان به رنگ قهوهای تیره هستند. آنها منقارها و کیسههای بزرگ زرد-نارنجی رنگی دارند. یک پلیکان با بالهای کاملاً باز نشان داده شده است که به نظر میرسد در حال سر خوردن یا اوج گرفتن است. دیگری با بالهای در حال حرکت پویا و رو به بالا به تصویر کشیده شده است.
- پسزمینه: پسزمینه یک سایه صاف و یکنواخت از آبی روشن است که باعث میشود پلیکانها برجسته شوند.
- ترکیببندی: پرندگان در جهتهای مخالف قرار گرفتهاند و حس حرکت و تعادل را ایجاد میکنند. تصویر به خوبی روشن است و بافت پرهای پلیکانها را برجسته میکند.
به طور کلی، این تصویر یک تصویر چشمگیر و از نظر بصری جذاب از این پرندگان باشکوه در حال پرواز است.
چیزی که اخیراً در مورد آن کنجکاو بودهام، پشتیبانی از متن طولانیتر است: یک مدل محلی روی لپتاپ من چقدر میتواند از عهده خلاصهسازی یا استخراج دادهها در برابر قطعات طولانیتر متن برآید؟
تصمیم گرفتم اسکریپت خلاصهسازی Hacker News خود را با استفاده از Gemma، در برابر موضوعی در آنجا که درباره مقاله فنی Gemma 3 بحث میکردند، امتحان کنم.
ابتدا یک شمارش سریع توکن انجام دادم (با استفاده از توکنایزر OpenAI اما معمولاً عددی مشابه با سایر مدلها است):
curl 'https://hn.algolia.com/api/v1/items/43340491' | ttok
این مقدار 22260 را برگرداند—به خوبی در محدوده مستند شده Gemma اما هنوز هم تعداد قابل توجهی است، با توجه به اینکه سال گذشته اکثر مدلها در 4000 یا 8000 متوقف شدند.
من اسکریپت خود را به این صورت اجرا کردم:
hn-summary.sh 43340491 -m gemma3:27b
کار بسیار خوبی انجام داد! درخواست و پاسخ کامل را اینجا ببینید. یک اشتباه بزرگ این است که دستورالعملهای من برای گنجاندن نقل قولهای گویا را نادیده گرفت—نمیدانم آیا تغییر پرامپت این را برطرف میکند یا خیر، اما ناامیدکننده است که آن را به خوبی مدیریت نکرد، با توجه به اینکه نقل قولهای مستقیم چقدر برای ایجاد اعتماد به پاسخهای سبک RAG مهم هستند.
این چیزی است که من برای تولید یک SVG از یک پلیکان در حال دوچرخهسواری دریافت کردم:
llm -m gemma3:27b 'Generate an SVG of a pelican riding a bicycle'
همچنین میتوانید Gemma جدید را در Google AI Studio و از طریق API آنها امتحان کنید. من پشتیبانی از آن را به llm-gemini 0.15 اضافه کردم، اگرچه متاسفانه به نظر میرسد حالت دید با آن مدل میزبانی شده API هنوز کار نمیکند.
llm install -U llm-gemini
llm keys set gemini
# paste key here
llm -m gemma-3-27b-it 'five facts about pelicans of interest to skunks'
این چیزی است که من دریافت کردم. مطمئن نیستم که قیمتگذاری برای آن مدل میزبانی شده چگونه کار میکند.
Gemma 3 همچنین در حال حاضر از طریق MLX-VLM در دسترس است—مجموعه مدل آنها را اینجا ببینید—اما من هنوز آن نسخه را امتحان نکردهام.