یادداشت‌هایی درباره Gemma 3 گوگل

نمایش متحرک - یک ناحیه متنی ساده، من در آن متن تایپ می‌کنم و شمارش کلمات در بالا به‌روزرسانی می‌شود.
مجموعه‌ای از اشکال انتزاعی، قطعاً یک پلیکان سوار بر دوچرخه نیست

یادداشت‌هایی درباره Gemma 3 گوگل

تیم Gemma گوگل امروز یک مدل جدید چشمگیر (تحت مجوز Gemma خود که متن‌باز نیست) منتشر کرد. Gemma 3 در چهار اندازه 1B، 4B، 12B و 27B عرضه می‌شود و در حالی که 1B فقط متنی است، سه مدل بزرگ‌تر همگی چندوجهی برای دید هستند:

Gemma 3 قابلیت چندوجهی بودن را معرفی می‌کند و از ورودی زبان دیداری و خروجی متن پشتیبانی می‌کند. این مدل پنجره‌های متنی تا 128k توکن را مدیریت می‌کند، بیش از 140 زبان را درک می‌کند و قابلیت‌های ریاضی، استدلال و چت بهبود یافته‌ای را ارائه می‌دهد، از جمله خروجی‌های ساختاریافته و فراخوانی عملکرد.

من بزرگترین مدل را با استفاده از آخرین نسخه Ollama آزمایش کردم—این دومین بار است که من یک مدل اصلی را می‌بینم که در روز عرضه با Ollama همکاری می‌کند، اولین بار Mistral Small 3 بود.

من این را اجرا کردم (پس از ارتقاء Ollama از طریق گزینه ارتقاء نماد منوی آن):

ollama pull gemma3:27b

این 17 گیگابایت وزن مدل را کشید. من آن را با استفاده از LLM و llm-ollama آزمایش کرده‌ام:

llm install llm-ollama
llm -m gemma3:27b 'Build a single page HTML+CSS+JavaScript UI that gives me a large textarea for writing in which constantly saves what I have entered to localStorage (restoring when I reload the page) and displays a word counter'

این یک تکرار از پرامپتی بود که چند ماه پیش در برابر Claude Artifacts اجرا کردم. آنچه Gemma ساخت و رونوشت کامل چت را اینجا ببینید. این یک مثال ساده است اما درست کار کرد.

نمایش متحرک - یک ناحیه متنی ساده، من در آن متن تایپ می‌کنم و شمارش کلمات در بالا به‌روزرسانی می‌شود.

بیایید حالت دید را امتحان کنیم و از آن بخواهیم این عکس را توصیف کند:

دو پلیکان که در برابر آسمان آبی پرواز می‌کنند
llm -m gemma3:27b describe -a https://static.simonwillison.net/static/2025/two-pelicans.jpg

پاسخ کامل را اینجا ببینید:

تصور کلی:

این تصویر دو پلیکان قهوه‌ای را در حال پرواز در برابر یک پس‌زمینه آبی روشن نشان می‌دهد. ترکیب‌بندی پویا است و پرندگان را در حین بال زدن به تصویر می‌کشد.

جزئیات:

  • پلیکان‌ها: هر دو پلیکان به رنگ قهوه‌ای تیره هستند. آن‌ها منقارها و کیسه‌های بزرگ زرد-نارنجی رنگی دارند. یک پلیکان با بال‌های کاملاً باز نشان داده شده است که به نظر می‌رسد در حال سر خوردن یا اوج گرفتن است. دیگری با بال‌های در حال حرکت پویا و رو به بالا به تصویر کشیده شده است.
  • پس‌زمینه: پس‌زمینه یک سایه صاف و یکنواخت از آبی روشن است که باعث می‌شود پلیکان‌ها برجسته شوند.
  • ترکیب‌بندی: پرندگان در جهت‌های مخالف قرار گرفته‌اند و حس حرکت و تعادل را ایجاد می‌کنند. تصویر به خوبی روشن است و بافت پرهای پلیکان‌ها را برجسته می‌کند.

به طور کلی، این تصویر یک تصویر چشمگیر و از نظر بصری جذاب از این پرندگان باشکوه در حال پرواز است.

چیزی که اخیراً در مورد آن کنجکاو بوده‌ام، پشتیبانی از متن طولانی‌تر است: یک مدل محلی روی لپ‌تاپ من چقدر می‌تواند از عهده خلاصه‌سازی یا استخراج داده‌ها در برابر قطعات طولانی‌تر متن برآید؟

تصمیم گرفتم اسکریپت خلاصه‌سازی Hacker News خود را با استفاده از Gemma، در برابر موضوعی در آنجا که درباره مقاله فنی Gemma 3 بحث می‌کردند، امتحان کنم.

ابتدا یک شمارش سریع توکن انجام دادم (با استفاده از توکنایزر OpenAI اما معمولاً عددی مشابه با سایر مدل‌ها است):

curl 'https://hn.algolia.com/api/v1/items/43340491' | ttok

این مقدار 22260 را برگرداند—به خوبی در محدوده مستند شده Gemma اما هنوز هم تعداد قابل توجهی است، با توجه به اینکه سال گذشته اکثر مدل‌ها در 4000 یا 8000 متوقف شدند.

من اسکریپت خود را به این صورت اجرا کردم:

hn-summary.sh 43340491 -m gemma3:27b

کار بسیار خوبی انجام داد! درخواست و پاسخ کامل را اینجا ببینید. یک اشتباه بزرگ این است که دستورالعمل‌های من برای گنجاندن نقل قول‌های گویا را نادیده گرفت—نمی‌دانم آیا تغییر پرامپت این را برطرف می‌کند یا خیر، اما ناامیدکننده است که آن را به خوبی مدیریت نکرد، با توجه به اینکه نقل قول‌های مستقیم چقدر برای ایجاد اعتماد به پاسخ‌های سبک RAG مهم هستند.

این چیزی است که من برای تولید یک SVG از یک پلیکان در حال دوچرخه‌سواری دریافت کردم:

llm -m gemma3:27b 'Generate an SVG of a pelican riding a bicycle'
مجموعه‌ای از اشکال انتزاعی، قطعاً یک پلیکان سوار بر دوچرخه نیست

همچنین می‌توانید Gemma جدید را در Google AI Studio و از طریق API آن‌ها امتحان کنید. من پشتیبانی از آن را به llm-gemini 0.15 اضافه کردم، اگرچه متاسفانه به نظر می‌رسد حالت دید با آن مدل میزبانی شده API هنوز کار نمی‌کند.

llm install -U llm-gemini
llm keys set gemini
# paste key here
llm -m gemma-3-27b-it 'five facts about pelicans of interest to skunks'

این چیزی است که من دریافت کردم. مطمئن نیستم که قیمت‌گذاری برای آن مدل میزبانی شده چگونه کار می‌کند.

Gemma 3 همچنین در حال حاضر از طریق MLX-VLM در دسترس است—مجموعه مدل آن‌ها را اینجا ببینید—اما من هنوز آن نسخه را امتحان نکرده‌ام.