اعتبار تصویر: 123RF (با تغییرات)
اعتبار تصویر: 123RF (با تغییرات)

گوگل با عرضه گسترده جمینی و جما ۳، OpenAI را به چالش می‌کشد

پس از موفقیت چشمگیر ChatGPT از OpenAI، بسیاری از ناظران و تحلیلگران، گوگل را به عنوان غولی که نتوانست خود را با موج جدید فناوری هوش مصنوعی تطبیق دهد، نادیده گرفتند. عرضه ناموفق Bard و سایر اشتباهات این شرکت، تنها این احساسات را تقویت کرد.

با این حال، دو سال بعد، گوگل با جمینی (Gemini) و جما (Gemma) بازگشتی عالی داشته و تقریباً در هر زمینه OpenAI را به چالش می‌کشد. با آخرین ویژگی‌ها و مدل‌های منتشر شده، محصولات هوش مصنوعی گوگل اکنون با OpenAI و ارائه‌دهندگان مدل‌های باز همتراز هستند.

جما ۳ (Gemma 3)

جما ۳ آخرین نسخه از مدل‌های متن‌باز گوگل است. این مدل در اندازه‌های مختلف (1B، 4B، 12B و 27B) ارائه می‌شود و برای اجرا بر روی طیف وسیعی از سخت‌افزارها، از تلفن‌ها تا شتاب‌دهنده‌ها، مناسب است. این مدل از یک رمزگذار دیداری (vision encoder) برای پذیرش ورودی چندوجهی (multi-modal input)، از جمله متن، تصاویر و ویدئو به عنوان ورودی استفاده می‌کند. همچنین از فراخوانی تابع (function calling) و خروجی ساخت‌یافته (structured output) پشتیبانی می‌کند، که برای برنامه‌های کاربردی عامل‌محور (agentic applications) و سیستم‌هایی که مدل باید با ابزارها و سایر اجزای نرم‌افزاری تعامل داشته باشد، مناسب است.

جما ۳ دارای یک پنجره زمینه (context window) با ۱۲۸۰۰۰ توکن است، که آن را برای مکالمات طولانی چند نوبتی (multi-turn conversations)، پردازش اسناد طولانی و درخواست‌ها با مثال‌های زیاد مناسب می‌سازد (مدل 1B دارای یک پنجره زمینه ۳۲k است). گوگل توانسته است ترکیبی از لایه‌های توجه محلی (local attention layers) و جهانی (global attention layers) ایجاد کند تا زمینه طولانی را بدون افزایش چشمگیر هزینه‌های حافظه و محاسباتی برای گسترش پنجره زمینه مدیریت کند.

آنچه جما ۳ را به ویژه جذاب می‌کند، کارایی آن است. حتی بزرگترین نوع آن نیز می‌تواند روی یک شتاب‌دهنده واحد قرار گیرد، که آن را به مدلی جذاب برای انواع کاربردها تبدیل می‌کند. اصلی‌ترین شکایت علیه جما ۳، مجوز آن است که محدودیت‌ها و شرایط استفاده مبهمی را در مورد نحوه استفاده از آن تعیین می‌کند.

برنامه‌ی جمینی ارتقاءهای اساسی دریافت می‌کند

در آزمایش‌های من، جمینی در کارهایی که نیاز به جستجوی وب دارند، به خوبی (اگر نگوییم بهتر از) ChatGPT است. ارتقاءهای جدید گوگل، آن را حتی مفیدتر نیز می‌کند.

جمینی اکنون دارای یک دکمه Canvas است، که نسخه‌ای از ویژگی مشابه با همین نام در ChatGPT است (از قضا، ChatGPT ویژگی Deep Research جمینی را بدون تغییر کپی کرده بود). می‌توانید از Canvas برای همکاری با جمینی در خروجی‌های طولانی استفاده کنید. به عنوان مثال، می‌توانید از آن بخواهید پیش‌نویس یک مقاله را تولید کند و سپس از Canvas برای اصلاح یا بازنویسی بخش‌هایی از آن، اضافه یا حذف کردن بخش‌ها و موارد دیگر استفاده کنید. Canvas همچنین می‌تواند کد را تولید، ویرایش و پیش‌نمایش کند، که تجربه را بسیار روان‌تر از کپی-پیست کردن پاسخ‌ها در یک IDE می‌کند.

گوگل همچنین قابلیت Audio Overview را اضافه کرده است، ویژگی‌ای که قابلیت‌های NotebookLM را به جمینی می‌دهد. به عنوان مثال، می‌توانید از Deep Research برای تولید یک سند طولانی در مورد یک موضوع خاص استفاده کنید و سپس از Audio Overview برای تبدیل آن به یک پادکست استفاده کنید که می‌توانید در طول رفت و آمد یا تمرینات خود به آن گوش دهید.

پیش از این، گوگل حالت شخصی‌سازی (Personalization mode) را اضافه کرده بود، که به جمینی امکان دسترسی به سابقه جستجوی شما را می‌دهد تا پاسخ‌های مرتبط‌تری به درخواست‌های شما ارائه دهد. شخصی‌سازی از Gemini Flash Thinking، نسخه استدلالی مدل اصلی گوگل (معادل DeepSeek-R1 و OpenAI o3) استفاده می‌کند.

گوگل همچنین دسترسی به Deep Research را برای کاربران سطح رایگان جمینی فراهم کرده است (کاربران Gemini Advanced به نسخه گسترده‌تری از Deep Research دسترسی دارند). نتایج بسیار چشمگیر هستند (من بعداً روی یک پست در این مورد کار خواهم کرد) و به خوبی - اگر نگوییم بهتر از - OpenAI Deep Research است، که فقط برای کاربران ChatGPT Pro (۲۰۰ دلار در ماه) و در ظرفیت محدود برای ChatGPT Plus (۲۰ دلار در ماه) در دسترس است.

گوگل همچنین در حال آزمایش یک نسخه تولید تصویر از جمینی است که در چندین درخواست بسیار سازگار است.

تمام این ویژگی‌ها علاوه بر تلاش‌های یکپارچه‌سازی گسترده‌ای است که گوگل در کل مجموعه Workspace خود انجام می‌دهد، به طوری که جمینی به هوش مصنوعی همه‌جا حاضر در ایمیل و برنامه‌های کاربردی بهره‌وری شما تبدیل می‌شود، همراه با یک دستیار کدنویسی رایگان که می‌تواند در IDEهای مختلف ادغام شود.

گوگل پس از یک شروع کند، ثابت کرده است که به راحتی از میدان به در نخواهد رفت. بسیار محتمل است که گوگل در آینده نزدیک به بازیگر غالب در بازار LLM و هوش مصنوعی مولد تبدیل شود.