پس از موفقیت چشمگیر ChatGPT از OpenAI، بسیاری از ناظران و تحلیلگران، گوگل را به عنوان غولی که نتوانست خود را با موج جدید فناوری هوش مصنوعی تطبیق دهد، نادیده گرفتند. عرضه ناموفق Bard و سایر اشتباهات این شرکت، تنها این احساسات را تقویت کرد.
با این حال، دو سال بعد، گوگل با جمینی (Gemini) و جما (Gemma) بازگشتی عالی داشته و تقریباً در هر زمینه OpenAI را به چالش میکشد. با آخرین ویژگیها و مدلهای منتشر شده، محصولات هوش مصنوعی گوگل اکنون با OpenAI و ارائهدهندگان مدلهای باز همتراز هستند.
جما ۳ (Gemma 3)
جما ۳ آخرین نسخه از مدلهای متنباز گوگل است. این مدل در اندازههای مختلف (1B، 4B، 12B و 27B) ارائه میشود و برای اجرا بر روی طیف وسیعی از سختافزارها، از تلفنها تا شتابدهندهها، مناسب است. این مدل از یک رمزگذار دیداری (vision encoder) برای پذیرش ورودی چندوجهی (multi-modal input)، از جمله متن، تصاویر و ویدئو به عنوان ورودی استفاده میکند. همچنین از فراخوانی تابع (function calling) و خروجی ساختیافته (structured output) پشتیبانی میکند، که برای برنامههای کاربردی عاملمحور (agentic applications) و سیستمهایی که مدل باید با ابزارها و سایر اجزای نرمافزاری تعامل داشته باشد، مناسب است.
جما ۳ دارای یک پنجره زمینه (context window) با ۱۲۸۰۰۰ توکن است، که آن را برای مکالمات طولانی چند نوبتی (multi-turn conversations)، پردازش اسناد طولانی و درخواستها با مثالهای زیاد مناسب میسازد (مدل 1B دارای یک پنجره زمینه ۳۲k است). گوگل توانسته است ترکیبی از لایههای توجه محلی (local attention layers) و جهانی (global attention layers) ایجاد کند تا زمینه طولانی را بدون افزایش چشمگیر هزینههای حافظه و محاسباتی برای گسترش پنجره زمینه مدیریت کند.
آنچه جما ۳ را به ویژه جذاب میکند، کارایی آن است. حتی بزرگترین نوع آن نیز میتواند روی یک شتابدهنده واحد قرار گیرد، که آن را به مدلی جذاب برای انواع کاربردها تبدیل میکند. اصلیترین شکایت علیه جما ۳، مجوز آن است که محدودیتها و شرایط استفاده مبهمی را در مورد نحوه استفاده از آن تعیین میکند.
برنامهی جمینی ارتقاءهای اساسی دریافت میکند
در آزمایشهای من، جمینی در کارهایی که نیاز به جستجوی وب دارند، به خوبی (اگر نگوییم بهتر از) ChatGPT است. ارتقاءهای جدید گوگل، آن را حتی مفیدتر نیز میکند.
جمینی اکنون دارای یک دکمه Canvas است، که نسخهای از ویژگی مشابه با همین نام در ChatGPT است (از قضا، ChatGPT ویژگی Deep Research جمینی را بدون تغییر کپی کرده بود). میتوانید از Canvas برای همکاری با جمینی در خروجیهای طولانی استفاده کنید. به عنوان مثال، میتوانید از آن بخواهید پیشنویس یک مقاله را تولید کند و سپس از Canvas برای اصلاح یا بازنویسی بخشهایی از آن، اضافه یا حذف کردن بخشها و موارد دیگر استفاده کنید. Canvas همچنین میتواند کد را تولید، ویرایش و پیشنمایش کند، که تجربه را بسیار روانتر از کپی-پیست کردن پاسخها در یک IDE میکند.
گوگل همچنین قابلیت Audio Overview را اضافه کرده است، ویژگیای که قابلیتهای NotebookLM را به جمینی میدهد. به عنوان مثال، میتوانید از Deep Research برای تولید یک سند طولانی در مورد یک موضوع خاص استفاده کنید و سپس از Audio Overview برای تبدیل آن به یک پادکست استفاده کنید که میتوانید در طول رفت و آمد یا تمرینات خود به آن گوش دهید.
پیش از این، گوگل حالت شخصیسازی (Personalization mode) را اضافه کرده بود، که به جمینی امکان دسترسی به سابقه جستجوی شما را میدهد تا پاسخهای مرتبطتری به درخواستهای شما ارائه دهد. شخصیسازی از Gemini Flash Thinking، نسخه استدلالی مدل اصلی گوگل (معادل DeepSeek-R1 و OpenAI o3) استفاده میکند.
گوگل همچنین دسترسی به Deep Research را برای کاربران سطح رایگان جمینی فراهم کرده است (کاربران Gemini Advanced به نسخه گستردهتری از Deep Research دسترسی دارند). نتایج بسیار چشمگیر هستند (من بعداً روی یک پست در این مورد کار خواهم کرد) و به خوبی - اگر نگوییم بهتر از - OpenAI Deep Research است، که فقط برای کاربران ChatGPT Pro (۲۰۰ دلار در ماه) و در ظرفیت محدود برای ChatGPT Plus (۲۰ دلار در ماه) در دسترس است.
گوگل همچنین در حال آزمایش یک نسخه تولید تصویر از جمینی است که در چندین درخواست بسیار سازگار است.
تمام این ویژگیها علاوه بر تلاشهای یکپارچهسازی گستردهای است که گوگل در کل مجموعه Workspace خود انجام میدهد، به طوری که جمینی به هوش مصنوعی همهجا حاضر در ایمیل و برنامههای کاربردی بهرهوری شما تبدیل میشود، همراه با یک دستیار کدنویسی رایگان که میتواند در IDEهای مختلف ادغام شود.
گوگل پس از یک شروع کند، ثابت کرده است که به راحتی از میدان به در نخواهد رفت. بسیار محتمل است که گوگل در آینده نزدیک به بازیگر غالب در بازار LLM و هوش مصنوعی مولد تبدیل شود.