اینکه تنها یک شرکت، با یک ویژگی جدید، بتواند توجه جمعی اینترنت را به انحصار خود درآورد، نشانهای از دردسر است. برای روزها، تمام فیدهای شبکههای اجتماعی منحصراً با تصاویر به سبک «Ghibli-fied» پر شده بود، همه به لطف ویژگی جدید تولید تصویر ChatGPT.
گوگل تمام تلاش خود را کرده است. به جای اینکه صرفاً در کانون توجه OpenAI قرار گیرد، آخرین اعلام گوگل در مورد خانواده مدلهای Gemini 2.5 – که اولین آن 2.5 Pro Experimental است – اکنون در چندین معیار به عنوان برترین مدل هوش مصنوعی پیشرو پیشتاز است.
این مدل در معیار GPQA، که مدلهای هوش مصنوعی را در مورد سؤالات علمی سطح تحصیلات تکمیلی آزمایش میکند، رتبه اول را کسب کرده است. با کسب امتیاز ۸۳٪، از o1-Pro شرکت OpenAI (۷۹٪) و Claude 3.7 Sonnet شرکت Anthropic (۷۷٪) با تفکر طولانی پیشی گرفته است. به طور مشابه، در بسیاری از معیارهای دیگر نیز بالاترین رتبه را کسب کرده است.
علاوه بر این، Gemini 2.5 در حال حاضر به عنوان بالقوه بهترین مدل هوش مصنوعی برای کدنویسی مورد تحسین قرار گرفته است، عنوانی که هیچ مدل دیگری به جز Claude شرکت Anthropic نتوانسته است به طور قانعکنندهای ادعا کند. آیا Claude 3.7 Sonnet بالاخره با رقابت واقعی روبرو شده است؟
در جدول امتیازات Aider Polyglot، که قابلیتهای LLMها (مدلهای زبانی بزرگ) را در نوشتن و ویرایش کد ارزیابی میکند، Gemini 2.5 Pro Experimental امتیاز ۷۲.۹٪ را کسب کرده است. این مدل بهتر از Claude 3.7 Sonnet (۶۴.۹٪)، o1 شرکت OpenAI (۶۱.۷٪) و o3-mini high با ۶۰.۴٪ عمل کرده است.
«گوگل یک برنده واقعی ارائه کرده است»
مککی ریگلی، یک توسعهدهنده، گفت: «Gemini 2.5 Pro اکنون به راحتی بهترین مدل برای کدنویسی است». او همچنین تأکید کرد که چگونه این مدل همیشه با کاربر موافق نیست و «درخششهای نبوغ واقعی» را نشان داده است.
ریگلی افزود: «گوگل در اینجا یک برنده واقعی ارائه کرده است.»
حتی در سناریوهای مختلف دنیای واقعی، تجربیات بسیاری از توسعهدهندگان با امتیازات معیارها همخوانی داشت، به ویژه در مقایسه با Claude 3.7 Sonnet شرکت Anthropic.
یک کاربر در Reddit تجربه خود را از صرف حدود سه تا چهار ساعت برای ساخت یک برنامه با Claude 3.7 Sonnet به اشتراک گذاشت که منجر به کدی غیر کاربردی با شیوههای امنیتی ضعیف، از جمله APIهای کدگذاری شده (hardcoded) شد.
پس از اینکه او به Gemini 2.5 روی آورد و کل کدبیس معیوب را به عنوان ورودی ارائه داد، این مدل نقصها را شناسایی و توضیح داد و در عین حال کل برنامه را به طور مؤثر بازنویسی کرد.
در موردی دیگر، Gemini 2.5 در بازتولید دقیق یک رابط کاربری، از Claude 3.7 Sonnet بهتر عمل کرد. یک کاربر در X (توییتر سابق) تواناییهای هر دو مدل را در بازسازی رابط کاربری ChatGPT آزمایش کرد. Gemini 2.5 نمایش دقیقتری ارائه داد.
با در نظر گرفتن همه موارد، Gemini 2.5 همچنین جهش بزرگی برای گوگل نسبت به مدلهای قبلی است. الکس میزراهی، یک توسعهدهنده، به اشتراک گذاشت که چگونه از این مدل برای به خاطر آوردن حدود ۸۰-۹۰٪ از سینتکس Rell صرفاً از روی حافظه استفاده کرده است - پیشرفت قابل توجهی نسبت به نسخههای قبلی Gemini که قبلاً حتی با ارائه مثالها نیز مشکل داشتند.
علاوه بر این، کاربران ترجیح خود را برای Gemini 2.5 نسبت به سایر مدلها در حوزه کدنویسی حسی (vibe coding) ابراز کردند. متیو برمن، توسعهدهنده، در X گفت: «او (Gemini 2.5 Pro) در طول مسیر از من سؤالات روشنگر میپرسد، کاری که هیچ مدل دیگری انجام نداده است.» این نشان میدهد که «بسیار بیشتر» مشارکتی است.
Gemini 2.5 همچنین به دلیل پنجره زمینه ورودی طولانی ۱ میلیون توکنی خود نسبت به سایر مدلهای کدنویسی برتری دارد. مدلهای OpenAI، یعنی o1 و o3-mini، تنها از ۲۵۰ هزار توکن پشتیبانی میکنند، در حالی که Anthropic طبق گزارشها قصد دارد این مقدار را به ۵۰۰ هزار توکن افزایش دهد.
اگرچه این مدل نسبت به سایر مدلها پیشرفت کرده است، اما هنوز ناقص است. همچنان تمام نگرانیهای کلاسیک مرتبط با مدلهای هوش مصنوعی در کدنویسی را ایجاد میکند.
کیدن بیلیو، یک توسعهدهنده، در X گفت که Gemini 2.5 در تلاش بود تا یک API سمت کلاینت برای تولید پاسخ چت ایجاد کند، که نشان میدهد مدل هوش مصنوعی قصد داشت کلید API را افشا کند.
علاوه بر این، نظرات متفاوتی در مورد مدیریت کدبیسهای بزرگ توسط این مدل وجود دارد. لوئی باکاج، یک توسعهدهنده، فاش کرد که Gemini 2.5 هنگام کار با یک کدبیس ۳۵۰۰ خطی با مشکل قابل توجهی مواجه شد.
او خاطرنشان کرد که علیرغم ادعای بهبود مدیریت زمینه، مدل در انجام وظایف درخواستی حتی زمانی که فراخوانیهای API موفقیتآمیز بود، مشکل داشت.
بنابراین هنوز نیاز مبرمی به قضاوت و مداخله انسانی برای استفاده از هر مدل هوش مصنوعی برای کدنویسی وجود دارد. علاوه بر این، اولین مدل Gemini 2.5 گوگل، مدل 2.5 Pro Experimental است، به این معنی که هنوز در مرحله آزمایشی قرار دارد. از این رو، بسیار محتمل است که انتظار اصلاحات و بهبودهای بیشتری را داشته باشیم.
با این حال، یکی از زمینههایی که گوگل باید در آن بهتر عمل کند، بستهبندی بهتر مدلهای هوش مصنوعی خود است. دقیقاً به همین دلیل است که GPT-4o شرکت OpenAI برای تولید تصویر محبوبیت بیشتری پیدا کرد، حتی زمانی که گوگل چند روز پیش همین ویژگی را با مدل Gemini 2.0 Flash منتشر کرد.
گوگل باید روی تجربه مصرفکننده تمرکز بیشتری کند
نیکونج کوثاری، سرمایهگذار فرشته، گفت: «کمی برای تیم Google DeepMind متأسفم». «شما یک مدل تغییردهنده جهان میسازید و همه به جای آن در حال ارسال تصاویر به سبک Ghibli هستند.»
او همچنین گفت که این مشکل اصلی گوگل بوده است، جایی که آنها میتوانند بهترین مدلهای هوش مصنوعی جهان را بسازند، اما در تمرکز بر تجربه مصرفکننده شکست میخورند. کوثاری افزود: «از آنها خواهش میکنم ۲۰٪ از بهترین استعدادهای خود را بردارند و به آنها اختیار کامل برای ساختن تجربیات مصرفکننده در سطح جهانی بدهند.»
علاوه بر این، او افزود که شخصیت مدل در مقایسه با سایرین کاملاً ابتدایی است. قابل ذکر است که چندین کاربر دیگر نیز با این موضوع موافق هستند.
هنگامی که تولید تصویر بومی در Gemini 2.0 Flash منتشر شد، به دلیل قابلیتهایش مورد تحسین قرار گرفت. با این حال، برای بسیاری از کاربران یافتن و استفاده از این ویژگی در وهله اول آسان نبود. رابط کاربری کاملاً غیرشهودی بود و گزینهها بیجهت زیر منوها پنهان شده بودند.
اما با بازگشت به کل ماجرای شیدایی Ghibli، ممکن است دلیل آن شکست گوگل در بازاریابی مؤثر محصولش نباشد، بلکه برتری OpenAI در بهرهبرداری از روانشناسی کاربر باشد.
یک کاربر در X در مورد نمایش قابلیتهای تولید تصویر در GPT-4o گفت: «شما دو عکس پست میکنید و همه متوجه میشوند.»
او افزود: «از همان افراد بخواهید گزارشی را که توسط [مدل] ۲.۰ تولید شده بخوانند و آن را با ۲.۵ مقایسه کنند، و این کار زمان بیشتری نسبت به اسکرول کردن و لایک کردن نیاز دارد.»
سناریوهایی مانند این نشان میدهند که صرف نظر از اینکه مدلهای هوش مصنوعی شما چقدر قدرتمند هستند یا تحقیقات زیربنایی چقدر پیشگامانه است، کاربر معمولی تمایل دارد به سمت نتایجی گرایش پیدا کند که لذتبخش، قابل ارتباط و از نظر احساسی جذاب باشند.