تصویرسازی از نالینی نیراد
تصویرسازی از نالینی نیراد

آیا گوگل بهترین مدل هوش مصنوعی برای کدنویسی را ساخته است؟

اینکه تنها یک شرکت، با یک ویژگی جدید، بتواند توجه جمعی اینترنت را به انحصار خود درآورد، نشانه‌ای از دردسر است. برای روزها، تمام فیدهای شبکه‌های اجتماعی منحصراً با تصاویر به سبک «Ghibli-fied» پر شده بود، همه به لطف ویژگی جدید تولید تصویر ChatGPT.

گوگل تمام تلاش خود را کرده است. به جای اینکه صرفاً در کانون توجه OpenAI قرار گیرد، آخرین اعلام گوگل در مورد خانواده مدل‌های Gemini 2.5 – که اولین آن 2.5 Pro Experimental است – اکنون در چندین معیار به عنوان برترین مدل هوش مصنوعی پیشرو پیشتاز است.

این مدل در معیار GPQA، که مدل‌های هوش مصنوعی را در مورد سؤالات علمی سطح تحصیلات تکمیلی آزمایش می‌کند، رتبه اول را کسب کرده است. با کسب امتیاز ۸۳٪، از o1-Pro شرکت OpenAI (۷۹٪) و Claude 3.7 Sonnet شرکت Anthropic (۷۷٪) با تفکر طولانی پیشی گرفته است. به طور مشابه، در بسیاری از معیارهای دیگر نیز بالاترین رتبه را کسب کرده است.

نمودار مقایسه عملکرد مدل‌های هوش مصنوعی در معیارهای مختلف

علاوه بر این، Gemini 2.5 در حال حاضر به عنوان بالقوه بهترین مدل هوش مصنوعی برای کدنویسی مورد تحسین قرار گرفته است، عنوانی که هیچ مدل دیگری به جز Claude شرکت Anthropic نتوانسته است به طور قانع‌کننده‌ای ادعا کند. آیا Claude 3.7 Sonnet بالاخره با رقابت واقعی روبرو شده است؟

در جدول امتیازات Aider Polyglot، که قابلیت‌های LLM‌ها (مدل‌های زبانی بزرگ) را در نوشتن و ویرایش کد ارزیابی می‌کند، Gemini 2.5 Pro Experimental امتیاز ۷۲.۹٪ را کسب کرده است. این مدل بهتر از Claude 3.7 Sonnet (۶۴.۹٪)، o1 شرکت OpenAI (۶۱.۷٪) و o3-mini high با ۶۰.۴٪ عمل کرده است.

«گوگل یک برنده واقعی ارائه کرده است»

مک‌کی ریگلی، یک توسعه‌دهنده، گفت: «Gemini 2.5 Pro اکنون به راحتی بهترین مدل برای کدنویسی است». او همچنین تأکید کرد که چگونه این مدل همیشه با کاربر موافق نیست و «درخشش‌های نبوغ واقعی» را نشان داده است.

ریگلی افزود: «گوگل در اینجا یک برنده واقعی ارائه کرده است.»

حتی در سناریوهای مختلف دنیای واقعی، تجربیات بسیاری از توسعه‌دهندگان با امتیازات معیارها همخوانی داشت، به ویژه در مقایسه با Claude 3.7 Sonnet شرکت Anthropic.

یک کاربر در Reddit تجربه خود را از صرف حدود سه تا چهار ساعت برای ساخت یک برنامه با Claude 3.7 Sonnet به اشتراک گذاشت که منجر به کدی غیر کاربردی با شیوه‌های امنیتی ضعیف، از جمله APIهای کدگذاری شده (hardcoded) شد.

پس از اینکه او به Gemini 2.5 روی آورد و کل کدبیس معیوب را به عنوان ورودی ارائه داد، این مدل نقص‌ها را شناسایی و توضیح داد و در عین حال کل برنامه را به طور مؤثر بازنویسی کرد.

در موردی دیگر، Gemini 2.5 در بازتولید دقیق یک رابط کاربری، از Claude 3.7 Sonnet بهتر عمل کرد. یک کاربر در X (توییتر سابق) توانایی‌های هر دو مدل را در بازسازی رابط کاربری ChatGPT آزمایش کرد. Gemini 2.5 نمایش دقیق‌تری ارائه داد.

با در نظر گرفتن همه موارد، Gemini 2.5 همچنین جهش بزرگی برای گوگل نسبت به مدل‌های قبلی است. الکس میزراهی، یک توسعه‌دهنده، به اشتراک گذاشت که چگونه از این مدل برای به خاطر آوردن حدود ۸۰-۹۰٪ از سینتکس Rell صرفاً از روی حافظه استفاده کرده است - پیشرفت قابل توجهی نسبت به نسخه‌های قبلی Gemini که قبلاً حتی با ارائه مثال‌ها نیز مشکل داشتند.

علاوه بر این، کاربران ترجیح خود را برای Gemini 2.5 نسبت به سایر مدل‌ها در حوزه کدنویسی حسی (vibe coding) ابراز کردند. متیو برمن، توسعه‌دهنده، در X گفت: «او (Gemini 2.5 Pro) در طول مسیر از من سؤالات روشنگر می‌پرسد، کاری که هیچ مدل دیگری انجام نداده است.» این نشان می‌دهد که «بسیار بیشتر» مشارکتی است.

Gemini 2.5 همچنین به دلیل پنجره زمینه ورودی طولانی ۱ میلیون توکنی خود نسبت به سایر مدل‌های کدنویسی برتری دارد. مدل‌های OpenAI، یعنی o1 و o3-mini، تنها از ۲۵۰ هزار توکن پشتیبانی می‌کنند، در حالی که Anthropic طبق گزارش‌ها قصد دارد این مقدار را به ۵۰۰ هزار توکن افزایش دهد.

اگرچه این مدل نسبت به سایر مدل‌ها پیشرفت کرده است، اما هنوز ناقص است. همچنان تمام نگرانی‌های کلاسیک مرتبط با مدل‌های هوش مصنوعی در کدنویسی را ایجاد می‌کند.

کیدن بیلیو، یک توسعه‌دهنده، در X گفت که Gemini 2.5 در تلاش بود تا یک API سمت کلاینت برای تولید پاسخ چت ایجاد کند، که نشان می‌دهد مدل هوش مصنوعی قصد داشت کلید API را افشا کند.

علاوه بر این، نظرات متفاوتی در مورد مدیریت کدبیس‌های بزرگ توسط این مدل وجود دارد. لوئی باکاج، یک توسعه‌دهنده، فاش کرد که Gemini 2.5 هنگام کار با یک کدبیس ۳۵۰۰ خطی با مشکل قابل توجهی مواجه شد.

او خاطرنشان کرد که علیرغم ادعای بهبود مدیریت زمینه، مدل در انجام وظایف درخواستی حتی زمانی که فراخوانی‌های API موفقیت‌آمیز بود، مشکل داشت.

بنابراین هنوز نیاز مبرمی به قضاوت و مداخله انسانی برای استفاده از هر مدل هوش مصنوعی برای کدنویسی وجود دارد. علاوه بر این، اولین مدل Gemini 2.5 گوگل، مدل 2.5 Pro Experimental است، به این معنی که هنوز در مرحله آزمایشی قرار دارد. از این رو، بسیار محتمل است که انتظار اصلاحات و بهبودهای بیشتری را داشته باشیم.

با این حال، یکی از زمینه‌هایی که گوگل باید در آن بهتر عمل کند، بسته‌بندی بهتر مدل‌های هوش مصنوعی خود است. دقیقاً به همین دلیل است که GPT-4o شرکت OpenAI برای تولید تصویر محبوبیت بیشتری پیدا کرد، حتی زمانی که گوگل چند روز پیش همین ویژگی را با مدل Gemini 2.0 Flash منتشر کرد.

گوگل باید روی تجربه مصرف‌کننده تمرکز بیشتری کند

نیکونج کوثاری، سرمایه‌گذار فرشته، گفت: «کمی برای تیم Google DeepMind متأسفم». «شما یک مدل تغییردهنده جهان می‌سازید و همه به جای آن در حال ارسال تصاویر به سبک Ghibli هستند.»

او همچنین گفت که این مشکل اصلی گوگل بوده است، جایی که آنها می‌توانند بهترین مدل‌های هوش مصنوعی جهان را بسازند، اما در تمرکز بر تجربه مصرف‌کننده شکست می‌خورند. کوثاری افزود: «از آنها خواهش می‌کنم ۲۰٪ از بهترین استعدادهای خود را بردارند و به آنها اختیار کامل برای ساختن تجربیات مصرف‌کننده در سطح جهانی بدهند.»

علاوه بر این، او افزود که شخصیت مدل در مقایسه با سایرین کاملاً ابتدایی است. قابل ذکر است که چندین کاربر دیگر نیز با این موضوع موافق هستند.

هنگامی که تولید تصویر بومی در Gemini 2.0 Flash منتشر شد، به دلیل قابلیت‌هایش مورد تحسین قرار گرفت. با این حال، برای بسیاری از کاربران یافتن و استفاده از این ویژگی در وهله اول آسان نبود. رابط کاربری کاملاً غیرشهودی بود و گزینه‌ها بی‌جهت زیر منوها پنهان شده بودند.

اما با بازگشت به کل ماجرای شیدایی Ghibli، ممکن است دلیل آن شکست گوگل در بازاریابی مؤثر محصولش نباشد، بلکه برتری OpenAI در بهره‌برداری از روانشناسی کاربر باشد.

یک کاربر در X در مورد نمایش قابلیت‌های تولید تصویر در GPT-4o گفت: «شما دو عکس پست می‌کنید و همه متوجه می‌شوند.»

او افزود: «از همان افراد بخواهید گزارشی را که توسط [مدل] ۲.۰ تولید شده بخوانند و آن را با ۲.۵ مقایسه کنند، و این کار زمان بیشتری نسبت به اسکرول کردن و لایک کردن نیاز دارد.»

سناریوهایی مانند این نشان می‌دهند که صرف نظر از اینکه مدل‌های هوش مصنوعی شما چقدر قدرتمند هستند یا تحقیقات زیربنایی چقدر پیشگامانه است، کاربر معمولی تمایل دارد به سمت نتایجی گرایش پیدا کند که لذت‌بخش، قابل ارتباط و از نظر احساسی جذاب باشند.