متأسفانه برای گوگل، عرضه آخرین مدل زبانی پرچمدارش، Gemini 2.5 Pro، تحتالشعاع طوفان تصاویر هوش مصنوعی به سبک استودیو جیبلی قرار گرفت که تمام توجهات فضای هوش مصنوعی را به خود جلب کرد. و شاید گوگل، هراسان از شکستهای قبلی در رونمایی محصولاتش، با احتیاط آن را به عنوان «هوشمندترین مدل هوش مصنوعی ما» معرفی کرد، برخلاف رویکرد سایر آزمایشگاههای هوش مصنوعی که مدلهای جدید خود را بهترین در جهان معرفی میکنند.
با این حال، آزمایشهای عملی با مثالهای واقعی نشان میدهند که Gemini 2.5 Pro واقعاً چشمگیر است و ممکن است در حال حاضر بهترین مدل استدلال باشد. این امر راه را برای بسیاری از کاربردهای جدید باز میکند و احتمالاً گوگل را در خط مقدم رقابت هوش مصنوعی مولد قرار میدهد.
زمینه طولانی با قابلیتهای کدنویسی خوب
ویژگی برجسته Gemini 2.5 Pro، پنجره زمینه (context window) بسیار طولانی و طول خروجی آن است. این مدل میتواند تا ۱ میلیون توکن را پردازش کند (و به زودی ۲ میلیون توکن)، که این امکان را فراهم میکند تا در صورت نیاز، چندین سند طولانی و کل مخازن کد را در پرامپت جای داد. این مدل همچنین دارای محدودیت خروجی ۶۴۰۰۰ توکن است، در حالی که این محدودیت برای سایر مدلهای Gemini حدود ۸۰۰۰ توکن است.
پنجره زمینه طولانی همچنین امکان مکالمات گستردهتر را فراهم میکند، زیرا هر تعامل با یک مدل استدلالی میتواند دهها هزار توکن تولید کند، به خصوص اگر شامل کد، تصاویر و ویدئو باشد (من با Claude 3.7 Sonnet که دارای پنجره زمینه ۲۰۰,۰۰۰ توکنی است، به این مشکل برخورد کردهام).
به عنوان مثال، سایمون ویلیسون، مهندس نرمافزار، از Gemini 2.5 Pro برای ایجاد یک ویژگی جدید برای وبسایت خود استفاده کرد. ویلیسون در یک پست وبلاگی گفت: «این مدل کل پایگاه کد من را بررسی کرد و تمام مکانهایی را که نیاز به تغییر داشتند، شناسایی کرد - در مجموع ۱۸ فایل، همانطور که در درخواست ادغام (PR) حاصل مشاهده میکنید. کل پروژه از ابتدا تا انتها حدود ۴۵ دقیقه طول کشید - به طور متوسط کمتر از سه دقیقه برای هر فایلی که باید اصلاح میکردم. من چالشهای کدنویسی بسیار دیگری را نیز به آن دادهام و گلوگاه ارزیابی آنها، ظرفیت ذهنی خودم برای بررسی کد حاصل شده است!»
استدلال چندوجهی چشمگیر
Gemini 2.5 Pro همچنین تواناییهای استدلال چشمگیری بر روی متن بدون ساختار، تصاویر و ویدئو دارد. به عنوان مثال، من متن مقاله اخیرم در مورد جستجوی مبتنی بر نمونهبرداری را به آن ارائه دادم و از آن خواستم تا یک فلوچارت برای فرآیند نمونهبرداری و جستجو ایجاد کند؛ حتی مراحل شرطی را نیز به درستی تشخیص داد. (برای مقایسه، همین کار با Claude 3.7 Sonnet به چندین تعامل نیاز داشت و در نهایت به محدودیت توکن رسیدم.)
تصویر رندر شده دارای برخی خطاهای بصری بود (سر پیکانها در جای نادرستی قرار داشتند). نیاز به بهبود داشت، بنابراین در مرحله بعد Gemini 2.5 Pro را با یک پرامپت چندوجهی آزمایش کردم، یک اسکرینشات از فایل SVG رندر شده به همراه کد را به آن دادم و از آن خواستم آن را بهبود بخشد. نتایج چشمگیر بود. سر پیکانها را اصلاح کرد و کیفیت بصری نمودار را بهبود بخشید.
کاربران دیگر نیز تجربیات مشابهی با پرامپتهای چندوجهی داشتهاند. به عنوان مثال، در آزمایشهای خود، DataCamp مثال بازی دونده (runner game) ارائه شده در وبلاگ گوگل را تکرار کرد، سپس کد و یک ضبط ویدئویی از بازی را به Gemini 2.5 Pro ارائه داد و از آن خواست تا تغییراتی در کد بازی ایجاد کند. مدل توانست بر روی تصاویر استدلال کند، بخشی از کد را که نیاز به تغییر داشت پیدا کند و اصلاحات صحیح را انجام دهد.
با این حال، شایان ذکر است که مانند سایر مدلهای مولد، Gemini 2.5 Pro مستعد اشتباهاتی مانند اصلاح فایلها و بخشهای کد نامرتبط است. هرچه دستورالعملهای شما دقیقتر باشد، خطر ایجاد تغییرات نادرست توسط مدل کمتر میشود.
تحلیل داده با ردپای استدلال مفید
در نهایت، من Gemini 2.5 Pro را با آزمون کلاسیک تحلیل دادههای نامرتب خود برای مدلهای استدلالی آزمایش کردم. فایلی حاوی ترکیبی از متن ساده و دادههای خام HTML را که از صفحات مختلف تاریخچه سهام در Yahoo! Finance کپی و پیست کرده بودم، به آن ارائه دادم. سپس از آن خواستم ارزش پورتفویی را محاسبه کند که در ابتدای هر ماه، از ژانویه ۲۰۲۴ تا آخرین تاریخ موجود در فایل، ۱۴۰ دلار را به طور مساوی در میان سهام هفت شگفتانگیز (Magnificent 7) سرمایهگذاری کرده باشد.
مدل به درستی تشخیص داد که کدام سهام را باید از فایل انتخاب کند (آمازون، اپل، انویدیا، مایکروسافت، تسلا، آلفابت و متا)، اطلاعات مالی را از دادههای HTML استخراج کرد و ارزش هر سرمایهگذاری را بر اساس قیمت سهام در ابتدای هر ماه محاسبه کرد. پاسخی که داد شامل یک جدول با قالببندی خوب با ارزش سهام و پورتفولیو در هر ماه بود و همچنین جزئیاتی از ارزش کل سرمایهگذاری در پایان دوره را ارائه کرد.
مهمتر از آن، من ردپای استدلال (reasoning trace) را بسیار مفید یافتم. مشخص نیست که آیا گوگل توکنهای خام زنجیره تفکر (CoT) را برای Gemini 2.5 Pro آشکار میکند یا خیر، اما ردپای استدلال بسیار دقیق است. شما به وضوح میتوانید ببینید که مدل چگونه بر روی دادهها استدلال میکند، بخشهای مختلف اطلاعات را استخراج میکند و نتایج را قبل از تولید پاسخ محاسبه میکند. این میتواند به عیبیابی رفتار مدل و هدایت آن در مسیر درست در هنگام بروز اشتباه کمک کند.
استدلال در سطح سازمانی؟
یکی از نگرانیها در مورد Gemini 2.5 Pro این است که فقط در حالت استدلال (reasoning mode) در دسترس است، به این معنی که مدل همیشه فرآیند «تفکر» را حتی برای پرامپتهای بسیار سادهای که میتوان مستقیماً به آنها پاسخ داد، طی میکند.
Gemini 2.5 Pro در حال حاضر در نسخه پیشنمایش عرضه شده است. پس از انتشار کامل مدل و در دسترس قرار گرفتن اطلاعات قیمتگذاری، درک بهتری از هزینه ساخت برنامههای کاربردی سازمانی بر روی این مدل خواهیم داشت. با این حال، با ادامه کاهش هزینههای استنتاج (inference)، میتوان انتظار داشت که استفاده از آن در مقیاس بزرگ عملی شود.
ممکن است Gemini 2.5 Pro پر سر و صداترین رونمایی را نداشته باشد، اما قابلیتهای آن نیازمند توجه است. پنجره زمینه عظیم، استدلال چندوجهی چشمگیر و زنجیره استدلال دقیق آن، مزایای ملموسی را برای بارهای کاری پیچیده سازمانی، از بازسازی پایگاه کد گرفته تا تحلیل دادههای ظریف، ارائه میدهد.