بررسی عملی Gemini 2.5 Pro: چرا ممکن است کاربردی‌ترین مدل استدلال تا به امروز باشد

هنر انتزاعی امپرسیونیستی از یک ربات گوگل - ساخته شده با Midjourney

فلوچارت اولیه تولید شده توسط Gemini 2.5 Pro برای فرآیند نمونه‌برداری و جستجو

فلوچارت بهبود یافته پس از بازخورد چندوجهی به Gemini 2.5 Pro

جدول نتایج تحلیل داده سهام هفت شگفت‌انگیز توسط Gemini 2.5 Pro

بخشی از ردپای استدلال (Reasoning Trace) Gemini 2.5 Pro هنگام تحلیل داده

متأسفانه برای گوگل، عرضه آخرین مدل زبانی پرچم‌دارش، Gemini 2.5 Pro، تحت‌الشعاع طوفان تصاویر هوش مصنوعی به سبک استودیو جیبلی قرار گرفت که تمام توجهات فضای هوش مصنوعی را به خود جلب کرد. و شاید گوگل، هراسان از شکست‌های قبلی در رونمایی محصولاتش، با احتیاط آن را به عنوان «هوشمندترین مدل هوش مصنوعی ما» معرفی کرد، برخلاف رویکرد سایر آزمایشگاه‌های هوش مصنوعی که مدل‌های جدید خود را بهترین در جهان معرفی می‌کنند.

با این حال، آزمایش‌های عملی با مثال‌های واقعی نشان می‌دهند که Gemini 2.5 Pro واقعاً چشمگیر است و ممکن است در حال حاضر بهترین مدل استدلال باشد. این امر راه را برای بسیاری از کاربردهای جدید باز می‌کند و احتمالاً گوگل را در خط مقدم رقابت هوش مصنوعی مولد قرار می‌دهد.

زمینه طولانی با قابلیت‌های کدنویسی خوب

ویژگی برجسته Gemini 2.5 Pro، پنجره زمینه (context window) بسیار طولانی و طول خروجی آن است. این مدل می‌تواند تا ۱ میلیون توکن را پردازش کند (و به زودی ۲ میلیون توکن)، که این امکان را فراهم می‌کند تا در صورت نیاز، چندین سند طولانی و کل مخازن کد را در پرامپت جای داد. این مدل همچنین دارای محدودیت خروجی ۶۴۰۰۰ توکن است، در حالی که این محدودیت برای سایر مدل‌های Gemini حدود ۸۰۰۰ توکن است.

پنجره زمینه طولانی همچنین امکان مکالمات گسترده‌تر را فراهم می‌کند، زیرا هر تعامل با یک مدل استدلالی می‌تواند ده‌ها هزار توکن تولید کند، به خصوص اگر شامل کد، تصاویر و ویدئو باشد (من با Claude 3.7 Sonnet که دارای پنجره زمینه ۲۰۰,۰۰۰ توکنی است، به این مشکل برخورد کرده‌ام).

به عنوان مثال، سایمون ویلیسون، مهندس نرم‌افزار، از Gemini 2.5 Pro برای ایجاد یک ویژگی جدید برای وب‌سایت خود استفاده کرد. ویلیسون در یک پست وبلاگی گفت: «این مدل کل پایگاه کد من را بررسی کرد و تمام مکان‌هایی را که نیاز به تغییر داشتند، شناسایی کرد - در مجموع ۱۸ فایل، همانطور که در درخواست ادغام (PR) حاصل مشاهده می‌کنید. کل پروژه از ابتدا تا انتها حدود ۴۵ دقیقه طول کشید - به طور متوسط کمتر از سه دقیقه برای هر فایلی که باید اصلاح می‌کردم. من چالش‌های کدنویسی بسیار دیگری را نیز به آن داده‌ام و گلوگاه ارزیابی آنها، ظرفیت ذهنی خودم برای بررسی کد حاصل شده است!»

استدلال چندوجهی چشمگیر

Gemini 2.5 Pro همچنین توانایی‌های استدلال چشمگیری بر روی متن بدون ساختار، تصاویر و ویدئو دارد. به عنوان مثال، من متن مقاله اخیرم در مورد جستجوی مبتنی بر نمونه‌برداری را به آن ارائه دادم و از آن خواستم تا یک فلوچارت برای فرآیند نمونه‌برداری و جستجو ایجاد کند؛ حتی مراحل شرطی را نیز به درستی تشخیص داد. (برای مقایسه، همین کار با Claude 3.7 Sonnet به چندین تعامل نیاز داشت و در نهایت به محدودیت توکن رسیدم.)

تصویر رندر شده دارای برخی خطاهای بصری بود (سر پیکان‌ها در جای نادرستی قرار داشتند). نیاز به بهبود داشت، بنابراین در مرحله بعد Gemini 2.5 Pro را با یک پرامپت چندوجهی آزمایش کردم، یک اسکرین‌شات از فایل SVG رندر شده به همراه کد را به آن دادم و از آن خواستم آن را بهبود بخشد. نتایج چشمگیر بود. سر پیکان‌ها را اصلاح کرد و کیفیت بصری نمودار را بهبود بخشید.

کاربران دیگر نیز تجربیات مشابهی با پرامپت‌های چندوجهی داشته‌اند. به عنوان مثال، در آزمایش‌های خود، DataCamp مثال بازی دونده (runner game) ارائه شده در وبلاگ گوگل را تکرار کرد، سپس کد و یک ضبط ویدئویی از بازی را به Gemini 2.5 Pro ارائه داد و از آن خواست تا تغییراتی در کد بازی ایجاد کند. مدل توانست بر روی تصاویر استدلال کند، بخشی از کد را که نیاز به تغییر داشت پیدا کند و اصلاحات صحیح را انجام دهد.

با این حال، شایان ذکر است که مانند سایر مدل‌های مولد، Gemini 2.5 Pro مستعد اشتباهاتی مانند اصلاح فایل‌ها و بخش‌های کد نامرتبط است. هرچه دستورالعمل‌های شما دقیق‌تر باشد، خطر ایجاد تغییرات نادرست توسط مدل کمتر می‌شود.

تحلیل داده با ردپای استدلال مفید

در نهایت، من Gemini 2.5 Pro را با آزمون کلاسیک تحلیل داده‌های نامرتب خود برای مدل‌های استدلالی آزمایش کردم. فایلی حاوی ترکیبی از متن ساده و داده‌های خام HTML را که از صفحات مختلف تاریخچه سهام در Yahoo! Finance کپی و پیست کرده بودم، به آن ارائه دادم. سپس از آن خواستم ارزش پورتفویی را محاسبه کند که در ابتدای هر ماه، از ژانویه ۲۰۲۴ تا آخرین تاریخ موجود در فایل، ۱۴۰ دلار را به طور مساوی در میان سهام هفت شگفت‌انگیز (Magnificent 7) سرمایه‌گذاری کرده باشد.

مدل به درستی تشخیص داد که کدام سهام را باید از فایل انتخاب کند (آمازون، اپل، انویدیا، مایکروسافت، تسلا، آلفابت و متا)، اطلاعات مالی را از داده‌های HTML استخراج کرد و ارزش هر سرمایه‌گذاری را بر اساس قیمت سهام در ابتدای هر ماه محاسبه کرد. پاسخی که داد شامل یک جدول با قالب‌بندی خوب با ارزش سهام و پورتفولیو در هر ماه بود و همچنین جزئیاتی از ارزش کل سرمایه‌گذاری در پایان دوره را ارائه کرد.

مهمتر از آن، من ردپای استدلال (reasoning trace) را بسیار مفید یافتم. مشخص نیست که آیا گوگل توکن‌های خام زنجیره تفکر (CoT) را برای Gemini 2.5 Pro آشکار می‌کند یا خیر، اما ردپای استدلال بسیار دقیق است. شما به وضوح می‌توانید ببینید که مدل چگونه بر روی داده‌ها استدلال می‌کند، بخش‌های مختلف اطلاعات را استخراج می‌کند و نتایج را قبل از تولید پاسخ محاسبه می‌کند. این می‌تواند به عیب‌یابی رفتار مدل و هدایت آن در مسیر درست در هنگام بروز اشتباه کمک کند.

استدلال در سطح سازمانی؟

یکی از نگرانی‌ها در مورد Gemini 2.5 Pro این است که فقط در حالت استدلال (reasoning mode) در دسترس است، به این معنی که مدل همیشه فرآیند «تفکر» را حتی برای پرامپت‌های بسیار ساده‌ای که می‌توان مستقیماً به آنها پاسخ داد، طی می‌کند.

Gemini 2.5 Pro در حال حاضر در نسخه پیش‌نمایش عرضه شده است. پس از انتشار کامل مدل و در دسترس قرار گرفتن اطلاعات قیمت‌گذاری، درک بهتری از هزینه ساخت برنامه‌های کاربردی سازمانی بر روی این مدل خواهیم داشت. با این حال، با ادامه کاهش هزینه‌های استنتاج (inference)، می‌توان انتظار داشت که استفاده از آن در مقیاس بزرگ عملی شود.

ممکن است Gemini 2.5 Pro پر سر و صداترین رونمایی را نداشته باشد، اما قابلیت‌های آن نیازمند توجه است. پنجره زمینه عظیم، استدلال چندوجهی چشمگیر و زنجیره استدلال دقیق آن، مزایای ملموسی را برای بارهای کاری پیچیده سازمانی، از بازسازی پایگاه کد گرفته تا تحلیل داده‌های ظریف، ارائه می‌دهد.

برچسب‌ها هوش مصنوعی جمینای گوگل مدل‌های زبانی بزرگ استدلال چندوجهی تحلیل داده Gemini 2.5 Pro

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: venturebeat