گوگل از جمنای ۲.۵ پرو (Gemini 2.5 Pro)، اولین مدل از خانواده جمنای ۲.۵ خود، رونمایی کرده است. این مدل استدلالی چندوجهی (multimodal reasoning model) در معیارهای کلیدی مرتبط با کدنویسی، ریاضیات و علوم از رقبایی چون OpenAI، Anthropic و DeepSeek عملکرد بهتری نشان میدهد.
مدلهای هوش مصنوعی استدلالی چیستند؟
هوش مصنوعیهای استدلالی به گونهای طراحی شدهاند که «پیش از سخن گفتن، فکر کنند.» این مدلها زمینه را ارزیابی میکنند، جزئیات را به طور روشمند پردازش میکنند و پاسخها را برای اطمینان از دقت منطقی بررسی میکنند – هرچند این قابلیتها به قدرت محاسباتی بیشتر و هزینههای عملیاتی بالاتری نیاز دارند.
شرکت OpenAI اولین مدل استدلالی خود را در سپتامبر گذشته با نام o1 معرفی کرد که تفاوت قابل توجهی با سری GPT داشت که عمدتاً بر تولید زبان متمرکز بود. از آن زمان، بازیگران اصلی در رقابت هوش مصنوعی واکنش نشان دادهاند: DeepSeek با مدل R1، Anthropic با Claude Sonnet 3.7 و xAI با Grok 3.
فراتر رفتن از «تفکر آنی»
گوگل پیشتر اولین مدل هوش مصنوعی استدلالی خود، Gemini 2.0 Flash Thinking، را در ماه دسامبر عرضه کرده بود. این مدل که به دلیل قابلیتهای عاملمحور (agentic capabilities) خود بازاریابی میشد، اخیراً بهروزرسانی شد تا امکان بارگذاری فایل و دریافت پرامپتهای بزرگتر را فراهم کند؛ با این حال، با معرفی جمنای ۲.۵ پرو، به نظر میرسد گوگل در حال کنار گذاشتن کامل برچسب «Thinking» است.
طبق اعلامیه گوگل درباره جمنای ۲.۵، دلیل این امر آن است که قابلیتهای استدلالی اکنون به طور بومی در تمام مدلهای آینده ادغام خواهند شد. این تغییر نشاندهنده حرکت به سمت یک معماری هوش مصنوعی یکپارچهتر است، به جای جدا کردن ویژگیهای «تفکر» به عنوان یک نام تجاری مستقل.
مدل آزمایشی جدید، «یک مدل پایه به طور قابل توجهی تقویتشده» را با «پسآموزش بهبودیافته» ترکیب میکند. گوگل به عملکرد آن در صدر جدول امتیازات LMArena اشاره میکند که مدلهای زبان بزرگ اصلی را در وظایف مختلف رتبهبندی میکند.
پیشرو در معیارهای علم، ریاضی و کد
جمنای ۲.۵ پرو در معیارهای استدلال آکادمیک برتری دارد و امتیاز ۸۶.۷٪ در AIME 2025 (ریاضیات) و ۸۴.۰٪ در معیار GPQA diamond (علوم) کسب کرده است. در آزمون Humanity’s Last Exam – یک آزمون گسترده شامل هزاران سوال در زمینههای ریاضیات، علوم و علوم انسانی – این مدل با امتیاز ۱۸.۸٪ پیشتاز است.
نکته قابل توجه این است که این نتایج بدون استفاده از تکنیکهای پرهزینه زمان آزمون (test-time techniques) به دست آمدهاند که به مدلهایی مانند o1 و R1 اجازه میدهد در طول ارزیابی به یادگیری ادامه دهند.
در معیارهای توسعه نرمافزار، عملکرد جمنای ۲.۵ پرو متفاوت است. این مدل امتیاز ۶۸.۶٪ در معیار Aider Polyglot برای ویرایش کد کسب کرد که از اکثر مدلهای سطح بالا بهتر است. با این حال، در SWE-bench Verified امتیاز ۶۳.۸٪ را به دست آورد و در وظایف برنامهنویسی گستردهتر، پس از Claude Sonnet 3.7 در رتبه دوم قرار گرفت.
با وجود این، گوگل میگوید جمنای ۲.۵ پرو «در ایجاد برنامههای وب بصری جذاب و برنامههای کد عاملمحور برتری دارد»، همانطور که توانایی آن در ساخت یک بازی ویدیویی از یک پرامپت واحد نشان میدهد.
این مدل از یک پنجره زمینه (context window) یک میلیون توکنی پشتیبانی میکند، به این معنی که میتواند معادل یک پرامپت ۷۵۰,۰۰۰ کلمهای یا شش کتاب اول هری پاتر را پردازش کند. گوگل قصد دارد این آستانه را در آینده نزدیک به دو میلیون توکن افزایش دهد.
جمنای ۲.۵ پرو در حال حاضر از طریق برنامه Gemini Advanced که نیاز به اشتراک ۲۰ دلاری در ماه دارد، و همچنین برای توسعهدهندگان و شرکتها از طریق Google AI Studio در دسترس است. در هفتههای آینده، جمنای ۲.۵ پرو در Vertex AI، پلتفرم یادگیری ماشین گوگل برای توسعهدهندگان، نیز در دسترس قرار خواهد گرفت و جزئیات قیمتگذاری برای محدودیتهای نرخ متفاوت نیز معرفی خواهد شد.