جمنای ۲.۵ پرو گوگل در کدنویسی، ریاضیات و علوم از مدل هوش مصنوعی مورد علاقه شما بهتر است

گوگل از جمنای ۲.۵ پرو (Gemini 2.5 Pro)، اولین مدل از خانواده جمنای ۲.۵ خود، رونمایی کرده است. این مدل استدلالی چندوجهی (multimodal reasoning model) در معیارهای کلیدی مرتبط با کدنویسی، ریاضیات و علوم از رقبایی چون OpenAI، Anthropic و DeepSeek عملکرد بهتری نشان می‌دهد.

مدل‌های هوش مصنوعی استدلالی چیستند؟

هوش مصنوعی‌های استدلالی به گونه‌ای طراحی شده‌اند که «پیش از سخن گفتن، فکر کنند.» این مدل‌ها زمینه را ارزیابی می‌کنند، جزئیات را به طور روشمند پردازش می‌کنند و پاسخ‌ها را برای اطمینان از دقت منطقی بررسی می‌کنند – هرچند این قابلیت‌ها به قدرت محاسباتی بیشتر و هزینه‌های عملیاتی بالاتری نیاز دارند.

شرکت OpenAI اولین مدل استدلالی خود را در سپتامبر گذشته با نام o1 معرفی کرد که تفاوت قابل توجهی با سری GPT داشت که عمدتاً بر تولید زبان متمرکز بود. از آن زمان، بازیگران اصلی در رقابت هوش مصنوعی واکنش نشان داده‌اند: DeepSeek با مدل R1، Anthropic با Claude Sonnet 3.7 و xAI با Grok 3.

فراتر رفتن از «تفکر آنی»

گوگل پیش‌تر اولین مدل هوش مصنوعی استدلالی خود، Gemini 2.0 Flash Thinking، را در ماه دسامبر عرضه کرده بود. این مدل که به دلیل قابلیت‌های عامل‌محور (agentic capabilities) خود بازاریابی می‌شد، اخیراً به‌روزرسانی شد تا امکان بارگذاری فایل و دریافت پرامپت‌های بزرگتر را فراهم کند؛ با این حال، با معرفی جمنای ۲.۵ پرو، به نظر می‌رسد گوگل در حال کنار گذاشتن کامل برچسب «Thinking» است.

طبق اعلامیه گوگل درباره جمنای ۲.۵، دلیل این امر آن است که قابلیت‌های استدلالی اکنون به طور بومی در تمام مدل‌های آینده ادغام خواهند شد. این تغییر نشان‌دهنده حرکت به سمت یک معماری هوش مصنوعی یکپارچه‌تر است، به جای جدا کردن ویژگی‌های «تفکر» به عنوان یک نام تجاری مستقل.

مدل آزمایشی جدید، «یک مدل پایه به طور قابل توجهی تقویت‌شده» را با «پس‌آموزش بهبودیافته» ترکیب می‌کند. گوگل به عملکرد آن در صدر جدول امتیازات LMArena اشاره می‌کند که مدل‌های زبان بزرگ اصلی را در وظایف مختلف رتبه‌بندی می‌کند.

پیشرو در معیارهای علم، ریاضی و کد

جمنای ۲.۵ پرو در معیارهای استدلال آکادمیک برتری دارد و امتیاز ۸۶.۷٪ در AIME 2025 (ریاضیات) و ۸۴.۰٪ در معیار GPQA diamond (علوم) کسب کرده است. در آزمون Humanity’s Last Exam – یک آزمون گسترده شامل هزاران سوال در زمینه‌های ریاضیات، علوم و علوم انسانی – این مدل با امتیاز ۱۸.۸٪ پیشتاز است.

نکته قابل توجه این است که این نتایج بدون استفاده از تکنیک‌های پرهزینه زمان آزمون (test-time techniques) به دست آمده‌اند که به مدل‌هایی مانند o1 و R1 اجازه می‌دهد در طول ارزیابی به یادگیری ادامه دهند.

در معیارهای توسعه نرم‌افزار، عملکرد جمنای ۲.۵ پرو متفاوت است. این مدل امتیاز ۶۸.۶٪ در معیار Aider Polyglot برای ویرایش کد کسب کرد که از اکثر مدل‌های سطح بالا بهتر است. با این حال، در SWE-bench Verified امتیاز ۶۳.۸٪ را به دست آورد و در وظایف برنامه‌نویسی گسترده‌تر، پس از Claude Sonnet 3.7 در رتبه دوم قرار گرفت.

با وجود این، گوگل می‌گوید جمنای ۲.۵ پرو «در ایجاد برنامه‌های وب بصری جذاب و برنامه‌های کد عامل‌محور برتری دارد»، همانطور که توانایی آن در ساخت یک بازی ویدیویی از یک پرامپت واحد نشان می‌دهد.

این مدل از یک پنجره زمینه (context window) یک میلیون توکنی پشتیبانی می‌کند، به این معنی که می‌تواند معادل یک پرامپت ۷۵۰,۰۰۰ کلمه‌ای یا شش کتاب اول هری پاتر را پردازش کند. گوگل قصد دارد این آستانه را در آینده نزدیک به دو میلیون توکن افزایش دهد.

جمنای ۲.۵ پرو در حال حاضر از طریق برنامه Gemini Advanced که نیاز به اشتراک ۲۰ دلاری در ماه دارد، و همچنین برای توسعه‌دهندگان و شرکت‌ها از طریق Google AI Studio در دسترس است. در هفته‌های آینده، جمنای ۲.۵ پرو در Vertex AI، پلتفرم یادگیری ماشین گوگل برای توسعه‌دهندگان، نیز در دسترس قرار خواهد گرفت و جزئیات قیمت‌گذاری برای محدودیت‌های نرخ متفاوت نیز معرفی خواهد شد.

برچسب‌ها گوگل جمنای ۲.۵ پرو هوش مصنوعی هوش مصنوعی مولد کدنویسی ریاضیات علوم

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: techrepublic (ترجمه شده)