جمینی ۲.۵ (Gemini 2.5) توسط گوگل دیپمایند به عنوان «هوشمندترین مدل هوش مصنوعی (AI)» آن تا به امروز معرفی شده است.
اولین مدل از این نسل جدید، نسخه آزمایشی جمینی ۲.۵ پرو (Gemini 2.5 Pro) است که دیپمایند میگوید در طیف گستردهای از بنچمارکها به نتایج پیشرفتهای دست یافته است.
به گفته کورای کاووکچواغلو، مدیر ارشد فناوری گوگل دیپمایند، مدلهای جمینی ۲.۵ «مدلهای متفکر» هستند. این نشاندهنده قابلیت آنها برای استدلال از طریق افکارشان قبل از تولید پاسخ است که منجر به عملکرد بهتر و دقت بهبودیافته میشود.
کاووکچواغلو توضیح میدهد که ظرفیت «استدلال» فراتر از طبقهبندی و پیشبینی صرف است. این شامل توانایی سیستم برای تجزیه و تحلیل اطلاعات، استنتاج نتایج منطقی، گنجاندن زمینه و ظرافتها، و در نهایت، تصمیمگیری آگاهانه است.
دیپمایند مدتی است که در حال بررسی روشهایی برای افزایش هوش و قابلیتهای استدلال هوش مصنوعی بوده است و از تکنیکهایی مانند یادگیری تقویتی (reinforcement learning) و زنجیره فکری (chain-of-thought prompting) استفاده میکند. این کار زمینه منجر به معرفی اخیر اولین مدل متفکر آنها، جمینی ۲.۰ فلش تفکر (Gemini 2.0 Flash Thinking) شد.
کاووکچواغلو میگوید: «اکنون، با جمینی ۲.۵، ما با ترکیب یک مدل پایه بهطور قابلتوجهی بهبود یافته با پسآموزش (post-training) بهبود یافته، به سطح جدیدی از عملکرد دست یافتهایم.»
گوگل قصد دارد این قابلیتهای تفکر را مستقیماً در تمام مدلهای آینده خود ادغام کند - تا آنها بتوانند مشکلات پیچیدهتر را حل کرده و از عوامل (agents) توانمندتر و آگاه از زمینه پشتیبانی کنند.
جمینی ۲.۵ پرو جایگاه برتر جدول امتیازات LMArena را به دست میآورد
جمینی ۲.۵ پرو آزمایشی به عنوان پیشرفتهترین مدل دیپمایند برای مدیریت وظایف پیچیده معرفی شده است. در زمان نگارش این مطلب، این مدل با اختلاف قابل توجهی جایگاه اول را در جدول امتیازات LMArena - یک معیار کلیدی برای ارزیابی ترجیحات انسانی - به دست آورده است و یک مدل بسیار توانمند با سبک با کیفیت بالا را نشان میدهد:
جمینی ۲.۵ در ریاضیات، علوم، کدنویسی و استدلال «حرفهای» است
جمینی ۲.۵ پرو در بنچمارکهای مختلفی که نیازمند استدلال پیشرفته هستند، عملکرد پیشرفتهای را نشان داده است.
بهطور قابل توجهی، این مدل در بنچمارکهای ریاضیات و علوم - مانند GPQA و AIME 2025 - بدون اتکا به تکنیکهای زمان آزمون که هزینهها را افزایش میدهند، مانند رأیگیری اکثریت، پیشتاز است. همچنین امتیاز پیشرفته ۱۸.۸٪ را در آزمون آخرین بشریت (Humanity's Last Exam)، مجموعهدادهای که توسط کارشناسان موضوعی برای ارزیابی مرز دانش و استدلال انسانی طراحی شده است، کسب کرد.
دیپمایند تأکید قابل توجهی بر عملکرد کدنویسی داشته است و جمینی ۲.۵ جهش قابل توجهی را در مقایسه با نسل قبلی خود، ۲.۰، نشان میدهد و بهبودهای بیشتری نیز در راه است. ۲.۵ پرو در ایجاد برنامههای وب بصری جذاب و برنامههای کد عاملی (agentic code)، و همچنین تبدیل و ویرایش کد، برتری دارد.
در SWE-Bench Verified، استاندارد صنعتی برای ارزیابی کد عاملی، جمینی ۲.۵ پرو با استفاده از تنظیمات عامل سفارشی، امتیاز ۶۳.۸٪ را کسب کرد. قابلیتهای استدلال مدل همچنین به آن امکان میدهد تا با تولید کد قابل اجرا از یک اعلان تک خطی، یک بازی ویدیویی ایجاد کند.
توسعه بر پایه نقاط قوت مدلهای پیشین
جمینی ۲.۵ بر اساس نقاط قوت اصلی مدلهای قبلی جمینی، از جمله چندوجهی بومی (native multimodality) و پنجره زمینه طولانی (long context window) ساخته شده است. ۲.۵ پرو با یک پنجره زمینه یک میلیون توکنی عرضه میشود و برنامههایی برای گسترش آن به دو میلیون توکن به زودی وجود دارد. این به مدل امکان میدهد تا مجموعه دادههای وسیع را درک کرده و مشکلات پیچیده را از منابع اطلاعاتی متنوع، شامل متن، صدا، تصاویر، ویدیو و حتی مخازن کد کامل، مدیریت کند.
توسعهدهندگان و شرکتها اکنون میتوانند آزمایش با جمینی ۲.۵ پرو را در Google AI Studio آغاز کنند. کاربران Gemini Advanced همچنین میتوانند از طریق منوی کشویی مدل در پلتفرمهای دسکتاپ و موبایل به آن دسترسی داشته باشند. این مدل در هفتههای آینده در Vertex AI عرضه خواهد شد.
گوگل دیپمایند کاربران را تشویق میکند تا بازخورد ارائه دهند که برای بهبود بیشتر قابلیتهای جمینی استفاده خواهد شد.
(عکس از انشیتا نایر)