معرفی Gemini 2.5 Flash گوگل: «بودجه‌های تفکر» برای کاهش 600 درصدی هزینه‌های هوش مصنوعی

گوگل (Google) ، Gemini 2.5 Flash را راه اندازی کرده است، یک ارتقاء بزرگ در خط تولید هوش مصنوعی خود که به کسب و کارها و توسعه دهندگان کنترل بی سابقه ای بر میزان "تفکر" هوش مصنوعی خود ارائه می دهد. این مدل جدید، که امروز در پیش نمایش از طریق Google AI Studio و Vertex AI منتشر شده است، نشان دهنده یک تلاش استراتژیک برای ارائه قابلیت های استدلال بهبود یافته و در عین حال حفظ قیمت رقابتی در بازار هوش مصنوعی به طور فزاینده ای شلوغ است.

این مدل چیزی را معرفی می کند که گوگل آن را «بودجه تفکر» می نامد - مکانیزمی که به توسعه دهندگان اجازه می دهد تا میزان قدرت محاسباتی را که باید به استدلال از طریق مسائل پیچیده قبل از ایجاد پاسخ اختصاص داده شود، مشخص کنند. هدف این رویکرد، پرداختن به یک تنش اساسی در بازار هوش مصنوعی امروزی است: استدلال پیچیده تر معمولاً به قیمت تاخیر و قیمت بالاتر تمام می شود.

تولسی دوشی (Tulsee Doshi)، مدیر محصول مدل‌های Gemini در Google DeepMind، در مصاحبه اختصاصی با VentureBeat گفت: «ما می‌دانیم که هزینه و تأخیر برای تعدادی از موارد استفاده توسعه‌دهندگان مهم است، و به همین دلیل می‌خواهیم به توسعه‌دهندگان این انعطاف‌پذیری را ارائه دهیم تا میزان تفکر مدل را بسته به نیازهای خود تطبیق دهند.»

این انعطاف‌پذیری رویکرد عمل‌گرایانه گوگل به استقرار هوش مصنوعی را نشان می‌دهد، زیرا این فناوری به طور فزاینده‌ای در برنامه‌های کاربردی تجاری تعبیه می‌شود، جایی که قابلیت پیش‌بینی هزینه ضروری است. گوگل با اجازه دادن به روشن یا خاموش شدن قابلیت تفکر، چیزی را ایجاد کرده است که آن را «اولین مدل استدلال کاملاً ترکیبی» خود می‌نامد.

فقط برای قدرت مغزی مورد نیاز خود پرداخت کنید: در داخل مدل قیمت گذاری هوش مصنوعی جدید گوگل

ساختار قیمت گذاری جدید هزینه استدلال را در سیستم های هوش مصنوعی امروزی برجسته می کند. هنگام استفاده از Gemini 2.5 Flash، توسعه دهندگان 0.15 دلار به ازای هر میلیون توکن برای ورودی پرداخت می کنند. هزینه های خروجی به طور چشمگیری بر اساس تنظیمات استدلال متفاوت است: 0.60 دلار به ازای هر میلیون توکن با خاموش بودن تفکر، و با فعال شدن استدلال به 3.50 دلار به ازای هر میلیون توکن می رسد.

این تفاوت قیمت تقریباً شش برابری برای خروجی های استدلال شده، نشان دهنده شدت محاسباتی فرآیند "تفکر" است، جایی که مدل قبل از ایجاد پاسخ، چندین مسیر و ملاحظات بالقوه را ارزیابی می کند.

دوشی به VentureBeat گفت: «مشتریان برای هر توکن فکری و خروجی که مدل تولید می کند، هزینه پرداخت می کنند. در AI Studio UX، می توانید این افکار را قبل از پاسخ مشاهده کنید. در API، ما در حال حاضر دسترسی به افکار را ارائه نمی دهیم، اما یک توسعه دهنده می تواند ببیند که چه تعداد توکن تولید شده است.»

بودجه تفکر را می توان از 0 تا 24576 توکن تنظیم کرد، که به عنوان یک حد حداکثر عمل می کند نه یک تخصیص ثابت. به گفته گوگل، این مدل به طور هوشمندانه تعیین می کند که چه مقدار از این بودجه را بر اساس پیچیدگی کار استفاده کند و در صورت عدم نیاز به استدلال دقیق، منابع را حفظ می کند.

Gemini 2.5 Flash چگونه عمل می کند: نتایج معیار در برابر مدل های پیشرو هوش مصنوعی

گوگل ادعا می کند Gemini 2.5 Flash عملکرد رقابتی را در معیارهای کلیدی نشان می دهد در حالی که اندازه مدل کوچکتر از گزینه های جایگزین را حفظ می کند. در آخرین امتحان بشریت، یک آزمون دقیق که برای ارزیابی استدلال و دانش طراحی شده است، 2.5 Flash امتیاز 12.1٪ را به دست آورد، و از Anthropic's Claude 3.7 Sonnet (8.9٪) و DeepSeek R1 (8.6٪) بهتر عمل کرد، اگرچه از o4-mini (14.3٪) که اخیراً راه اندازی شده است OpenAI's کمتر بود.

این مدل همچنین نتایج قوی در معیارهای فنی مانند الماس GPQA (78.3%) و آزمون‌های ریاضی AIME (78.0٪ در آزمون‌های 2025 و 88.0٪ در آزمون‌های 2024) منتشر کرد.

دوشی گفت: «شرکت‌ها باید 2.5 Flash را انتخاب کنند زیرا بهترین ارزش را برای هزینه و سرعت خود ارائه می‌دهد. این به ویژه نسبت به رقبا در ریاضیات، استدلال چندوجهی، زمینه طولانی و چندین معیار کلیدی دیگر قوی است.»

تحلیلگران صنعت خاطرنشان می‌کنند که این معیارها نشان می‌دهد که گوگل در حال کاهش شکاف عملکرد با رقبا است در حالی که مزیت قیمت‌گذاری را حفظ می‌کند - استراتژی‌ای که ممکن است برای مشتریان سازمانی که بودجه‌های هوش مصنوعی خود را تماشا می‌کنند، طنین‌انداز شود.

هوشمند در مقابل سریع: چه زمانی هوش مصنوعی شما نیاز به تفکر عمیق دارد؟

معرفی استدلال قابل تنظیم نشان دهنده یک تکامل قابل توجه در نحوه استقرار هوش مصنوعی توسط مشاغل است. با مدل های سنتی، کاربران دید کمی به فرآیند استدلال داخلی مدل یا کنترل کمی بر آن دارند.

رویکرد گوگل به توسعه دهندگان اجازه می دهد تا برای سناریوهای مختلف بهینه سازی کنند. برای پرس و جوهای ساده مانند ترجمه زبان یا بازیابی اطلاعات اولیه، می توان تفکر را برای حداکثر کارایی هزینه غیرفعال کرد. برای کارهای پیچیده ای که نیاز به استدلال چند مرحله ای دارند، مانند حل مسئله ریاضی یا تجزیه و تحلیل ظریف، می توان عملکرد تفکر را فعال و تنظیم کرد.

یکی از نوآوری های کلیدی، توانایی مدل در تعیین میزان مناسب بودن استدلال بر اساس پرس و جو است. گوگل این را با مثال نشان می دهد: یک سوال ساده مانند "کانادا چند استان دارد؟" نیاز به حداقل استدلال دارد، در حالی که یک سوال مهندسی پیچیده در مورد محاسبات تنش تیر به طور خودکار فرآیندهای تفکر عمیق تر را درگیر می کند.

دوشی گفت: «ادغام قابلیت‌های تفکر در مدل‌های اصلی Gemini ما، همراه با پیشرفت‌های کلی، منجر به پاسخ‌های با کیفیت‌تر شده است. این پیشرفت ها در معیارهای آکادمیک - از جمله SimpleQA، که واقعیت را اندازه گیری می کند - صادق است.»

هفته هوش مصنوعی گوگل: دسترسی رایگان دانشجویی و تولید ویدیو به راه اندازی 2.5 Flash می پیوندند

انتشار Gemini 2.5 Flash در هفته اقدامات تهاجمی توسط گوگل در فضای هوش مصنوعی انجام می شود. روز دوشنبه، این شرکت Veo 2 قابلیت های تولید ویدیو را به مشترکین Gemini Advanced ارائه کرد و به کاربران این امکان را داد تا کلیپ های ویدیویی هشت ثانیه ای از اعلان های متنی ایجاد کنند. امروز، در کنار اعلامیه 2.5 Flash، گوگل فاش کرد که همه دانشجویان کالج ایالات متحده تا بهار 2026 دسترسی رایگان به Gemini Advanced دریافت خواهند کرد - اقدامی که توسط تحلیلگران به عنوان تلاشی برای ایجاد وفاداری در بین کارگران دانش آینده تعبیر می شود.

این اطلاعیه ها نشان دهنده استراتژی چند جانبه گوگل برای رقابت در بازاری است که توسط ChatGPT OpenAI's تسلط دارد، که طبق گزارش ها بیش از 800 میلیون کاربر هفتگی را در مقایسه با تخمین زده شده Gemini's 250-275 میلیون کاربر ماهانه، طبق تجزیه و تحلیل های شخص ثالث، مشاهده می کند.

به نظر می رسد مدل 2.5 Flash، با تمرکز صریح خود بر کارایی هزینه و سفارشی سازی عملکرد، به ویژه برای مشتریان سازمانی جذاب باشد که نیاز به مدیریت دقیق هزینه های استقرار هوش مصنوعی و در عین حال دسترسی به قابلیت های پیشرفته دارند.

دوشی گفت: «ما بسیار هیجان زده هستیم که شروع به دریافت بازخورد از توسعه دهندگان در مورد آنچه با Gemini Flash 2.5 می سازند و نحوه استفاده آنها از بودجه های تفکر می کنیم.»

فراتر از پیش نمایش: کسب و کارها می توانند با بالغ شدن Gemini 2.5 Flash چه انتظاری داشته باشند

در حالی که این نسخه در پیش نمایش است، این مدل در حال حاضر برای توسعه دهندگان در دسترس است تا شروع به ساختن با آن کنند، اگرچه گوگل جدول زمانی را برای در دسترس بودن عمومی مشخص نکرده است. این شرکت نشان می دهد که به پالایش قابلیت های تفکر پویا بر اساس بازخورد توسعه دهندگان در طول این مرحله پیش نمایش ادامه خواهد داد.

برای پذیرندگان هوش مصنوعی سازمانی، این نسخه فرصتی را برای آزمایش رویکردهای ظریف تر برای استقرار هوش مصنوعی ارائه می دهد، و به طور بالقوه منابع محاسباتی بیشتری را به وظایف پرمخاطره اختصاص می دهد در حالی که هزینه ها را در برنامه های کاربردی معمول حفظ می کند.

این مدل همچنین از طریق برنامه Gemini در دسترس مصرف کنندگان است، جایی که به عنوان «2.5 Flash (آزمایشی)» در منوی کشویی مدل ظاهر می‌شود و جایگزین گزینه قبلی 2.0 Thinking (آزمایشی) می‌شود. این استقرار رو به مصرف‌کننده نشان می‌دهد که گوگل از اکوسیستم برنامه برای جمع‌آوری بازخورد گسترده‌تر در مورد معماری استدلال خود استفاده می‌کند.

همانطور که هوش مصنوعی به طور فزاینده ای در گردش کار کسب و کار تعبیه می شود، رویکرد گوگل با استدلال قابل تنظیم نشان دهنده یک بازار در حال بلوغ است که در آن بهینه سازی هزینه و تنظیم عملکرد به اندازه قابلیت های خام مهم می شوند - و نشان دهنده مرحله جدیدی در تجاری سازی فناوری های هوش مصنوعی مولد است.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: venturebeat