در رویداد Google Cloud Next سال ۲۰۲۵، گوگل از Ironwood، جدیدترین نسل واحدهای پردازش تانسور (TPU) خود که بهطور خاص برای حجمهای کاری استنتاج هوش مصنوعی در مقیاس بزرگ طراحی شدهاند، رونمایی کرد. این عرضه نشاندهنده یک تغییر استراتژیک به سمت بهینهسازی زیرساختها برای استنتاج است و منعکسکننده تمرکز عملیاتی فزاینده بر استقرار مدلهای هوش مصنوعی به جای آموزش آنها است.
Ironwood هفتمین نسل در معماری TPU گوگل است و بهبودهای چشمگیری در عملکرد محاسباتی، ظرفیت حافظه و بهرهوری انرژی به ارمغان میآورد. هر تراشه حداکثر توان عملیاتی ۴,۶۱۴ ترافلاپس (TFLOPs) را ارائه میدهد و شامل ۱۹۲ گیگابایت حافظه با پهنای باند بالا (HBM) است که از پهنای باند تا ۷.۴ ترابیت در ثانیه (Tbps) پشتیبانی میکند. Ironwood میتواند در پیکربندیهای ۲۵۶ یا ۹,۲۱۶ تراشه مستقر شود، و خوشه بزرگتر تا ۴۲.۵ اگزافلاپس محاسباتی ارائه میدهد، که آن را به یکی از قدرتمندترین شتابدهندههای هوش مصنوعی در صنعت تبدیل میکند.
برخلاف نسلهای قبلی TPU که حجمهای کاری آموزش و استنتاج را متعادل میکردند، Ironwood بهطور خاص برای استنتاج مهندسی شده است. این نشاندهنده یک روند گستردهتر در صنعت است که در آن استنتاج، بهویژه برای مدلهای زبانی بزرگ و مولد، به عنوان حجم کاری غالب در محیطهای تولیدی در حال ظهور است. عملکرد با تأخیر کم و توان عملیاتی بالا در چنین سناریوهایی حیاتی است و Ironwood برای برآوردن کارآمد این خواستهها طراحی شده است.
یکی از پیشرفتهای کلیدی معماری در Ironwood، SparseCore پیشرفته است که عملیات پراکنده را که معمولاً در حجمهای کاری رتبهبندی و مبتنی بر بازیابی یافت میشوند، تسریع میکند. این بهینهسازی هدفمند نیاز به جابجایی بیش از حد دادهها در سراسر تراشه را کاهش میدهد و هم تأخیر و هم مصرف انرژی را برای موارد استفاده خاص و سنگین استنتاج بهبود میبخشد.
Ironwood همچنین بهرهوری انرژی را بهطور چشمگیری بهبود میبخشد و بیش از دو برابر عملکرد در هر وات را در مقایسه با نسل قبلی خود ارائه میدهد. با مقیاسبندی استقرار مدلهای هوش مصنوعی، مصرف انرژی به یک محدودیت فزاینده مهم تبدیل میشود - هم از نظر اقتصادی و هم از نظر زیستمحیطی. بهبودهای ایجاد شده در Ironwood به حل این چالشها در زیرساختهای ابری در مقیاس بزرگ کمک میکند.
این TPU در چارچوب گستردهتر AI Hypercomputer گوگل، یک پلتفرم محاسباتی ماژولار که ترکیبی از شبکهسازی پرسرعت، سیلیکون سفارشی و فضای ذخیرهسازی توزیعشده است، ادغام شده است. این ادغام، استقرار مدلهای فشرده منابع را ساده میکند و توسعهدهندگان را قادر میسازد تا برنامههای هوش مصنوعی بیدرنگ را بدون پیکربندی یا تنظیم گسترده ارائه دهند.
این عرضه همچنین نشاندهنده قصد گوگل برای رقابتی ماندن در فضای زیرساخت هوش مصنوعی است، جایی که شرکتهایی مانند آمازون و مایکروسافت در حال توسعه شتابدهندههای هوش مصنوعی داخلی خود هستند. در حالی که رهبران صنعت بهطور سنتی به GPUها، بهویژه از Nvidia، تکیه کردهاند، ظهور راهحلهای سیلیکونی سفارشی در حال تغییر شکل چشمانداز محاسبات هوش مصنوعی است.
عرضه Ironwood نشاندهنده بلوغ روزافزون زیرساخت هوش مصنوعی است، جایی که کارایی، قابلیت اطمینان و آمادگی استقرار اکنون به اندازه قدرت محاسباتی خام مهم هستند. گوگل با تمرکز بر طراحی اولویتدار استنتاج، قصد دارد نیازهای در حال تحول شرکتهایی را که مدلهای پایه را در تولید اجرا میکنند، برآورده کند - چه برای جستجو، تولید محتوا، سیستمهای توصیهگر یا برنامههای تعاملی.
به طور خلاصه، Ironwood نشاندهنده یک تکامل هدفمند در طراحی TPU است. این اولویتبندی نیازهای حجمهای کاری سنگین استنتاج با قابلیتهای محاسباتی پیشرفته، بهبود کارایی و ادغام محکمتر با زیرساخت Google Cloud است. با انتقال هوش مصنوعی به یک فاز عملیاتی در صنایع مختلف، سختافزار ساخته شده برای استنتاج بهطور فزایندهای برای سیستمهای هوش مصنوعی مقیاسپذیر، پاسخگو و مقرونبهصرفه مرکزی خواهد بود.