معرفی Ironwood: واحد پردازش تانسور گوگل که به‌طور ویژه برای عصر استنتاج ساخته شده است

در رویداد Google Cloud Next سال ۲۰۲۵، گوگل از Ironwood، جدیدترین نسل واحدهای پردازش تانسور (TPU) خود که به‌طور خاص برای حجم‌های کاری استنتاج هوش مصنوعی در مقیاس بزرگ طراحی شده‌اند، رونمایی کرد. این عرضه نشان‌دهنده یک تغییر استراتژیک به سمت بهینه‌سازی زیرساخت‌ها برای استنتاج است و منعکس‌کننده تمرکز عملیاتی فزاینده بر استقرار مدل‌های هوش مصنوعی به جای آموزش آن‌ها است.

Ironwood هفتمین نسل در معماری TPU گوگل است و بهبودهای چشمگیری در عملکرد محاسباتی، ظرفیت حافظه و بهره‌وری انرژی به ارمغان می‌آورد. هر تراشه حداکثر توان عملیاتی ۴,۶۱۴ ترافلاپس (TFLOPs) را ارائه می‌دهد و شامل ۱۹۲ گیگابایت حافظه با پهنای باند بالا (HBM) است که از پهنای باند تا ۷.۴ ترابیت در ثانیه (Tbps) پشتیبانی می‌کند. Ironwood می‌تواند در پیکربندی‌های ۲۵۶ یا ۹,۲۱۶ تراشه مستقر شود، و خوشه بزرگ‌تر تا ۴۲.۵ اگزافلاپس محاسباتی ارائه می‌دهد، که آن را به یکی از قدرتمندترین شتاب‌دهنده‌های هوش مصنوعی در صنعت تبدیل می‌کند.

برخلاف نسل‌های قبلی TPU که حجم‌های کاری آموزش و استنتاج را متعادل می‌کردند، Ironwood به‌طور خاص برای استنتاج مهندسی شده است. این نشان‌دهنده یک روند گسترده‌تر در صنعت است که در آن استنتاج، به‌ویژه برای مدل‌های زبانی بزرگ و مولد، به عنوان حجم کاری غالب در محیط‌های تولیدی در حال ظهور است. عملکرد با تأخیر کم و توان عملیاتی بالا در چنین سناریوهایی حیاتی است و Ironwood برای برآوردن کارآمد این خواسته‌ها طراحی شده است.

یکی از پیشرفت‌های کلیدی معماری در Ironwood، SparseCore پیشرفته است که عملیات پراکنده را که معمولاً در حجم‌های کاری رتبه‌بندی و مبتنی بر بازیابی یافت می‌شوند، تسریع می‌کند. این بهینه‌سازی هدفمند نیاز به جابجایی بیش از حد داده‌ها در سراسر تراشه را کاهش می‌دهد و هم تأخیر و هم مصرف انرژی را برای موارد استفاده خاص و سنگین استنتاج بهبود می‌بخشد.

Ironwood همچنین بهره‌وری انرژی را به‌طور چشمگیری بهبود می‌بخشد و بیش از دو برابر عملکرد در هر وات را در مقایسه با نسل قبلی خود ارائه می‌دهد. با مقیاس‌بندی استقرار مدل‌های هوش مصنوعی، مصرف انرژی به یک محدودیت فزاینده مهم تبدیل می‌شود - هم از نظر اقتصادی و هم از نظر زیست‌محیطی. بهبودهای ایجاد شده در Ironwood به حل این چالش‌ها در زیرساخت‌های ابری در مقیاس بزرگ کمک می‌کند.

این TPU در چارچوب گسترده‌تر AI Hypercomputer گوگل، یک پلتفرم محاسباتی ماژولار که ترکیبی از شبکه‌سازی پرسرعت، سیلیکون سفارشی و فضای ذخیره‌سازی توزیع‌شده است، ادغام شده است. این ادغام، استقرار مدل‌های فشرده منابع را ساده می‌کند و توسعه‌دهندگان را قادر می‌سازد تا برنامه‌های هوش مصنوعی بی‌درنگ را بدون پیکربندی یا تنظیم گسترده ارائه دهند.

این عرضه همچنین نشان‌دهنده قصد گوگل برای رقابتی ماندن در فضای زیرساخت هوش مصنوعی است، جایی که شرکت‌هایی مانند آمازون و مایکروسافت در حال توسعه شتاب‌دهنده‌های هوش مصنوعی داخلی خود هستند. در حالی که رهبران صنعت به‌طور سنتی به GPUها، به‌ویژه از Nvidia، تکیه کرده‌اند، ظهور راه‌حل‌های سیلیکونی سفارشی در حال تغییر شکل چشم‌انداز محاسبات هوش مصنوعی است.

چارچوب AI Hypercomputer گوگل
چارچوب AI Hypercomputer گوگل.

عرضه Ironwood نشان‌دهنده بلوغ روزافزون زیرساخت هوش مصنوعی است، جایی که کارایی، قابلیت اطمینان و آمادگی استقرار اکنون به اندازه قدرت محاسباتی خام مهم هستند. گوگل با تمرکز بر طراحی اولویت‌دار استنتاج، قصد دارد نیازهای در حال تحول شرکت‌هایی را که مدل‌های پایه را در تولید اجرا می‌کنند، برآورده کند - چه برای جستجو، تولید محتوا، سیستم‌های توصیه‌گر یا برنامه‌های تعاملی.

به طور خلاصه، Ironwood نشان‌دهنده یک تکامل هدفمند در طراحی TPU است. این اولویت‌بندی نیازهای حجم‌های کاری سنگین استنتاج با قابلیت‌های محاسباتی پیشرفته، بهبود کارایی و ادغام محکم‌تر با زیرساخت Google Cloud است. با انتقال هوش مصنوعی به یک فاز عملیاتی در صنایع مختلف، سخت‌افزار ساخته شده برای استنتاج به‌طور فزاینده‌ای برای سیستم‌های هوش مصنوعی مقیاس‌پذیر، پاسخ‌گو و مقرون‌به‌صرفه مرکزی خواهد بود.