تصویر اصلی مقاله
تصویر اصلی مقاله

پایان تحمل خرابی سرورهای هوش مصنوعی توسط گوگل، AWS و Azure

تصویر اصلی - پایان تحمل خرابی سرورهای هوش مصنوعی توسط گوگل، AWS و Azure

خلاصه

شرکت‌های ابری دیگر نمی‌توانند سخت‌افزار هوش مصنوعی را مانند زیرساخت سنتی در نظر بگیرند. بازی جدید، تشخیص فعال و مبتنی بر هوش مصنوعی است که در داخل شرکت، در مقیاس و در زمان واقعی اجرا می‌شود.

شرکت ذکر شده

داشبورد
نمای شماتیک از معماری سیستم تشخیص سخت افزار

با رونق اخیر هوش مصنوعی، ردپای حجم کاری هوش مصنوعی و سرورهای سخت‌افزاری پشتیبانی‌شده از هوش مصنوعی که در مراکز داده ابری مستقر شده‌اند، به طور تصاعدی افزایش یافته است. این رشد در مناطق مختلف در سراسر جهان در مراکز داده مختلف گسترش یافته است. برای پشتیبانی از این رشد و اطمینان از رهبری بر رقبای مختلف ابری (مانند Azure، AWS و GCP) شروع به ساخت ناوگانی از سرورهای محاسباتی با کارایی بالا و تخصصی کرده‌اند. حجم کاری هوش مصنوعی که مقدار زیادی از پردازش داده، آموزش و استنتاج مدل‌های داده را انجام می‌دهد، بر خلاف سرورهای محاسباتی عمومی سنتی، به نوع خاصی از سخت‌افزار نیاز دارد. از این رو، همه ارائه‌دهندگان خدمات ابری سرمایه‌گذاری زیادی روی سرورهای مبتنی بر GPU، TPU و NPU انجام می‌دهند که در میزبانی حجم کاری هوش مصنوعی مؤثر هستند. اکثر این سرورها مدل خرید هستند و ارائه‌دهندگان خدمات ابری برای تشخیص و نگهداری سخت‌افزار وابسته به "سازنده تجهیزات دیگر" (OEM) هستند. این وابستگی باعث درد زیادی برای ارائه‌دهندگان خدمات ابری شده است، زیرا توافق‌نامه‌های سطح خدمات (SLA) تعمیر نامشخص هستند و بر در دسترس بودن ناوگان تأثیر پرهزینه‌ای دارند. از این رو، ارائه‌دهندگان ابری از خرید ساده به ساخت (نگهداری سرورهای طراحی‌شده توسط OEM به نگهداری سرور داخلی) تغییر می‌کنند. این تغییر در مدل کسب‌وکار منجر به انتقال در مدل خدمات در مراکز داده از اتکا به OEM به خودنگهداری شده است. برای پشتیبانی از این خوداتکایی و رشد ناوگان سخت‌افزار هوش مصنوعی، هر ارائه‌دهنده خدمات ابری در تلاش است تا هزینه خدمات را کاهش دهد و تشخیص سخت‌افزاری سریع، از راه دور، دقیق، خودکار و اقتصادی ایجاد کند.

چرا تشخیص سخت‌افزار برای هوش مصنوعی مهم است

حجم کاری هوش مصنوعی از نظر ماهیت منحصربه‌فرد است و به پردازش موازی و سخت‌افزار فشرده محاسباتی نیاز دارد که قابل اعتماد و پایدار باشد. با این حال، اجزای HW اغلب خراب می‌شوند و گاهی اوقات بدون اطلاع قبلی. یک GPU تخریب‌شده یا خرابی حافظه می‌تواند ساعت‌ها آموزش را از مسیر خارج کند یا نقاط پایانی استنتاج بی‌درنگ را خراب کند. برخی از مشکلات رایج مربوط به سخت‌افزار که بر حجم کاری هوش مصنوعی تأثیر می‌گذارند:

  • خطاهای حافظه GPU (خرابی‌های ECC، مشکلات Tray)
  • دریچه گاز حرارتی GPU
  • خرابی‌های Infini band GPU
  • خطاهای CPU IErr و خطاهای غیرقابل اصلاح

بنابراین، برای پشتیبانی از نیازهای مشتریان برای خدمات با در دسترس بودن بالا و بدون وقفه، ارائه‌دهندگان ابری به تشخیص HW دقیق نیاز دارند که جزء معیوب را مشخص کند.

موتور تشخیص سخت‌افزار برای سخت‌افزار هوش مصنوعی به اجزای زیر تقسیم می‌شود:

1) لایه جمع‌آوری تله‌متری: این لایه بر جمع‌آوری تله‌متری سخت‌افزار بی‌درنگ در مورد اجزای مختلف تمرکز دارد.

  • درایورهای GPU
  • نسخه‌های سیستم عامل و گزارش‌های خطا (BMC، BIOS)
  • داده‌های روی گره (دما، میزان استفاده، مصرف برق)
  • شمارنده‌های سطح سیستم عامل (oom-kill، خرابی‌های سیستم، گزارش‌های dmesg)

این پلتفرم از عوامل مبتنی بر ابر برای جمع‌آوری و انتشار تله‌متری سخت‌افزار به یک مکان متمرکز استفاده می‌کند.

2) لایه امتیازدهی ریسک سخت‌افزار: این لایه توسط تشخیص برای قفل کردن امتیاز ریسک سخت‌افزار بر اساس الگوهای خرابی سخت‌افزار استفاده می‌شود. موتور تشخیص خطاهایی مانند نرخ خطای ECC را در طول زمان، هدر حرارتی در سراسر حجم کاری، تخریب عملکرد GPU از خط مبنا، عدم تطابق سیستم عامل در مقابل پیکربندی طلایی و تعداد تلاش مجدد سخت‌افزار در هر تخصیص VM نمونه‌برداری می‌کند.

Sample logic: Node_Health_Score = weighted_sum (ECC_rate, Thermal_Throttle, Firmware_Drift, Allocation_Retry)

امتیاز ریسک توسط موتور تشخیص برای پیش‌بینی و کاهش خرابی سخت‌افزار استفاده می‌شود.

3) لایه پیش‌بینی، کاهش و اصلاح: موتور تشخیص از داده‌های تله‌متری در سراسر اجزای سخت‌افزار مختلف و امتیازهای رتبه‌بندی ریسک برای انجام اقدامات مختلف کاهش و اصلاح استفاده می‌کند.

الف. پیش‌بینی خطاهای سخت‌افزار

  • در طول حالت LIVE سرور با حجم کاری مشتری LIVE که روی آن اجرا می‌شود، انجام می‌شود.
  • موتور تشخیص سخت‌افزار، ویژگی‌های سلامت سخت‌افزار (یعنی تله‌متری سخت‌افزار) را از لایه تله‌متری جمع‌آوری می‌کند و با سایر خدمات یادگیری ماشین سطح پلتفرم ابری برای پیش‌بینی خطاهای HW همکاری می‌کند.
  • تشخیص سخت‌افزار همچنین تجزیه و تحلیل خرابی پیش‌بینی‌کننده را برای پیش‌بینی خطاهای قریب‌الوقوع HW بر اساس امتیازهای رتبه‌بندی ریسک انجام می‌دهد و اقدام پیشگیرانه‌ای برای انتقال حجم کاری هوش مصنوعی به یک سرور سالم بدون وقفه در حجم کاری انجام می‌دهد.

کاهش خطاهای سخت‌افزار

  • در طول حالت LIVE گره با حجم کاری مشتری LIVE انجام می‌شود.
  • اگر پیش‌بینی خطای سخت‌افزار امکان‌پذیر نباشد، سخت‌افزار سعی می‌کند خطاهای HW را برای اطمینان از تداوم سرویس HW کاهش دهد. برخی از اقدامات کاهشی که در حال حاضر استفاده می‌شوند عبارتند از Disk Mirroring، حافظه آفلاین صفحه، تشخیص و تصحیح خطا و تنظیم مجدد خودکار درایور GPU در صورت خطا.

اصلاح خطاهای سخت‌افزار

  • در طول حالت OFFLINE گره زمانی که حجم کاری مشتری تخلیه می‌شود، انجام می‌شود.
  • اگر کاهش خطای HW امکان‌پذیر نباشد، تشخیص HW برای تخصیص کارآمد خرابی‌ها بر اساس تله‌متری دستگاه جمع‌آوری‌شده در لایه تله‌متری کار می‌کند. پس از اتمام تخصیص خرابی، خطاهای سخت‌افزار در مراکز داده تحت تعمیر سرویس و قطعه قرار می‌گیرند.

4) معیارهای تشخیص و بینش‌های گسترده ناوگان سخت‌افزار هوش مصنوعی

ایجاد یک داشبورد گزارش‌دهی برای نمایش معیارهای سلامت GPU/گره:

  • روندهای نرخ خرابی بر اساس SKU، منطقه یا ناحیه GPU.
  • گره‌های خرابی تکراری.
  • نقشه‌های حرارتی ناهنجاری‌های حرارتی یا استفاده
  • SKUها و میزبان‌های برتر که در خرابی‌های آموزش مدل نقش دارند.
  • تحلیل تأثیر حجم کاری مرتبط (به عنوان مثال، روندهای تلاش مجدد شغل، تأخیرها)

نتیجه‌گیری:

ایجاد تشخیص قوی و قابل اعتماد به پایه سلامت سخت‌افزار هوش مصنوعی کمک می‌کند و می‌یابد که سلامت سخت‌افزار در SKUهای GPU و مدل‌های میزبان چگونه به نظر می‌رسد. ما می‌توانیم رویدادهای خرابی سخت‌افزار را با تخریب مدل هوش مصنوعی مرتبط کنیم.

درباره نویسنده

سام پراکاش بهری @hacker8143714

در حال حاضر به عنوان مدیر ارشد برنامه در Microsoft Azure با تمرکز بر قابلیت اطمینان و در دسترس بودن پلتفرم فعالیت می‌کند.

داستان‌های من را بخوانید بیشتر بدانید

موضوعات

یادگیری ماشین #هوش مصنوعی #تشخیص-سخت‌افزار-هوش‌مصنوعی #بررسی-سلامت-gpu-ابری #خرابی‌های-پیش‌بینی‌پذیر-سخت‌افزار #نظارت-بر-تله‌متری-gpu #تعمیر-خودکار-سرور #بررسی-ناهنجاری-حرارتی-gpu #امتیازدهی-ریسک-سخت‌افزار-هوش‌مصنوعی

این مقاله در... برجسته شده است

Arweave Terminal