خلاصه
شرکتهای ابری دیگر نمیتوانند سختافزار هوش مصنوعی را مانند زیرساخت سنتی در نظر بگیرند. بازی جدید، تشخیص فعال و مبتنی بر هوش مصنوعی است که در داخل شرکت، در مقیاس و در زمان واقعی اجرا میشود.
شرکت ذکر شده
داشبورد
با رونق اخیر هوش مصنوعی، ردپای حجم کاری هوش مصنوعی و سرورهای سختافزاری پشتیبانیشده از هوش مصنوعی که در مراکز داده ابری مستقر شدهاند، به طور تصاعدی افزایش یافته است. این رشد در مناطق مختلف در سراسر جهان در مراکز داده مختلف گسترش یافته است. برای پشتیبانی از این رشد و اطمینان از رهبری بر رقبای مختلف ابری (مانند Azure، AWS و GCP) شروع به ساخت ناوگانی از سرورهای محاسباتی با کارایی بالا و تخصصی کردهاند. حجم کاری هوش مصنوعی که مقدار زیادی از پردازش داده، آموزش و استنتاج مدلهای داده را انجام میدهد، بر خلاف سرورهای محاسباتی عمومی سنتی، به نوع خاصی از سختافزار نیاز دارد. از این رو، همه ارائهدهندگان خدمات ابری سرمایهگذاری زیادی روی سرورهای مبتنی بر GPU، TPU و NPU انجام میدهند که در میزبانی حجم کاری هوش مصنوعی مؤثر هستند. اکثر این سرورها مدل خرید هستند و ارائهدهندگان خدمات ابری برای تشخیص و نگهداری سختافزار وابسته به "سازنده تجهیزات دیگر" (OEM) هستند. این وابستگی باعث درد زیادی برای ارائهدهندگان خدمات ابری شده است، زیرا توافقنامههای سطح خدمات (SLA) تعمیر نامشخص هستند و بر در دسترس بودن ناوگان تأثیر پرهزینهای دارند. از این رو، ارائهدهندگان ابری از خرید ساده به ساخت (نگهداری سرورهای طراحیشده توسط OEM به نگهداری سرور داخلی) تغییر میکنند. این تغییر در مدل کسبوکار منجر به انتقال در مدل خدمات در مراکز داده از اتکا به OEM به خودنگهداری شده است. برای پشتیبانی از این خوداتکایی و رشد ناوگان سختافزار هوش مصنوعی، هر ارائهدهنده خدمات ابری در تلاش است تا هزینه خدمات را کاهش دهد و تشخیص سختافزاری سریع، از راه دور، دقیق، خودکار و اقتصادی ایجاد کند.
چرا تشخیص سختافزار برای هوش مصنوعی مهم است
حجم کاری هوش مصنوعی از نظر ماهیت منحصربهفرد است و به پردازش موازی و سختافزار فشرده محاسباتی نیاز دارد که قابل اعتماد و پایدار باشد. با این حال، اجزای HW اغلب خراب میشوند و گاهی اوقات بدون اطلاع قبلی. یک GPU تخریبشده یا خرابی حافظه میتواند ساعتها آموزش را از مسیر خارج کند یا نقاط پایانی استنتاج بیدرنگ را خراب کند. برخی از مشکلات رایج مربوط به سختافزار که بر حجم کاری هوش مصنوعی تأثیر میگذارند:
- خطاهای حافظه GPU (خرابیهای ECC، مشکلات Tray)
- دریچه گاز حرارتی GPU
- خرابیهای Infini band GPU
- خطاهای CPU IErr و خطاهای غیرقابل اصلاح
بنابراین، برای پشتیبانی از نیازهای مشتریان برای خدمات با در دسترس بودن بالا و بدون وقفه، ارائهدهندگان ابری به تشخیص HW دقیق نیاز دارند که جزء معیوب را مشخص کند.
موتور تشخیص سختافزار برای سختافزار هوش مصنوعی به اجزای زیر تقسیم میشود:
1) لایه جمعآوری تلهمتری: این لایه بر جمعآوری تلهمتری سختافزار بیدرنگ در مورد اجزای مختلف تمرکز دارد.
- درایورهای GPU
- نسخههای سیستم عامل و گزارشهای خطا (BMC، BIOS)
- دادههای روی گره (دما، میزان استفاده، مصرف برق)
- شمارندههای سطح سیستم عامل (oom-kill، خرابیهای سیستم، گزارشهای dmesg)
این پلتفرم از عوامل مبتنی بر ابر برای جمعآوری و انتشار تلهمتری سختافزار به یک مکان متمرکز استفاده میکند.
2) لایه امتیازدهی ریسک سختافزار: این لایه توسط تشخیص برای قفل کردن امتیاز ریسک سختافزار بر اساس الگوهای خرابی سختافزار استفاده میشود. موتور تشخیص خطاهایی مانند نرخ خطای ECC را در طول زمان، هدر حرارتی در سراسر حجم کاری، تخریب عملکرد GPU از خط مبنا، عدم تطابق سیستم عامل در مقابل پیکربندی طلایی و تعداد تلاش مجدد سختافزار در هر تخصیص VM نمونهبرداری میکند.
Sample logic: Node_Health_Score = weighted_sum (ECC_rate, Thermal_Throttle, Firmware_Drift, Allocation_Retry)
امتیاز ریسک توسط موتور تشخیص برای پیشبینی و کاهش خرابی سختافزار استفاده میشود.
3) لایه پیشبینی، کاهش و اصلاح: موتور تشخیص از دادههای تلهمتری در سراسر اجزای سختافزار مختلف و امتیازهای رتبهبندی ریسک برای انجام اقدامات مختلف کاهش و اصلاح استفاده میکند.
الف. پیشبینی خطاهای سختافزار
- در طول حالت LIVE سرور با حجم کاری مشتری LIVE که روی آن اجرا میشود، انجام میشود.
- موتور تشخیص سختافزار، ویژگیهای سلامت سختافزار (یعنی تلهمتری سختافزار) را از لایه تلهمتری جمعآوری میکند و با سایر خدمات یادگیری ماشین سطح پلتفرم ابری برای پیشبینی خطاهای HW همکاری میکند.
- تشخیص سختافزار همچنین تجزیه و تحلیل خرابی پیشبینیکننده را برای پیشبینی خطاهای قریبالوقوع HW بر اساس امتیازهای رتبهبندی ریسک انجام میدهد و اقدام پیشگیرانهای برای انتقال حجم کاری هوش مصنوعی به یک سرور سالم بدون وقفه در حجم کاری انجام میدهد.
کاهش خطاهای سختافزار
- در طول حالت LIVE گره با حجم کاری مشتری LIVE انجام میشود.
- اگر پیشبینی خطای سختافزار امکانپذیر نباشد، سختافزار سعی میکند خطاهای HW را برای اطمینان از تداوم سرویس HW کاهش دهد. برخی از اقدامات کاهشی که در حال حاضر استفاده میشوند عبارتند از Disk Mirroring، حافظه آفلاین صفحه، تشخیص و تصحیح خطا و تنظیم مجدد خودکار درایور GPU در صورت خطا.
اصلاح خطاهای سختافزار
- در طول حالت OFFLINE گره زمانی که حجم کاری مشتری تخلیه میشود، انجام میشود.
- اگر کاهش خطای HW امکانپذیر نباشد، تشخیص HW برای تخصیص کارآمد خرابیها بر اساس تلهمتری دستگاه جمعآوریشده در لایه تلهمتری کار میکند. پس از اتمام تخصیص خرابی، خطاهای سختافزار در مراکز داده تحت تعمیر سرویس و قطعه قرار میگیرند.
4) معیارهای تشخیص و بینشهای گسترده ناوگان سختافزار هوش مصنوعی
ایجاد یک داشبورد گزارشدهی برای نمایش معیارهای سلامت GPU/گره:
- روندهای نرخ خرابی بر اساس SKU، منطقه یا ناحیه GPU.
- گرههای خرابی تکراری.
- نقشههای حرارتی ناهنجاریهای حرارتی یا استفاده
- SKUها و میزبانهای برتر که در خرابیهای آموزش مدل نقش دارند.
- تحلیل تأثیر حجم کاری مرتبط (به عنوان مثال، روندهای تلاش مجدد شغل، تأخیرها)
نتیجهگیری:
ایجاد تشخیص قوی و قابل اعتماد به پایه سلامت سختافزار هوش مصنوعی کمک میکند و مییابد که سلامت سختافزار در SKUهای GPU و مدلهای میزبان چگونه به نظر میرسد. ما میتوانیم رویدادهای خرابی سختافزار را با تخریب مدل هوش مصنوعی مرتبط کنیم.
درباره نویسنده
سام پراکاش بهری @hacker8143714
در حال حاضر به عنوان مدیر ارشد برنامه در Microsoft Azure با تمرکز بر قابلیت اطمینان و در دسترس بودن پلتفرم فعالیت میکند.
داستانهای من را بخوانید بیشتر بدانید