معرفی Crusoe Managed Inference و Crusoe AutoClusters برای ارائه استقرار مقیاسپذیر مدل هوش مصنوعی و قابلیت اطمینان بینظیر
کروسو (Crusoe)، اولین ارائهدهنده زیرساخت هوش مصنوعی یکپارچه عمودی در صنعت، امروز از دو سرویس مدیریتشده جدید در پلتفرم ابر کروسو (Crusoe Cloud) خود که توسط NVIDIA شتاب داده شده است، خبر میدهد. سرویسهای جدید، Crusoe Managed Inference و Crusoe AutoClusters، یک پلتفرم ارکستراسیون پیشرفته برای آموزش هوش مصنوعی، در کنفرانس هوش مصنوعی NVIDIA GTC پیشنمایش میشوند.
Crusoe Managed Inference به توسعهدهندگان سازمانی اجازه میدهد تا به سرعت و به آسانی استقرار مدلهای یادگیری ماشین را بدون نیاز به راهاندازی یا نگهداری زیرساخت پیچیده هوش مصنوعی اجرا و به طور خودکار مقیاسبندی کنند. Crusoe Cloud الزامات زیرساختی را انتزاع میکند و به کاربران اجازه میدهد تا درخواستها را مستقیماً به یک API مدیریتشده Crusoe Managed Inference ارسال کرده و پاسخها را از یک مدل هوش مصنوعی پیشرفته به انتخاب خود دریافت کنند. این سرویس برای طیف گستردهای از برنامهها، به ویژه ساخت نمایندگان هوش مصنوعی (AI agents)، خودکارسازی وظایف پیچیده و ادغام هوش مصنوعی در سیستمهای نرمافزاری موجود، ایدهآل است.
ویژگیها و مزایای کلیدی Crusoe Managed Inference:
- توسعه و بهینهسازی سریع: راهحلهای هوش مصنوعی را سریعتر از همیشه، بدون سربار مدیریت زیرساخت، بسازید و بهینهسازی کنید.
- فعالسازی گردش کار هوش مصنوعی عاملمحور: پاسخهای هوش مصنوعی را به طور یکپارچه در سیستمهای خودکار ادغام کنید و برنامههای کاربردی عاملمحور پیچیده را تقویت کنید.
- UI با کاربری آسان: پاسخهای مدل هوش مصنوعی را مستقیماً از طریق یک رابط کاربری چت بصری ایجاد کنید که توسعهدهندگان را قادر میسازد تا به سرعت مدلهای جدید و موارد استفاده را آزمایش کنند.
ناداو ایرون (Nadav Eiron)، معاون ارشد مهندسی ابر، گفت: "Crusoe Managed Inference توسعهدهندگان را قادر میسازد تا به جای مدیریت سرورها، بر ساخت برنامههای کاربردی هوشمند تمرکز کنند. من دوست دارم به آن به عنوان هوش به عنوان یک سرویس فکر کنم." وی افزود: "این سرویس یک روش قدرتمند و برنامهنویسی برای تعامل با مدلهای هوش مصنوعی ارائه میدهد."
Crusoe AutoClusters یک سرویس ارکستراسیون جدید تحملپذیر خطا است که استقرار، مدیریت، ارکستراسیون و نگهداری خدمات حیاتی پلتفرم هوش مصنوعی را ساده میکند و کاربران را قادر میسازد تا به جای پیچیدگیهای زیرساختی، بر نوآوریهای هوش مصنوعی خود تمرکز کنند. این سرویس مزایای زیرساخت محاسباتی کاملاً مجازیشده Crusoe Cloud، تجربه توسعهدهنده پیشرو، تحملپذیری خطای داخلی و نظارت جامع را ترکیب میکند تا قابلیت اطمینان و کارایی بینظیری را برای بارهای کاری آموزش هوش مصنوعی ارائه دهد. Crusoe AutoClusters از ارکستراسیون از طریق Slurm، Kubernetes و سایر خدمات پلتفرم پشتیبانی میکند - مدیریت و نظارت بر محیطهای محاسباتی با کارایی بالا را خودکار میکند.
ویژگیها و مزایای کلیدی Crusoe AutoClusters:
- تهیه آسان: خوشههای GPU بهینهسازیشده را با استفاده از شبکههای NVIDIA Quantum-2 InfiniBand، پشتیبانیشده توسط یک سیستم فایل مقیاس پتابایتی (petabyte-scale) که توسط VAST Data با یک API call، دستور CLI یا جریان UI بصری راهاندازی کنید، و زمان راهاندازی و پیچیدگی را به حداقل برسانید.
- نظارت پیشگیرانه: نظارت جامع با استفاده از NVIDIA Data Center GPU Manager (DCGM) استاندارد صنعت و ابزارهای اختصاصی، از جمله آزمایشهای پیشگیرانه قبل و بعد از اضافه کردن گره، و تشخیص عملکرد در سطح خوشه.
- جایگزینی گره خودکار: تشخیص خطای هوشمند و عیبیابی خودکار، از جمله جایگزینی گره و جایگزینی برنامهنویسی با ظرفیت یدکی، به حداقل رساندن زمان خرابی.
- ارکستراسیون مدیریتشده هوشمند: خوشههای Slurm کاملاً مدیریتشده که زمانبندی کارآمد و آگاه از توپولوژی را با صفبندی مجدد خودکار مشاغل در صورت قطع شدن، امکانپذیر میکنند.
ایرون (Eiron) در ادامه گفت: "ما بارهای عملیاتی را که اغلب مانع نوآوری هوش مصنوعی میشوند، از بین میبریم. ارکستراسیون تحملپذیر خطای جدید ما تضمین میکند که بارهای کاری آموزش هوش مصنوعی به طور یکپارچه از خرابیهای سختافزاری بازیابی میشوند و تجربهای یکپارچه و قابل اعتماد را ارائه میدهند که مشتریان ما از Crusoe Cloud انتظار دارند."
لس رایت (Less Wright)، مهندس شریک PyTorch در Meta، گفت: "بسیار شگفتانگیز است که ما توانستیم به سرعت 1600 GPU را راهاندازی کنیم، یک شغل را از طریق Slurm در Crusoe Cloud ارسال کنیم و این کار انجام شد."
در دسترس بودن
جدیدترین خدمات پلتفرم کروسو را در GTC در غرفه کروسو شماره 1633 مشاهده کنید. برای پیوستن به
برنامههای پیشنمایش خصوصی Q2 با کروسو تماس بگیرید.