WebAI و MacStadium سرویس استنتاج هوش مصنوعی مبتنی بر سیلیکون اپل راه‌اندازی کردند

WebAI و MacStadium با همکاری یکدیگر، میزبانی برنامه‌های هوش مصنوعی بر روی سیلیکون اپل در ابر MacStadium را آسان‌تر می‌کنند.

مک‌های مدرن، تا حدی به دلیل معماری حافظه یکپارچه (unified memory architecture) پلتفرم مدرن سیستم-روی-یک-چیپ (System-on-a-Chip) اپل، مورد علاقه توسعه‌دهندگانی هستند که می‌خواهند از مدل‌های زبان بزرگ (LLMها) به صورت محلی استفاده کنند. این امر در طول فرآیند توسعه عالی است - و همچنین امتحان کردن آن صرفاً سرگرم‌کننده است - اما شرکت‌های بسیار کمی مدل‌های خود را بر روی سیلیکون اپل (Apple Silicon) مستقر می‌کنند. مدتی است که webAI بر روی آوردن یادگیری ماشین و مدل‌های کوچک هوش مصنوعی مولد به دستگاه‌های اپل، هم گوشی‌ها و هم دسکتاپ‌ها، تمرکز کرده است.

اکنون این شرکت به لطف همکاری با سرویس میزبانی مک MacStadium، این کار را یک قدم فراتر می‌برد، که به شرکت‌ها اجازه می‌دهد مدل‌های هوش مصنوعی خود را بر روی سیلیکون اپل در ابر MacStadium مستقر کنند.

همانطور که دیوید استاوت، هم‌بنیان‌گذار و مدیرعامل webAI به من گفت، زمانی که او این شرکت را در سال ۲۰۱۹ تأسیس کرد، نظریه‌اش این بود که برای اینکه هوش مصنوعی واقعاً معنادار باشد، باید در جیب کاربران زندگی کند. او گفت: «این [هوش مصنوعی] باید متعلق به کاربر باشد و باید فوق‌العاده زمینه‌مند (hyper-contextual) باشد. واقعاً چیزی برای پشتیبانی از آن وجود نداشت و اینجاست که webAI متولد شد.» از آنجایی که کل صنعت هنوز در نوسان بود - و هوش مصنوعی مولد هنوز چند سال تا رسیدن به جریان اصلی فاصله داشت - تیم در نهایت موتور زمان اجرا (runtime) و استنتاج (inferencing engine) خود را ساخت.

از همان ابتدا، webAI علاقه‌ای به ساخت مدل‌های خود نداشت (استاوت معتقد است این یک رقابت به سمت صفر است) بلکه به ارائه ابزارهایی به کاربران خود برای آموزش، دقیق‌سازی (fine-tune) و استقرار مدل‌ها بر روی سخت‌افزار سیلیکون اپل‌شان علاقه‌مند بود. از آنجایی که اکثر شرکت‌ها رک‌های سرور پر از مک در دفاتر خود ندارند، webAI خلاقیت به خرج داد. موتور زمان اجرای آن اساساً به کسب‌وکارها اجازه می‌دهد تا بار سرور را در چندین ماشین توزیع کنند، بی‌شباهت به یک مزرعه رندر (render farm) قدیمی نیست. اما پس از شروع، بسیاری از شرکت‌ها نیز شروع به خرید مک‌های اختصاصی برای اجرای موتور زمان اجرای webAI می‌کنند.

برای بسیاری از شرکت‌ها، نگهداری مدل‌های هوش مصنوعی و داده‌های مرتبط با آن‌ها در داخل شرکت بسیار مهم است، بنابراین آن‌ها می‌خواهند برنامه‌های هوش مصنوعی خود را بدون نیاز به ارسال داده به شخص ثالث توسعه دهند. این به آن‌ها امکان می‌دهد تا از سرمایه‌گذاری‌های سخت‌افزاری موجود خود دوباره استفاده کنند بدون اینکه مجبور به خرید کارت‌های گران‌تر و پرمصرف انویدیا (Nvidia) شوند.

استاوت گفت: «بسیاری از شرکای ما می‌گویند: "یک لحظه صبر کنید، من می‌توانم این را با هزینه نسبتاً معقولی داشته باشم. بیایید فقط پشته (stack) خود را بسازیم." وقتی شرکت‌هایی با ۱۰۰۰ کارمند دارید، چرا از ماشین‌هایی که در شبکه شما هستند استفاده نمی‌کنید؟ webAI این کار را تسهیل می‌کند.» او همچنین اشاره کرد که بر اساس هزینه به ازای هر توکن (cost-per-token)، این خوشه‌های مک مقرون به صرفه‌تر از پردازنده‌های گرافیکی انویدیا (Nvidia GPUs) هستند.

جنبه دیگر webAI این است که علاوه بر ساخت سرویس برای توزیع این مدل‌های بزرگ در بین دستگاه‌ها، همین سرویس به بهینه‌سازی آن مدل‌ها نیز کمک می‌کند. برای انجام این کار، webAI از آنچه کوانتیزاسیون وزن‌دهی‌شده با آنتروپی (Entropy-Weighted Quantization یا EWQ) می‌نامد، استفاده می‌کند.

ایده در اینجا تجزیه و تحلیل بلوک‌های ترانسفورمر (transformer blocks) در یک مدل برای یافتن آن بلوک‌هایی است که می‌توان آن‌ها را بدون تأثیر بر عملکرد کلی مدل، کوانتیزه (quantized) کرد. آن‌هایی که آنتروپی پایین‌تری دارند، یعنی توزیع اطلاعات قابل پیش‌بینی‌تری دارند، اغلب می‌توانند کوانتیزاسیون تهاجمی‌تری را با حداقل تأثیر بر دقت کلی تحمل کنند. در معیارسنجی webAI و برای اکثر معماری‌های LLM، این تکنیک دقت را تنها کمتر از ۰.۵٪ کاهش می‌دهد اما اندازه مدل را تا ۳۰٪ کاهش می‌دهد.

وقتی نوبت به مرحله تولید می‌رسد، جایی که بسیاری از شرکت‌ها اکنون با بارهای کاری هوش مصنوعی خود در آن قرار دارند، این همکاری جدید با MacStadium جایگزین جدیدی برای سایر ارائه‌دهندگان میزبانی ارائه می‌دهد.

کن تاکلی، مدیرعامل MacStadium گفت: «این مشارکت شرکت‌ها را قادر می‌سازد تا هوش مصنوعی عملی را برای حل مشکلات واقعی کسب‌وکار مستقر کنند، در مقابل هیاهوی بیشتر هوش مصنوعی که بر مدل‌های بزرگ مقیاس عمومی متمرکز است.» «ترکیب سخت‌افزار و نرم‌افزار منحصربه‌فرد متمرکز بر هوش مصنوعی ما را قادر می‌سازد تا راه‌حل‌هایی را با کسری از هزینه و توان به بازار ارائه دهیم، و مقیاس‌پذیری راه‌حل هوش مصنوعی ما می‌تواند بسیار فراتر از آن چیزی باشد که مردم معمولاً با یک مک مرتبط می‌دانند. قابلیت‌های این دستگاه‌ها همه چیز را از تشخیص تصویر گرفته تا استنتاج پیچیده و اتوماسیون سیستم امکان‌پذیر می‌سازد.»

استاوت این تلاش با MacStadium را به عنوان ارائه یک ابر خصوصی (private cloud) به مشتریانش توصیف کرد. «این خصوصی‌تر از هر راه‌حل دیگری است. نحوه ساخت شبکه webAI - که با زیرساخت MacStadium تسهیل شده است - یکی از امن‌ترین سیستم‌ها برای پردازش خصوصی خارج از سایت است. و این یک راه‌حل بومی هوش مصنوعی خواهد بود، نه چیزی که ما آن را برای گنجاندن هوش مصنوعی در داستان تغییر داده‌ایم.»

در مورد سخت‌افزار، این دو شرکت هنوز جزئیات را به اشتراک نمی‌گذارند، اما استاوت اشاره کرد که این یک راه‌حل طبقه‌بندی شده خواهد بود. به هر حال، هر حجم کاری نیازی به اجرا بر روی Mac Studio با ۵۱۲ گیگابایت رم ندارد.

استاوت گفت: «آنچه ما دریافتیم این است که هوش مصنوعی به بهترین وجه روی سیلیکون اپل اجرا می‌شود، به خصوص با موتور زمان اجرای خودمان. اگر از پای‌تورچ (PyTorch) یا تنسورفلو (TensorFlow) استفاده می‌کردیم، ممکن بود اینطور نباشد. ما اینطور نیستیم. ما از کتابخانه خودمان استفاده می‌کنیم و این مدل‌ها را به دستگاه می‌آوریم. و دریافتیم که سیلیکون آن‌ها احتمالاً یکی از بهترین‌ها برای هوش مصنوعی است.»