مکهای مدرن، تا حدی به دلیل معماری حافظه یکپارچه (unified memory architecture) پلتفرم مدرن سیستم-روی-یک-چیپ (System-on-a-Chip) اپل، مورد علاقه توسعهدهندگانی هستند که میخواهند از مدلهای زبان بزرگ (LLMها) به صورت محلی استفاده کنند. این امر در طول فرآیند توسعه عالی است - و همچنین امتحان کردن آن صرفاً سرگرمکننده است - اما شرکتهای بسیار کمی مدلهای خود را بر روی سیلیکون اپل (Apple Silicon) مستقر میکنند. مدتی است که webAI بر روی آوردن یادگیری ماشین و مدلهای کوچک هوش مصنوعی مولد به دستگاههای اپل، هم گوشیها و هم دسکتاپها، تمرکز کرده است.
اکنون این شرکت به لطف همکاری با سرویس میزبانی مک MacStadium، این کار را یک قدم فراتر میبرد، که به شرکتها اجازه میدهد مدلهای هوش مصنوعی خود را بر روی سیلیکون اپل در ابر MacStadium مستقر کنند.
همانطور که دیوید استاوت، همبنیانگذار و مدیرعامل webAI به من گفت، زمانی که او این شرکت را در سال ۲۰۱۹ تأسیس کرد، نظریهاش این بود که برای اینکه هوش مصنوعی واقعاً معنادار باشد، باید در جیب کاربران زندگی کند. او گفت: «این [هوش مصنوعی] باید متعلق به کاربر باشد و باید فوقالعاده زمینهمند (hyper-contextual) باشد. واقعاً چیزی برای پشتیبانی از آن وجود نداشت و اینجاست که webAI متولد شد.» از آنجایی که کل صنعت هنوز در نوسان بود - و هوش مصنوعی مولد هنوز چند سال تا رسیدن به جریان اصلی فاصله داشت - تیم در نهایت موتور زمان اجرا (runtime) و استنتاج (inferencing engine) خود را ساخت.
از همان ابتدا، webAI علاقهای به ساخت مدلهای خود نداشت (استاوت معتقد است این یک رقابت به سمت صفر است) بلکه به ارائه ابزارهایی به کاربران خود برای آموزش، دقیقسازی (fine-tune) و استقرار مدلها بر روی سختافزار سیلیکون اپلشان علاقهمند بود. از آنجایی که اکثر شرکتها رکهای سرور پر از مک در دفاتر خود ندارند، webAI خلاقیت به خرج داد. موتور زمان اجرای آن اساساً به کسبوکارها اجازه میدهد تا بار سرور را در چندین ماشین توزیع کنند، بیشباهت به یک مزرعه رندر (render farm) قدیمی نیست. اما پس از شروع، بسیاری از شرکتها نیز شروع به خرید مکهای اختصاصی برای اجرای موتور زمان اجرای webAI میکنند.
برای بسیاری از شرکتها، نگهداری مدلهای هوش مصنوعی و دادههای مرتبط با آنها در داخل شرکت بسیار مهم است، بنابراین آنها میخواهند برنامههای هوش مصنوعی خود را بدون نیاز به ارسال داده به شخص ثالث توسعه دهند. این به آنها امکان میدهد تا از سرمایهگذاریهای سختافزاری موجود خود دوباره استفاده کنند بدون اینکه مجبور به خرید کارتهای گرانتر و پرمصرف انویدیا (Nvidia) شوند.
استاوت گفت: «بسیاری از شرکای ما میگویند: "یک لحظه صبر کنید، من میتوانم این را با هزینه نسبتاً معقولی داشته باشم. بیایید فقط پشته (stack) خود را بسازیم." وقتی شرکتهایی با ۱۰۰۰ کارمند دارید، چرا از ماشینهایی که در شبکه شما هستند استفاده نمیکنید؟ webAI این کار را تسهیل میکند.» او همچنین اشاره کرد که بر اساس هزینه به ازای هر توکن (cost-per-token)، این خوشههای مک مقرون به صرفهتر از پردازندههای گرافیکی انویدیا (Nvidia GPUs) هستند.
جنبه دیگر webAI این است که علاوه بر ساخت سرویس برای توزیع این مدلهای بزرگ در بین دستگاهها، همین سرویس به بهینهسازی آن مدلها نیز کمک میکند. برای انجام این کار، webAI از آنچه کوانتیزاسیون وزندهیشده با آنتروپی (Entropy-Weighted Quantization یا EWQ) مینامد، استفاده میکند.
ایده در اینجا تجزیه و تحلیل بلوکهای ترانسفورمر (transformer blocks) در یک مدل برای یافتن آن بلوکهایی است که میتوان آنها را بدون تأثیر بر عملکرد کلی مدل، کوانتیزه (quantized) کرد. آنهایی که آنتروپی پایینتری دارند، یعنی توزیع اطلاعات قابل پیشبینیتری دارند، اغلب میتوانند کوانتیزاسیون تهاجمیتری را با حداقل تأثیر بر دقت کلی تحمل کنند. در معیارسنجی webAI و برای اکثر معماریهای LLM، این تکنیک دقت را تنها کمتر از ۰.۵٪ کاهش میدهد اما اندازه مدل را تا ۳۰٪ کاهش میدهد.
وقتی نوبت به مرحله تولید میرسد، جایی که بسیاری از شرکتها اکنون با بارهای کاری هوش مصنوعی خود در آن قرار دارند، این همکاری جدید با MacStadium جایگزین جدیدی برای سایر ارائهدهندگان میزبانی ارائه میدهد.
کن تاکلی، مدیرعامل MacStadium گفت: «این مشارکت شرکتها را قادر میسازد تا هوش مصنوعی عملی را برای حل مشکلات واقعی کسبوکار مستقر کنند، در مقابل هیاهوی بیشتر هوش مصنوعی که بر مدلهای بزرگ مقیاس عمومی متمرکز است.» «ترکیب سختافزار و نرمافزار منحصربهفرد متمرکز بر هوش مصنوعی ما را قادر میسازد تا راهحلهایی را با کسری از هزینه و توان به بازار ارائه دهیم، و مقیاسپذیری راهحل هوش مصنوعی ما میتواند بسیار فراتر از آن چیزی باشد که مردم معمولاً با یک مک مرتبط میدانند. قابلیتهای این دستگاهها همه چیز را از تشخیص تصویر گرفته تا استنتاج پیچیده و اتوماسیون سیستم امکانپذیر میسازد.»
استاوت این تلاش با MacStadium را به عنوان ارائه یک ابر خصوصی (private cloud) به مشتریانش توصیف کرد. «این خصوصیتر از هر راهحل دیگری است. نحوه ساخت شبکه webAI - که با زیرساخت MacStadium تسهیل شده است - یکی از امنترین سیستمها برای پردازش خصوصی خارج از سایت است. و این یک راهحل بومی هوش مصنوعی خواهد بود، نه چیزی که ما آن را برای گنجاندن هوش مصنوعی در داستان تغییر دادهایم.»
در مورد سختافزار، این دو شرکت هنوز جزئیات را به اشتراک نمیگذارند، اما استاوت اشاره کرد که این یک راهحل طبقهبندی شده خواهد بود. به هر حال، هر حجم کاری نیازی به اجرا بر روی Mac Studio با ۵۱۲ گیگابایت رم ندارد.
استاوت گفت: «آنچه ما دریافتیم این است که هوش مصنوعی به بهترین وجه روی سیلیکون اپل اجرا میشود، به خصوص با موتور زمان اجرای خودمان. اگر از پایتورچ (PyTorch) یا تنسورفلو (TensorFlow) استفاده میکردیم، ممکن بود اینطور نباشد. ما اینطور نیستیم. ما از کتابخانه خودمان استفاده میکنیم و این مدلها را به دستگاه میآوریم. و دریافتیم که سیلیکون آنها احتمالاً یکی از بهترینها برای هوش مصنوعی است.»