استبیلیتی ایآی، که به خاطر مدلهای تبدیل متن به تصویر Stable Diffusion خود شناخته شده است، با غول نیمهرسانای جهانی، آرم، همکاری کرده تا قابلیتهای هوش مصنوعی تولید صوت را به دستگاههای موبایل اضافه کند.
با این همکاری، این شرکت موفق شده است Stable Audio Open، مدل تبدیل متن به صوت خود را، به طور کامل روی پردازندههای آرم اجرا کند. این شامل تولید جلوههای صوتی، نمونههای صوتی و عناصر تولید در عرض چند ثانیه، همگی روی دستگاه و بدون نیاز به اتصال به اینترنت است.
استبیلیتی ایآی اظهار داشت: «از آنجایی که هوش مصنوعی مولد به طور فزایندهای برای شرکتها و سازندگان حرفهای یکپارچه میشود، بسیار مهم است که مدلها و گردشهای کاری ما به راحتی در همه جا در دسترس سازندگان و تولیدکنندگان قرار گیرند، و ادغام یکپارچه در خطوط تولید رسانههای بصری خود را فراهم کنند.»
برای پاسخگویی به افزایش تقاضا، این شرکت قصد داشت مدلهای خود را به طور کارآمد در لبه اجرا کند. بهینهسازی مدل Stable Audio Open برای دستگاههای تلفن همراه یک چالش بود. این مدل بر روی دستگاهی با پردازنده آرم آزمایش شد و در ابتدا 240 ثانیه طول کشید.
با تقطیر مدل و استفاده از پشته نرمافزاری آرم، مانند هستههای int8 matmul از KleidiAI در ExecuTorch از طریق XNNPack، این شرکت توانست زمان تولید یک کلیپ 11 ثانیهای را به زیر 8 ثانیه در پردازندههای Armv9 کاهش دهد. این منجر به 30 برابر سریعتر شدن زمان پاسخ شد.
برای آزمایش این قابلیت، به یک دستگاه تلفن همراه سازگار نیاز است. با توجه به اینکه اکثر تلفنهای هوشمند امروزی دارای پردازندههای مبتنی بر آرم هستند، باید برای انواع کاربران قابل دسترسی باشد. استبیلیتی ایآی همچنین قصد دارد تمام مدلهای خود را در زمینههای تصویر، ویدئو و سهبعدی به لبه بیاورد، با هدف تغییر نحوه ایجاد رسانههای بصری در دستگاههای تلفن همراه.