استبیلیتی ای‌آی و آرم، هوش مصنوعی تولید صوت آفلاین را به گوشی‌های هوشمند می‌آورند

استبیلیتی ای‌آی، که به خاطر مدل‌های تبدیل متن به تصویر Stable Diffusion خود شناخته شده است، با غول نیمه‌رسانای جهانی، آرم، همکاری کرده تا قابلیت‌های هوش مصنوعی تولید صوت را به دستگاه‌های موبایل اضافه کند.

با این همکاری، این شرکت موفق شده است Stable Audio Open، مدل تبدیل متن به صوت خود را، به طور کامل روی پردازنده‌های آرم اجرا کند. این شامل تولید جلوه‌های صوتی، نمونه‌های صوتی و عناصر تولید در عرض چند ثانیه، همگی روی دستگاه و بدون نیاز به اتصال به اینترنت است.

استبیلیتی ای‌آی اظهار داشت: «از آنجایی که هوش مصنوعی مولد به طور فزاینده‌ای برای شرکت‌ها و سازندگان حرفه‌ای یکپارچه می‌شود، بسیار مهم است که مدل‌ها و گردش‌های کاری ما به راحتی در همه جا در دسترس سازندگان و تولیدکنندگان قرار گیرند، و ادغام یکپارچه در خطوط تولید رسانه‌های بصری خود را فراهم کنند.»

برای پاسخگویی به افزایش تقاضا، این شرکت قصد داشت مدل‌های خود را به طور کارآمد در لبه اجرا کند. بهینه‌سازی مدل Stable Audio Open برای دستگاه‌های تلفن همراه یک چالش بود. این مدل بر روی دستگاهی با پردازنده آرم آزمایش شد و در ابتدا 240 ثانیه طول کشید.

با تقطیر مدل و استفاده از پشته نرم‌افزاری آرم، مانند هسته‌های int8 matmul از KleidiAI در ExecuTorch از طریق XNNPack، این شرکت توانست زمان تولید یک کلیپ 11 ثانیه‌ای را به زیر 8 ثانیه در پردازنده‌های Armv9 کاهش دهد. این منجر به 30 برابر سریع‌تر شدن زمان پاسخ شد.

برای آزمایش این قابلیت، به یک دستگاه تلفن همراه سازگار نیاز است. با توجه به اینکه اکثر تلفن‌های هوشمند امروزی دارای پردازنده‌های مبتنی بر آرم هستند، باید برای انواع کاربران قابل دسترسی باشد. استبیلیتی ای‌آی همچنین قصد دارد تمام مدل‌های خود را در زمینه‌های تصویر، ویدئو و سه‌بعدی به لبه بیاورد، با هدف تغییر نحوه ایجاد رسانه‌های بصری در دستگاه‌های تلفن همراه.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: analytics india magazine