بازار تجزیه و تحلیل صدا
بازار تجزیه و تحلیل صدا

پژوهشگران از AudioX، مدل هوش مصنوعی که هر چیزی را به صدا و موسیقی تبدیل می‌کند، رونمایی کردند

مدل AudioX
نمایی از مدل AudioX

پژوهشگران از AudioX، مدل هوش مصنوعی که هر چیزی را به صدا و موسیقی تبدیل می‌کند، رونمایی کردند

پژوهشگرانی از دانشگاه علم و صنعت هنگ کنگ و Moonshot AI از مدل هوش مصنوعی جدیدی به نام AudioX رونمایی کرده‌اند که صدا و موسیقی را با استفاده از ورودی‌های چندوجهی تولید می‌کند.

AudioX به عنوان یک مدل یکپارچه توصیف می‌شود که کنترل زبان طبیعی انعطاف‌پذیر و پردازش یکپارچه ورودی‌هایی که شامل متن، ویدیو، تصویر، موسیقی و صدا هستند را ارائه می‌دهد. این مدل با مدل‌های استاندارد خاص دامنه که به طور معمول بر روی یک روش واحد یا مجموعه محدودی از شرایط ورودی تمرکز دارند، متفاوت است.

در مقاله تحقیقاتی به کاربردهایی مانند متن به صدا، متن و ویدیو به صدا و ویدیو به صدا با AudioX اشاره شده است. شایان ذکر است، این مدل هوش مصنوعی همچنین به کاربر اجازه می‌دهد تا صدای موجود را از طریق یک دستور متنی پالایش کند، موسیقی پردازش نشده را بهبود بخشد و موسیقی را از ابتدا تولید کند.

به نظر می‌رسد کاربران اینترنت از دموی این مدل که در مخزن GitHub مدل به اشتراک گذاشته شده است، هیجان‌زده هستند و کاربردهای جالبی مانند تولید صدا برای یک ویدیوی تنیس را برجسته می‌کنند:

محققان اشاره کردند که هدف آن‌ها رسیدگی به کمبود داده‌های چندوجهی با کیفیت بالا است، که یک مانع بزرگ در توسعه سیستم‌های تولید صدای متنوع بوده است. برای مقابله با این موضوع، آن‌ها دو مجموعه داده جامع را انتخاب کردند: vggsound-caps، با 190 هزار عنوان صوتی بر اساس مجموعه داده VGGSound، و V2M-caps، با 6 میلیون عنوان موسیقی مشتق شده از مجموعه داده V2M.

در مقاله تحقیقاتی آمده است: «نتایج تجربی گسترده نشان می‌دهد که AudioX نه تنها در وظایف درون‌وجهی برتری دارد، بلکه عملکرد بین‌وجهی را نیز به طور قابل توجهی بهبود می‌بخشد و پتانسیل آن را برای پیشرفت در زمینه تولید صدای چندوجهی برجسته می‌کند.»

در حال حاضر، کد این مدل در دسترس نیست. محققان اشاره کردند که این کد در صفحه GitHub بدون تعیین بازه زمانی یا جزئیات مجوز در دسترس خواهد بود.

مدل‌های مختلفی برای متن به موسیقی و برخی مدل‌های متن به گفتار وجود دارد که کاربردهای خلاقانه‌ای در فضای هوش مصنوعی داشته‌اند. باید دید که AudioX چگونه امکانات بیشتری را باز می‌کند.