پژوهشگران از AudioX، مدل هوش مصنوعی که هر چیزی را به صدا و موسیقی تبدیل میکند، رونمایی کردند
پژوهشگرانی از دانشگاه علم و صنعت هنگ کنگ و Moonshot AI از مدل هوش مصنوعی جدیدی به نام AudioX رونمایی کردهاند که صدا و موسیقی را با استفاده از ورودیهای چندوجهی تولید میکند.
AudioX به عنوان یک مدل یکپارچه توصیف میشود که کنترل زبان طبیعی انعطافپذیر و پردازش یکپارچه ورودیهایی که شامل متن، ویدیو، تصویر، موسیقی و صدا هستند را ارائه میدهد. این مدل با مدلهای استاندارد خاص دامنه که به طور معمول بر روی یک روش واحد یا مجموعه محدودی از شرایط ورودی تمرکز دارند، متفاوت است.
در مقاله تحقیقاتی به کاربردهایی مانند متن به صدا، متن و ویدیو به صدا و ویدیو به صدا با AudioX اشاره شده است. شایان ذکر است، این مدل هوش مصنوعی همچنین به کاربر اجازه میدهد تا صدای موجود را از طریق یک دستور متنی پالایش کند، موسیقی پردازش نشده را بهبود بخشد و موسیقی را از ابتدا تولید کند.
به نظر میرسد کاربران اینترنت از دموی این مدل که در مخزن GitHub مدل به اشتراک گذاشته شده است، هیجانزده هستند و کاربردهای جالبی مانند تولید صدا برای یک ویدیوی تنیس را برجسته میکنند:
محققان اشاره کردند که هدف آنها رسیدگی به کمبود دادههای چندوجهی با کیفیت بالا است، که یک مانع بزرگ در توسعه سیستمهای تولید صدای متنوع بوده است. برای مقابله با این موضوع، آنها دو مجموعه داده جامع را انتخاب کردند: vggsound-caps، با 190 هزار عنوان صوتی بر اساس مجموعه داده VGGSound، و V2M-caps، با 6 میلیون عنوان موسیقی مشتق شده از مجموعه داده V2M.
در مقاله تحقیقاتی آمده است: «نتایج تجربی گسترده نشان میدهد که AudioX نه تنها در وظایف درونوجهی برتری دارد، بلکه عملکرد بینوجهی را نیز به طور قابل توجهی بهبود میبخشد و پتانسیل آن را برای پیشرفت در زمینه تولید صدای چندوجهی برجسته میکند.»
در حال حاضر، کد این مدل در دسترس نیست. محققان اشاره کردند که این کد در صفحه GitHub بدون تعیین بازه زمانی یا جزئیات مجوز در دسترس خواهد بود.
مدلهای مختلفی برای متن به موسیقی و برخی مدلهای متن به گفتار وجود دارد که کاربردهای خلاقانهای در فضای هوش مصنوعی داشتهاند. باید دید که AudioX چگونه امکانات بیشتری را باز میکند.