در سالهای اخیر، دانشمندان کامپیوتر ابزارهای یادگیری ماشینی با عملکرد بالا را برای تولید متون، تصاویر، ویدیوها، آهنگها و سایر محتواها ایجاد کردهاند. بیشتر این مدلهای محاسباتی برای ایجاد محتوا بر اساس دستورالعملهای متنی ارائهشده توسط کاربران طراحی شدهاند.
محققان دانشگاه علم و صنعت هنگ کنگ اخیراً AudioX را معرفی کردهاند، مدلی که میتواند با استفاده از متون، فیلمها، تصاویر، موسیقی و ضبطهای صوتی بهعنوان ورودی، قطعات صوتی و موسیقی با کیفیت بالا تولید کند. مدل آنها، که در مقالهای منتشرشده در سرور پیشچاپ arXiv معرفی شده است، بر یک ترانسفورماتور انتشار متکی است، یک الگوریتم پیشرفته یادگیری ماشینی که از معماری بهاصطلاح ترانسفورماتور برای تولید محتوا با حذف تدریجی نویز از دادههای ورودی که دریافت میکند، استفاده میکند.
وی Xue، نویسنده مسئول این مقاله، به Tech Xplore گفت: «تحقیقات ما از یک سؤال اساسی در هوش مصنوعی ناشی میشود: چگونه سیستمهای هوشمند میتوانند به درک و تولید یکپارچه چندوجهی دست یابند؟» «آفرینش انسان یک فرآیند یکپارچه است که در آن اطلاعات از کانالهای حسی مختلف بهطور طبیعی توسط مغز ترکیب میشوند. سیستمهای سنتی اغلب به مدلهای تخصصی متکی بودهاند و در ثبت و ترکیب این ارتباطات ذاتی بین حالتها ناکام بودهاند.»
هدف اصلی مطالعه اخیر به رهبری وی Xue، Yike Guo و همکارانشان، توسعه یک چارچوب یادگیری بازنمایی یکپارچه بود. این چارچوب به یک مدل فردی اجازه میدهد تا اطلاعات را در حالتهای مختلف (یعنی متون، تصاویر، فیلمها و قطعات صوتی) پردازش کند، به جای ترکیب مدلهای متمایز که فقط میتوانند یک نوع خاص از داده را پردازش کنند.
Xue گفت: «هدف ما این است که سیستمهای هوش مصنوعی بتوانند شبکههای مفهومی چندوجهی مشابه مغز انسان را تشکیل دهند.» «AudioX، مدلی که ما ایجاد کردیم، نشاندهنده یک تغییر پارادایم است که هدف آن مقابله با چالش دوگانه تراز مفهومی و زمانی است. به عبارت دیگر، برای پرداختن همزمان به سؤالات "چه" (تراز مفهومی) و "چه زمانی" (تراز زمانی) طراحی شده است. هدف نهایی ما ساخت مدلهای جهانی است که قادر به پیشبینی و تولید توالیهای چندوجهی هستند که با واقعیت سازگار باقی میمانند.»
مدل جدید مبتنی بر ترانسفورماتور انتشار که توسط محققان توسعه یافته است، میتواند با استفاده از هر داده ورودی به عنوان راهنما، قطعات صوتی یا موسیقی با کیفیت بالا تولید کند. این توانایی برای تبدیل "هر چیزی" به صدا، امکانات جدیدی را برای صنعت سرگرمی و مشاغل خلاقانه باز میکند. به عنوان مثال، به کاربران اجازه میدهد تا موسیقیای بسازند که با یک صحنه بصری خاص مطابقت داشته باشد یا از ترکیبی از ورودیها (به عنوان مثال، متون و ویدیوها) برای هدایت تولید آهنگهای مورد نظر استفاده کنند.
Xue توضیح داد: «AudioX بر اساس یک معماری ترانسفورماتور انتشار ساخته شده است، اما چیزی که آن را متمایز میکند، استراتژی پوشش چندوجهی است.» «این استراتژی اساساً نحوه یادگیری ماشینها برای درک روابط بین انواع مختلف اطلاعات را بازتعریف میکند.
با مبهم کردن عناصر در حالتهای ورودی در طول آموزش (یعنی حذف انتخابی تکههایی از فریمهای ویدیو، نشانهها از متن یا بخشهایی از صدا)، و آموزش مدل برای بازیابی اطلاعات از دست رفته از سایر حالتها، ما یک فضای بازنمایی یکپارچه ایجاد میکنیم.»
AudioX یکی از اولین مدلهایی است که توصیفهای زبانی، صحنههای بصری و الگوهای صوتی را ترکیب میکند و معنای معنایی و ساختار ریتمیک این دادههای چندوجهی را ثبت میکند. طراحی منحصربهفرد آن به آن امکان میدهد تا ارتباطاتی بین انواع مختلف دادهها ایجاد کند، مشابه نحوه ادغام اطلاعات توسط مغز انسان که توسط حواس مختلف دریافت میشود (یعنی بینایی، شنوایی، چشایی، بویایی و لامسه).
Xue گفت: «AudioX تا به امروز جامعترین مدل پایه هر چیزی به صدا است، با مزایای کلیدی مختلف.» «اولاً، این یک چارچوب یکپارچه است که از وظایف بسیار متنوع در یک معماری مدل واحد پشتیبانی میکند. همچنین از طریق استراتژی آموزش پوشش چندوجهی ما، ادغام چندوجهی را امکانپذیر میکند و یک فضای بازنمایی یکپارچه ایجاد میکند. قابلیتهای تولید همهکارهای دارد، زیرا میتواند صدا و موسیقی عمومی را با کیفیت بالا مدیریت کند، که بر روی مجموعههای داده در مقیاس بزرگ از جمله مجموعههای تازه تنظیمشده ما آموزش داده شده است.»
در آزمایشهای اولیه، مشخص شد که مدل جدید ایجادشده توسط Xue و همکارانش قطعات صوتی و موسیقی با کیفیت بالا تولید میکند و با موفقیت متون، ویدیوها، تصاویر و صدا را ادغام میکند. برجستهترین ویژگی آن این است که مدلهای مختلف را ترکیب نمیکند، بلکه از یک ترانسفورماتور انتشار واحد برای پردازش و ادغام انواع مختلف ورودی استفاده میکند.
Xue گفت: «AudioX از وظایف متنوعی در یک معماری پشتیبانی میکند، از متن/ویدیو به صدا گرفته تا نقاشی صوتی و تکمیل موسیقی، و از سیستمهایی که معمولاً فقط در وظایف خاصی برتری دارند، فراتر میرود.» «این مدل میتواند کاربردهای بالقوه مختلفی داشته باشد که در تولید فیلم، ایجاد محتوا و بازیها گسترده است.»
AudioX میتواند بهزودی بیشتر بهبود یابد و در طیف گستردهای از تنظیمات مستقر شود. به عنوان مثال، میتواند به متخصصان خلاق در تولید فیلم، انیمیشن و محتوا برای رسانههای اجتماعی کمک کند.
Xue توضیح داد: «تصور کنید که یک فیلمساز دیگر نیازی به هنرمند Foley برای هر صحنه ندارد.» «AudioX میتواند بهطور خودکار صدای قدمها در برف، درهای جیرجیر یا خشخش برگها را صرفاً بر اساس فیلم بصری تولید کند. به طور مشابه، میتواند توسط اینفلوئنسرها برای افزودن فوری موسیقی پسزمینه عالی به ویدیوهای رقص TikTok خود یا توسط YouTubers برای ارتقای وبلاگهای سفر خود با صداهای محلی معتبر - همه تولیدشده در صورت تقاضا - استفاده شود.»
در آینده، AudioX همچنین میتواند توسط توسعهدهندگان بازیهای ویدیویی برای ایجاد بازیهای فراگیر و تطبیقی استفاده شود، که در آن صداهای پسزمینه بهطور پویا با اقدامات بازیکنان تطبیق داده میشوند. به عنوان مثال، با حرکت یک شخصیت از یک کف بتنی به چمن، صدای قدمهای او میتواند تغییر کند، یا با نزدیک شدن به یک تهدید یا دشمن، موسیقی متن بازی میتواند بهتدریج تنش بیشتری پیدا کند.
Xue افزود: «مراحل برنامهریزیشده بعدی ما شامل گسترش AudioX به تولید صدای طولانیمدت است.» «علاوه بر این، به جای اینکه صرفاً ارتباطات را از دادههای چندوجهی بیاموزیم، امیدواریم درک زیباییشناختی انسان را در یک چارچوب یادگیری تقویتی ادغام کنیم تا بهتر با ترجیحات ذهنی هماهنگ شویم.»
اطلاعات بیشتر:Zeyue Tian et al, AudioX: Diffusion Transformer for Anything-to-Audio Generation, arXiv (2025). DOI: 10.48550/arxiv.2503.10522