معماری AudioX. این شکل معماری زیربنایی AudioX را به تصویر می‌کشد، و چارچوب ترانسفورماتور انتشار آن را با استراتژی جدید پوشش چندوجهی برجسته می‌کند که یادگیری بازنمایی یکپارچه را در بین حالت‌های متن، ویدئو و صوتی امکان‌پذیر می‌سازد. اعتبار: تیان و همکاران.
معماری AudioX. این شکل معماری زیربنایی AudioX را به تصویر می‌کشد، و چارچوب ترانسفورماتور انتشار آن را با استراتژی جدید پوشش چندوجهی برجسته می‌کند که یادگیری بازنمایی یکپارچه را در بین حالت‌های متن، ویدئو و صوتی امکان‌پذیر می‌سازد. اعتبار: تیان و همکاران.

مدل جدید می‌تواند آهنگ‌ها و قطعات موسیقی را از ورودی‌های متنوع داده تولید کند

در سال‌های اخیر، دانشمندان کامپیوتر ابزارهای یادگیری ماشینی با عملکرد بالا را برای تولید متون، تصاویر، ویدیوها، آهنگ‌ها و سایر محتواها ایجاد کرده‌اند. بیشتر این مدل‌های محاسباتی برای ایجاد محتوا بر اساس دستورالعمل‌های متنی ارائه‌شده توسط کاربران طراحی شده‌اند.

محققان دانشگاه علم و صنعت هنگ کنگ اخیراً AudioX را معرفی کرده‌اند، مدلی که می‌تواند با استفاده از متون، ، تصاویر، موسیقی و به‌عنوان ورودی، قطعات صوتی و موسیقی با کیفیت بالا تولید کند. مدل آن‌ها، که در مقاله‌ای منتشرشده در سرور پیش‌چاپ arXiv معرفی شده است، بر یک ترانسفورماتور انتشار متکی است، یک الگوریتم پیشرفته یادگیری ماشینی که از معماری به‌اصطلاح ترانسفورماتور برای تولید محتوا با حذف تدریجی نویز از داده‌های ورودی که دریافت می‌کند، استفاده می‌کند.

وی Xue، نویسنده مسئول این مقاله، به Tech Xplore گفت: «تحقیقات ما از یک سؤال اساسی در هوش مصنوعی ناشی می‌شود: چگونه می‌توانند به درک و تولید یکپارچه چندوجهی دست یابند؟» «آفرینش انسان یک فرآیند یکپارچه است که در آن اطلاعات از کانال‌های حسی مختلف به‌طور طبیعی توسط مغز ترکیب می‌شوند. سیستم‌های سنتی اغلب به مدل‌های تخصصی متکی بوده‌اند و در ثبت و ترکیب این ارتباطات ذاتی بین حالت‌ها ناکام بوده‌اند.»

هدف اصلی مطالعه اخیر به رهبری وی Xue، Yike Guo و همکارانشان، توسعه یک چارچوب یادگیری بازنمایی یکپارچه بود. این چارچوب به یک مدل فردی اجازه می‌دهد تا اطلاعات را در حالت‌های مختلف (یعنی متون، تصاویر، فیلم‌ها و قطعات صوتی) پردازش کند، به جای ترکیب مدل‌های متمایز که فقط می‌توانند یک نوع خاص از داده را پردازش کنند.

Xue گفت: «هدف ما این است که سیستم‌های هوش مصنوعی بتوانند شبکه‌های مفهومی چندوجهی مشابه مغز انسان را تشکیل دهند.» «AudioX، مدلی که ما ایجاد کردیم، نشان‌دهنده یک است که هدف آن مقابله با چالش دوگانه تراز مفهومی و زمانی است. به عبارت دیگر، برای پرداختن همزمان به سؤالات "چه" (تراز مفهومی) و "چه زمانی" (تراز زمانی) طراحی شده است. هدف نهایی ما ساخت مدل‌های جهانی است که قادر به پیش‌بینی و تولید توالی‌های چندوجهی هستند که با واقعیت سازگار باقی می‌مانند.»

مدل جدید مبتنی بر ترانسفورماتور انتشار که توسط محققان توسعه یافته است، می‌تواند با استفاده از هر داده ورودی به عنوان راهنما، قطعات صوتی یا موسیقی با کیفیت بالا تولید کند. این توانایی برای تبدیل "هر چیزی" به صدا، امکانات جدیدی را برای صنعت سرگرمی و مشاغل خلاقانه باز می‌کند. به عنوان مثال، به کاربران اجازه می‌دهد تا موسیقی‌ای بسازند که با یک صحنه بصری خاص مطابقت داشته باشد یا از ترکیبی از ورودی‌ها (به عنوان مثال، متون و ویدیوها) برای هدایت تولید آهنگ‌های مورد نظر استفاده کنند.

Xue توضیح داد: «AudioX بر اساس یک معماری ترانسفورماتور انتشار ساخته شده است، اما چیزی که آن را متمایز می‌کند، استراتژی پوشش چندوجهی است.» «این استراتژی اساساً نحوه یادگیری ماشین‌ها برای درک روابط بین انواع مختلف اطلاعات را بازتعریف می‌کند.

با مبهم کردن عناصر در حالت‌های ورودی در طول آموزش (یعنی حذف انتخابی تکه‌هایی از فریم‌های ویدیو، نشانه‌ها از متن یا بخش‌هایی از صدا)، و آموزش مدل برای بازیابی اطلاعات از دست رفته از سایر حالت‌ها، ما یک فضای بازنمایی یکپارچه ایجاد می‌کنیم.»

AudioX یکی از اولین مدل‌هایی است که توصیف‌های زبانی، صحنه‌های بصری و الگوهای صوتی را ترکیب می‌کند و معنای معنایی و ساختار ریتمیک این داده‌های چندوجهی را ثبت می‌کند. طراحی منحصربه‌فرد آن به آن امکان می‌دهد تا ارتباطاتی بین انواع مختلف داده‌ها ایجاد کند، مشابه نحوه ادغام اطلاعات توسط مغز انسان که توسط حواس مختلف دریافت می‌شود (یعنی بینایی، شنوایی، چشایی، بویایی و لامسه).

Xue گفت: «AudioX تا به امروز جامع‌ترین مدل پایه هر چیزی به صدا است، با مزایای کلیدی مختلف.» «اولاً، این یک چارچوب یکپارچه است که از وظایف بسیار متنوع در یک معماری مدل واحد پشتیبانی می‌کند. همچنین از طریق استراتژی آموزش پوشش چندوجهی ما، ادغام چندوجهی را امکان‌پذیر می‌کند و یک فضای بازنمایی یکپارچه ایجاد می‌کند. قابلیت‌های تولید همه‌کاره‌ای دارد، زیرا می‌تواند صدا و موسیقی عمومی را با کیفیت بالا مدیریت کند، که بر روی مجموعه‌های داده در مقیاس بزرگ از جمله مجموعه‌های تازه تنظیم‌شده ما آموزش داده شده است.»

در آزمایش‌های اولیه، مشخص شد که مدل جدید ایجادشده توسط Xue و همکارانش قطعات صوتی و موسیقی با کیفیت بالا تولید می‌کند و با موفقیت متون، ویدیوها، تصاویر و صدا را ادغام می‌کند. برجسته‌ترین ویژگی آن این است که مدل‌های مختلف را ترکیب نمی‌کند، بلکه از یک ترانسفورماتور انتشار واحد برای پردازش و ادغام انواع مختلف ورودی استفاده می‌کند.

Xue گفت: «AudioX از وظایف متنوعی در یک معماری پشتیبانی می‌کند، از متن/ویدیو به صدا گرفته تا نقاشی صوتی و تکمیل موسیقی، و از سیستم‌هایی که معمولاً فقط در وظایف خاصی برتری دارند، فراتر می‌رود.» «این مدل می‌تواند کاربردهای بالقوه مختلفی داشته باشد که در تولید فیلم، ایجاد محتوا و بازی‌ها گسترده است.»

AudioX می‌تواند به‌زودی بیشتر بهبود یابد و در طیف گسترده‌ای از تنظیمات مستقر شود. به عنوان مثال، می‌تواند به متخصصان خلاق در تولید فیلم، انیمیشن و محتوا برای رسانه‌های اجتماعی کمک کند.

Xue توضیح داد: «تصور کنید که یک فیلمساز دیگر نیازی به هنرمند Foley برای هر صحنه ندارد.» «AudioX می‌تواند به‌طور خودکار صدای قدم‌ها در برف، درهای جیرجیر یا خش‌خش برگ‌ها را صرفاً بر اساس فیلم بصری تولید کند. به طور مشابه، می‌تواند توسط اینفلوئنسرها برای افزودن فوری موسیقی پس‌زمینه عالی به ویدیوهای رقص TikTok خود یا توسط YouTubers برای ارتقای وبلاگ‌های سفر خود با صداهای محلی معتبر - همه تولیدشده در صورت تقاضا - استفاده شود.»

در آینده، AudioX همچنین می‌تواند توسط توسعه‌دهندگان بازی‌های ویدیویی برای ایجاد بازی‌های فراگیر و تطبیقی استفاده شود، که در آن صداهای پس‌زمینه به‌طور پویا با اقدامات بازیکنان تطبیق داده می‌شوند. به عنوان مثال، با حرکت یک شخصیت از یک کف بتنی به چمن، صدای قدم‌های او می‌تواند تغییر کند، یا با نزدیک شدن به یک تهدید یا دشمن، موسیقی متن بازی می‌تواند به‌تدریج تنش بیشتری پیدا کند.

Xue افزود: «مراحل برنامه‌ریزی‌شده بعدی ما شامل گسترش AudioX به تولید صدای طولانی‌مدت است.» «علاوه بر این، به جای اینکه صرفاً ارتباطات را از داده‌های چندوجهی بیاموزیم، امیدواریم درک زیبایی‌شناختی انسان را در یک چارچوب یادگیری تقویتی ادغام کنیم تا بهتر با ترجیحات ذهنی هماهنگ شویم.»

اطلاعات بیشتر:Zeyue Tian et al, AudioX: Diffusion Transformer for Anything-to-Audio Generation, arXiv (2025). DOI: 10.48550/arxiv.2503.10522

اطلاعات مجله:arXiv