دستیابی به اوج‌های جدید TTS متن‌باز: انتشار دیا توسط آزمایشگاه Nari، یک مدل 1.6B پارامتری برای شبیه‌سازی صدای بلادرنگ و ترکیب گفتار رسا روی دستگاه‌های مصرفی

توسعه سیستم‌های تبدیل متن به گفتار (TTS) در سال‌های اخیر شاهد پیشرفت‌های چشمگیری بوده است، به‌ویژه با ظهور مدل‌های عصبی در مقیاس بزرگ. با این حال، بیشتر سیستم‌های با کیفیت بالا در پشت APIهای اختصاصی و پلتفرم‌های تجاری قفل شده‌اند. آزمایشگاه Nari در تلاش برای رفع این شکاف، دیا ، یک مدل TTS با 1.6 میلیارد پارامتر را تحت مجوز Apache 2.0 منتشر کرده است و یک جایگزین متن‌باز قوی برای سیستم‌های بسته مانند ElevenLabs و Sesame ارائه می‌دهد.

بررسی فنی و قابلیت‌های مدل

دیا برای ترکیب گفتار با کیفیت بالا طراحی شده است و از معماری مبتنی بر ترانسفورمر استفاده می‌کند که مدل‌سازی زیر و بم رسا را با کارایی محاسباتی متعادل می‌کند. این مدل از شبیه‌سازی صدای zero-shot پشتیبانی می‌کند و به آن امکان می‌دهد صدای یک گوینده را از یک کلیپ صوتی مرجع کوتاه بازسازی کند. برخلاف سیستم‌های سنتی که نیاز به تنظیم دقیق برای هر گوینده جدید دارند، دیا به طور موثر در بین صداها بدون آموزش مجدد تعمیم می‌یابد.

یکی از ویژگی‌های فنی قابل توجه دیا، توانایی آن در ترکیب آواسازی‌های غیرکلامی مانند سرفه و خنده است. این اجزا معمولاً از بسیاری از سیستم‌های استاندارد TTS حذف می‌شوند، اما برای تولید صدای طبیعی و غنی از نظر بافت بسیار مهم هستند. دیا این صداها را به طور ذاتی مدل‌سازی می‌کند و به خروجی گفتار شبیه به انسان کمک می‌کند.

این مدل همچنین از ترکیب بلادرنگ پشتیبانی می‌کند و خطوط لوله استنتاج بهینه شده به آن امکان می‌دهد تا روی دستگاه‌های مصرفی، از جمله مک‌بوک‌ها، کار کند. این ویژگی عملکرد به ویژه برای توسعه‌دهندگانی که به دنبال استقرار با تأخیر کم بدون تکیه بر سرورهای GPU مبتنی بر ابر هستند، ارزشمند است.

استقرار و صدور مجوز

انتشار دیا تحت مجوز Apache 2.0 انعطاف‌پذیری گسترده‌ای را برای استفاده تجاری و آکادمیک ارائه می‌دهد. توسعه‌دهندگان می‌توانند مدل را به‌طور دقیق تنظیم کنند، خروجی‌های آن را تطبیق دهند یا آن را در سیستم‌های بزرگ‌تر مبتنی بر صدا بدون محدودیت‌های مجوز ادغام کنند. خط لوله آموزش و استنتاج به زبان پایتون نوشته شده است و با کتابخانه‌های استاندارد پردازش صوتی ادغام می‌شود و مانع از پذیرش آن را کاهش می‌دهد.

وزن‌های مدل مستقیماً از طریق Hugging Face در دسترس هستند و مخزن یک فرآیند راه‌اندازی واضح برای استنتاج، از جمله نمونه‌هایی از تولید متن به صدا و شبیه‌سازی صدا، ارائه می‌دهد. این طراحی از مدولار بودن پشتیبانی می‌کند و گسترش یا سفارشی‌سازی اجزایی مانند vocoders، مدل‌های آکوستیک یا پیش‌پردازش ورودی را آسان می‌کند.

مقایسه‌ها و پذیرش اولیه

در حالی که معیارهای رسمی به طور گسترده منتشر نشده‌اند، ارزیابی‌های مقدماتی و آزمایش‌های انجمن نشان می‌دهد که دیا در زمینه‌هایی مانند وفاداری گوینده، وضوح صدا و تغییرات رسا، عملکردی مشابه - اگر نگوییم مطلوب‌تر - با سیستم‌های تجاری موجود دارد. گنجاندن پشتیبانی از صدای غیرکلامی و در دسترس بودن متن‌باز، آن را بیشتر از همتایان اختصاصی خود متمایز می‌کند.

از زمان انتشار، دیا توجه قابل توجهی را در جامعه هوش مصنوعی متن‌باز به خود جلب کرده است و به سرعت به رتبه‌های برتر در مدل‌های پرطرفدار Hugging Face رسیده است. پاسخ انجمن بر تقاضای رو به رشد برای مدل‌های گفتار با کارایی بالا و در دسترس تأکید می‌کند که می‌توان آن‌ها را بدون وابستگی به پلتفرم ممیزی، اصلاح و مستقر کرد.

پیامدهای گسترده‌تر

انتشار دیا در یک جنبش گسترده‌تر به سمت دموکراتیک کردن فناوری‌های پیشرفته گفتار قرار می‌گیرد. با گسترش برنامه‌های TTS - از ابزارهای دسترسی و کتاب‌های صوتی گرفته تا عوامل تعاملی و توسعه بازی - در دسترس بودن مدل‌های صوتی باز و با کیفیت بالا اهمیت فزاینده‌ای پیدا می‌کند.

آزمایشگاه Nari با انتشار دیا با تأکید بر قابلیت استفاده، عملکرد و شفافیت، سهم معناداری در اکوسیستم تحقیق و توسعه TTS دارد. این مدل یک مبنای قوی برای کارهای آینده در مدل‌سازی صدای zero-shot، ترکیب چند گوینده و تولید صدای بلادرنگ فراهم می‌کند.

نتیجه‌گیری

دیا نمایانگر یک سهم بالغ و از نظر فنی sound در فضای TTS متن‌باز است. توانایی آن در ترکیب گفتار رسا و با کیفیت بالا - از جمله صدای غیرکلامی - همراه با شبیه‌سازی zero-shot و قابلیت‌های استقرار محلی، آن را به یک ابزار کاربردی و سازگار برای توسعه‌دهندگان و محققان تبدیل می‌کند. با ادامه تکامل این زمینه، مدل‌هایی مانند دیا نقش محوری در شکل دادن به سیستم‌های گفتار بازتر، انعطاف‌پذیرتر و کارآمدتر ایفا خواهند کرد.