مدل‌های بنیادین گفتار به گفتار راه را برای تعاملات چندزبانه هموار می‌کنند

در NVIDIA GTC25، کارشناسان Gnani.ai از پیشرفت‌های چشمگیر در هوش مصنوعی صوتی پرده برداشتند و بر توسعه و استقرار مدل‌های بنیادین گفتار به گفتار تمرکز کردند. این رویکرد نوآورانه وعده می‌دهد که بر محدودیت‌های معماری‌های آبشاری سنتی هوش مصنوعی صوتی غلبه کرده و عصر تعاملات صوتی یکپارچه، چندزبانه و آگاه از احساسات را آغاز کند.

محدودیت‌های معماری‌های آبشاری

معماری پیشرفته کنونی که به عوامل صوتی نیرو می‌دهد، شامل یک خط لوله سه مرحله‌ای است: گفتار به متن (STT)، مدل‌های زبانی بزرگ (LLM) و متن به گفتار (TTS). در حالی که این معماری موثر است، از معایب قابل توجهی رنج می‌برد، که عمدتاً شامل تأخیر و انتشار خطا است. یک معماری آبشاری دارای بلوک‌های متعددی در خط لوله است و هر بلوک تأخیر خاص خود را اضافه می‌کند. تأخیر تجمعی در این مراحل می‌تواند از ۲.۵ تا ۳ ثانیه متغیر باشد که منجر به تجربه کاربری ضعیف می‌شود. علاوه بر این، خطاهایی که در مرحله STT معرفی می‌شوند، در طول خط لوله منتشر شده و باعث افزایش نادرستی‌ها می‌شوند. این معماری سنتی همچنین ویژگی‌های مهم فرازبانی مانند احساسات، عواطف و لحن را از دست می‌دهد و در نتیجه پاسخ‌هایی یکنواخت و از نظر عاطفی مسطح ایجاد می‌کند.

معرفی مدل‌های بنیادین گفتار به گفتار

به منظور رفع این محدودیت‌ها، Gnani.ai یک مدل بنیادین گفتار به گفتار جدید ارائه می‌دهد. این مدل به طور مستقیم صدا را پردازش و تولید می‌کند و نیاز به نمایش‌های متنی واسط را از بین می‌برد. نوآوری کلیدی در آموزش یک رمزگذار صوتی عظیم با ۱.۵ میلیون ساعت داده برچسب‌گذاری شده در ۱۴ زبان نهفته است که تفاوت‌های ظریف احساسات، همدلی و لحن را ثبت می‌کند. این مدل از یک رمزگذار XL تودرتو استفاده می‌کند که با داده‌های جامع دوباره آموزش داده شده است و یک لایه پروژکتور صوتی ورودی برای نگاشت ویژگی‌های صوتی به جاسازی‌های متنی به کار می‌رود. برای پخش جریانی بی‌درنگ، ویژگی‌های صوتی و متنی با هم درآمیخته می‌شوند، در حالی که موارد استفاده غیر جریانی از یک لایه ادغام جاسازی استفاده می‌کنند. لایه LLM که در ابتدا مبتنی بر Llama 8B بود، برای شامل شدن ۱۴ زبان گسترش یافت و نیاز به بازسازی توکن‌سازها داشت. یک مدل پروژکتور خروجی، طیف‌نگاشت‌های mel را تولید می‌کند و امکان ایجاد صداهای فوق‌العاده شخصی‌سازی شده را فراهم می‌کند.

معماری مدل گفتار به گفتار
معماری مدل گفتار به گفتار

مزایای کلیدی و موانع فنی

مدل گفتار به گفتار چندین مزیت قابل توجه ارائه می‌دهد. اولا، این مدل به طور قابل توجهی تأخیر را کاهش می‌دهد و از ۲ ثانیه به تقریبا ۸۵۰-۹۰۰ میلی ثانیه برای خروجی اولین توکن می‌رسد. ثانیا، با ادغام ASR با لایه LLM، دقت را افزایش می‌دهد و عملکرد را به ویژه برای سخنرانی‌های کوتاه و طولانی بهبود می‌بخشد. ثالثا، این مدل با ضبط و مدل‌سازی لحن، استرس و سرعت گفتار، به آگاهی عاطفی دست می‌یابد. رابعا، این مدل از طریق آگاهی متنی، امکان مدیریت بهبود یافته وقفه را فراهم می‌کند و تعاملات طبیعی‌تری را تسهیل می‌کند. در نهایت، این مدل برای مدیریت موثر صدای کم پهنای باند طراحی شده است که برای شبکه‌های تلفنی بسیار مهم است. ساخت این مدل چالش‌های متعددی را به همراه داشت، به ویژه نیازهای عظیم داده. این تیم یک سیستم جمع‌سپاری با ۴ میلیون کاربر ایجاد کرد تا داده‌های مکالمه‌ای غنی از نظر احساسی تولید کند. آنها همچنین از مدل‌های بنیادین برای تولید داده‌های مصنوعی استفاده کردند و بر روی ۱۳.۵ میلیون ساعت داده در دسترس عموم آموزش دیدند. مدل نهایی شامل یک مدل پارامتری ۹ میلیارد است که ۶۳۶ میلیون برای ورودی صوتی، ۸ میلیارد برای LLM و ۳۰۰ میلیون برای سیستم TTS در نظر گرفته شده است.

نقش NVIDIA در توسعه

توسعه این مدل به شدت به پشته NVIDIA متکی بود. NVIDIA Nemo برای آموزش مدل‌های رمزگذار-رمزگشا استفاده شد و NeMo Curator تولید داده‌های متنی مصنوعی را تسهیل کرد. NVIDIA EVA برای تولید جفت‌های صوتی، ترکیب اطلاعات اختصاصی با داده‌های مصنوعی به کار گرفته شد.

موارد استفاده

Gnani.ai دو مورد استفاده اصلی را به نمایش گذاشت: ترجمه زبانی بی‌درنگ و پشتیبانی مشتری. نسخه نمایشی ترجمه زبانی بی‌درنگ شامل یک موتور هوش مصنوعی بود که مکالمه بین یک نماینده انگلیسی زبان و یک مشتری فرانسوی زبان را تسهیل می‌کرد. نسخه نمایشی پشتیبانی مشتری، توانایی مدل در مدیریت مکالمات بین زبانی، وقفه‌ها و تفاوت‌های ظریف احساسی را برجسته کرد.

مدل بنیادین گفتار به گفتار

مدل بنیادین گفتار به گفتار نشان‌دهنده یک جهش قابل توجه رو به جلو در هوش مصنوعی صوتی است. این مدل با از بین بردن محدودیت‌های معماری‌های سنتی، تعاملات صوتی طبیعی‌تر، کارآمدتر و آگاهانه‌تر از نظر احساسی را امکان‌پذیر می‌کند. با ادامه تکامل این فناوری، وعده می‌دهد که صنایع مختلف، از خدمات مشتری گرفته تا ارتباطات جهانی را متحول کند.