هوش مصنوعی انویدیا مدل‌های تشخیص گفتار و ترجمه چندزبانه Canary 1B و 180M Flash را متن‌باز کرد

در حوزه هوش مصنوعی، تشخیص گفتار و ترجمه چندزبانه به ابزارهای ضروری برای تسهیل ارتباطات جهانی تبدیل شده‌اند. با این حال، توسعه مدل‌هایی که بتوانند چندین زبان را به طور دقیق و در زمان واقعی رونویسی و ترجمه کنند، چالش‌های قابل توجهی را به همراه دارد. این چالش‌ها شامل مدیریت تفاوت‌های ظریف زبانی، حفظ دقت بالا، اطمینان از تأخیر کم و استقرار کارآمد مدل‌ها در دستگاه‌های مختلف است.

برای رفع این چالش‌ها، هوش مصنوعی انویدیا دو مدل را متن‌باز کرده است: Canary 1B Flash و Canary 180M Flash. این مدل‌ها برای تشخیص گفتار و ترجمه چندزبانه طراحی شده‌اند و از زبان‌هایی مانند انگلیسی، آلمانی، فرانسوی و اسپانیایی پشتیبانی می‌کنند. این مدل‌ها که تحت مجوز مجاز CC-BY-4.0 منتشر شده‌اند، برای استفاده تجاری در دسترس هستند و نوآوری را در جامعه هوش مصنوعی تشویق می‌کنند.

از نظر فنی، هر دو مدل از معماری رمزگذار-رمزگشا استفاده می‌کنند. رمزگذار مبتنی بر FastConformer است که ویژگی‌های صوتی را به طور کارآمد پردازش می‌کند، در حالی که رمزگشای Transformer تولید متن را مدیریت می‌کند. نشانه‌های خاص کار، از جمله <زبان مقصد>، <وظیفه>، <تغییر برچسب‌های زمانی> و <تغییر PnC> (نقطه‌گذاری و حروف بزرگ)، خروجی مدل را هدایت می‌کنند. مدل Canary 1B Flash شامل 32 لایه رمزگذار و 4 لایه رمزگشا است که در مجموع 883 میلیون پارامتر را تشکیل می‌دهد، در حالی که مدل Canary 180M Flash از 17 لایه رمزگذار و 4 لایه رمزگشا تشکیل شده است که به 182 میلیون پارامتر می‌رسد. این طراحی مقیاس‌پذیری و انطباق‌پذیری با زبان‌ها و وظایف مختلف را تضمین می‌کند.

معیارهای عملکرد نشان می‌دهد که مدل Canary 1B Flash به سرعت استنتاجی بیش از 1000 RTFx در مجموعه داده‌های تابلوی امتیازات باز ASR دست می‌یابد و پردازش بی‌درنگ را امکان‌پذیر می‌کند. در وظایف تشخیص گفتار خودکار انگلیسی (ASR)، به نرخ خطای کلمه (WER) 1.48٪ در مجموعه داده Librispeech Clean و 2.87٪ در مجموعه داده Librispeech Other دست می‌یابد. برای ASR چندزبانه، این مدل به WERهای 4.36٪ برای آلمانی، 2.69٪ برای اسپانیایی و 4.47٪ برای فرانسوی در مجموعه آزمایشی MLS دست می‌یابد. در وظایف ترجمه گفتار خودکار (AST)، این مدل عملکرد قوی با امتیازات BLEU 32.27 برای انگلیسی به آلمانی، 22.6 برای انگلیسی به اسپانیایی و 41.22 برای انگلیسی به فرانسوی در مجموعه آزمایشی FLEURS نشان می‌دهد.

مدل کوچکتر Canary 180M Flash نیز نتایج چشمگیری را ارائه می‌دهد، با سرعت استنتاجی بیش از 1200 RTFx. این مدل به WER 1.87٪ در مجموعه داده Librispeech Clean و 3.83٪ در مجموعه داده Librispeech Other برای ASR انگلیسی دست می‌یابد. برای ASR چندزبانه، این مدل WERهای 4.81٪ برای آلمانی، 3.17٪ برای اسپانیایی و 4.75٪ برای فرانسوی در مجموعه آزمایشی MLS ثبت می‌کند. در وظایف AST، این مدل به امتیازات BLEU 28.18 برای انگلیسی به آلمانی، 20.47 برای انگلیسی به اسپانیایی و 36.66 برای انگلیسی به فرانسوی در مجموعه آزمایشی FLEURS دست می‌یابد.

هر دو مدل از برچسب‌گذاری زمانی در سطح کلمه و سطح قطعه پشتیبانی می‌کنند و کاربرد آنها را در برنامه‌هایی که نیاز به هم‌ترازی دقیق بین صدا و متن دارند، افزایش می‌دهند. اندازه‌های کوچک آنها، آنها را برای استقرار روی دستگاه مناسب می‌سازد و پردازش آفلاین را امکان‌پذیر می‌سازد و وابستگی به خدمات ابری را کاهش می‌دهد. علاوه بر این، استحکام آنها منجر به توهمات کمتری در طول وظایف ترجمه می‌شود و خروجی‌های قابل اعتمادتری را تضمین می‌کند. انتشار متن‌باز تحت مجوز CC-BY-4.0 استفاده تجاری و توسعه بیشتر توسط جامعه را تشویق می‌کند.

در نتیجه، متن‌باز کردن مدل‌های Canary 1B و 180M Flash توسط انویدیا نشان‌دهنده پیشرفت چشمگیری در تشخیص گفتار و ترجمه چندزبانه است. دقت بالا، قابلیت‌های پردازش بی‌درنگ و انطباق‌پذیری آنها برای استقرار روی دستگاه، بسیاری از چالش‌های موجود در این زمینه را برطرف می‌کند. با در دسترس قرار دادن این مدل‌ها به صورت عمومی، انویدیا نه تنها تعهد خود را به پیشبرد تحقیقات هوش مصنوعی نشان می‌دهد، بلکه توسعه‌دهندگان و سازمان‌ها را قادر می‌سازد تا ابزارهای ارتباطی فراگیرتر و کارآمدتری بسازند.

مدل Canary 1B و Canary 180M Flash را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به 80k+ ML SubReddit ما بپیوندید.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: marktechpost