در حوزه هوش مصنوعی، تشخیص گفتار و ترجمه چندزبانه به ابزارهای ضروری برای تسهیل ارتباطات جهانی تبدیل شدهاند. با این حال، توسعه مدلهایی که بتوانند چندین زبان را به طور دقیق و در زمان واقعی رونویسی و ترجمه کنند، چالشهای قابل توجهی را به همراه دارد. این چالشها شامل مدیریت تفاوتهای ظریف زبانی، حفظ دقت بالا، اطمینان از تأخیر کم و استقرار کارآمد مدلها در دستگاههای مختلف است.
برای رفع این چالشها، هوش مصنوعی انویدیا دو مدل را متنباز کرده است: Canary 1B Flash و Canary 180M Flash. این مدلها برای تشخیص گفتار و ترجمه چندزبانه طراحی شدهاند و از زبانهایی مانند انگلیسی، آلمانی، فرانسوی و اسپانیایی پشتیبانی میکنند. این مدلها که تحت مجوز مجاز CC-BY-4.0 منتشر شدهاند، برای استفاده تجاری در دسترس هستند و نوآوری را در جامعه هوش مصنوعی تشویق میکنند.
از نظر فنی، هر دو مدل از معماری رمزگذار-رمزگشا استفاده میکنند. رمزگذار مبتنی بر FastConformer است که ویژگیهای صوتی را به طور کارآمد پردازش میکند، در حالی که رمزگشای Transformer تولید متن را مدیریت میکند. نشانههای خاص کار، از جمله <زبان مقصد>، <وظیفه>، <تغییر برچسبهای زمانی> و <تغییر PnC> (نقطهگذاری و حروف بزرگ)، خروجی مدل را هدایت میکنند. مدل Canary 1B Flash شامل 32 لایه رمزگذار و 4 لایه رمزگشا است که در مجموع 883 میلیون پارامتر را تشکیل میدهد، در حالی که مدل Canary 180M Flash از 17 لایه رمزگذار و 4 لایه رمزگشا تشکیل شده است که به 182 میلیون پارامتر میرسد. این طراحی مقیاسپذیری و انطباقپذیری با زبانها و وظایف مختلف را تضمین میکند.
معیارهای عملکرد نشان میدهد که مدل Canary 1B Flash به سرعت استنتاجی بیش از 1000 RTFx در مجموعه دادههای تابلوی امتیازات باز ASR دست مییابد و پردازش بیدرنگ را امکانپذیر میکند. در وظایف تشخیص گفتار خودکار انگلیسی (ASR)، به نرخ خطای کلمه (WER) 1.48٪ در مجموعه داده Librispeech Clean و 2.87٪ در مجموعه داده Librispeech Other دست مییابد. برای ASR چندزبانه، این مدل به WERهای 4.36٪ برای آلمانی، 2.69٪ برای اسپانیایی و 4.47٪ برای فرانسوی در مجموعه آزمایشی MLS دست مییابد. در وظایف ترجمه گفتار خودکار (AST)، این مدل عملکرد قوی با امتیازات BLEU 32.27 برای انگلیسی به آلمانی، 22.6 برای انگلیسی به اسپانیایی و 41.22 برای انگلیسی به فرانسوی در مجموعه آزمایشی FLEURS نشان میدهد.
مدل کوچکتر Canary 180M Flash نیز نتایج چشمگیری را ارائه میدهد، با سرعت استنتاجی بیش از 1200 RTFx. این مدل به WER 1.87٪ در مجموعه داده Librispeech Clean و 3.83٪ در مجموعه داده Librispeech Other برای ASR انگلیسی دست مییابد. برای ASR چندزبانه، این مدل WERهای 4.81٪ برای آلمانی، 3.17٪ برای اسپانیایی و 4.75٪ برای فرانسوی در مجموعه آزمایشی MLS ثبت میکند. در وظایف AST، این مدل به امتیازات BLEU 28.18 برای انگلیسی به آلمانی، 20.47 برای انگلیسی به اسپانیایی و 36.66 برای انگلیسی به فرانسوی در مجموعه آزمایشی FLEURS دست مییابد.
هر دو مدل از برچسبگذاری زمانی در سطح کلمه و سطح قطعه پشتیبانی میکنند و کاربرد آنها را در برنامههایی که نیاز به همترازی دقیق بین صدا و متن دارند، افزایش میدهند. اندازههای کوچک آنها، آنها را برای استقرار روی دستگاه مناسب میسازد و پردازش آفلاین را امکانپذیر میسازد و وابستگی به خدمات ابری را کاهش میدهد. علاوه بر این، استحکام آنها منجر به توهمات کمتری در طول وظایف ترجمه میشود و خروجیهای قابل اعتمادتری را تضمین میکند. انتشار متنباز تحت مجوز CC-BY-4.0 استفاده تجاری و توسعه بیشتر توسط جامعه را تشویق میکند.
در نتیجه، متنباز کردن مدلهای Canary 1B و 180M Flash توسط انویدیا نشاندهنده پیشرفت چشمگیری در تشخیص گفتار و ترجمه چندزبانه است. دقت بالا، قابلیتهای پردازش بیدرنگ و انطباقپذیری آنها برای استقرار روی دستگاه، بسیاری از چالشهای موجود در این زمینه را برطرف میکند. با در دسترس قرار دادن این مدلها به صورت عمومی، انویدیا نه تنها تعهد خود را به پیشبرد تحقیقات هوش مصنوعی نشان میدهد، بلکه توسعهدهندگان و سازمانها را قادر میسازد تا ابزارهای ارتباطی فراگیرتر و کارآمدتری بسازند.
مدل Canary 1B و Canary 180M Flash را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به 80k+ ML SubReddit ما بپیوندید.