سخنرانی‌های جلسات دیپلماتیک بین‌المللی برای آموزش یک سیستم ترجمه یادگیری ماشینی استفاده شد. اعتبار: Janek Skarzynski/AFP/Getty
سخنرانی‌های جلسات دیپلماتیک بین‌المللی برای آموزش یک سیستم ترجمه یادگیری ماشینی استفاده شد. اعتبار: Janek Skarzynski/AFP/Getty

هوش مصنوعی متا مترجم گفتار به گفتاری ایجاد می‌کند که در ده‌ها زبان کار می‌کند

سیستم یادگیری ماشینی می‌تواند کلمات گفته شده در 101 زبان را پردازش کند و ترجمه‌های سنتز شده با صدا را در 36 زبان مقصد ارائه دهد.

رویای یک ماهی بابل - حیوان مترجمی که توسط فرانشیز علمی-تخیلی کلاسیک «راهنمای مسافران مجانی کهکشان» پیش‌بینی شده بود - می‌تواند کمی به واقعیت نزدیک‌تر شود. محققان در غول فناوری متا، یک سیستم یادگیری ماشینی ایجاد کرده‌اند که تقریباً به طور همزمان گفتار را در 101 زبان به کلماتی که توسط یک سنتز کننده صدا در هر یک از 36 زبان مقصد صحبت می‌شوند، ترجمه می‌کند.

سیستم ترجمه ماشینی چندزبانه و چندوجهی انبوه (SEAMLESSM4T) همچنین می‌تواند گفتار را به متن، متن را به گفتار و متن را به متن ترجمه کند. نتایج در 15 ژانویه در مجله Nature شرح داده شده است1.

متا، که مقر آن در منلو پارک، کالیفرنیا است و سایت‌های رسانه‌های اجتماعی مانند فیس‌بوک، واتس‌اپ و اینستاگرام را اداره می‌کند، می‌گوید SEAMLESSM4T را به صورت منبع باز در اختیار سایر محققانی که می‌خواهند بر اساس آن توسعه دهند، قرار می‌دهد. پس از موفقیت در انتشار مدل زبان بزرگ LLaMA برای توسعه‌دهندگان در سراسر جهان.

کمبود داده

ترجمه ماشینی در چند دهه گذشته، تا حد زیادی به لطف معرفی شبکه‌های عصبی که بر روی مجموعه‌های داده بزرگ آموزش داده می‌شوند، گام‌های بزرگی برداشته است. داده‌های آموزشی برای زبان‌های اصلی - به ویژه انگلیسی - فراوان است، اما به طور مشهور برای بسیاری از زبان‌های دیگر کمیاب است. این نابرابری دامنه زبان‌هایی را که می‌توان ماشین‌ها را برای ترجمه آنها آموزش داد، محدود کرده است. آلیسون کونکه، دانشمند علوم کامپیوتر در دانشگاه کرنل در ایتاکا، نیویورک، در یک مقاله خبری و دیدگاهی که همراه با این مقاله است، می‌نویسد: «این موضوع بر زبان‌هایی که به ندرت در اینترنت ظاهر می‌شوند تأثیر می‌گذارد.»

تیم متا بر اساس کار قبلی خود در زمینه ترجمه گفتار به گفتار2 و همچنین پروژه‌ای به نام هیچ زبانی جا نماند3، که هدف آن ارائه ترجمه متن به متن برای حدود 200 زبان بود، ساخته شده است. از طریق تجربه، محققان در متا و جاهای دیگر دریافته اند که چند زبانه کردن سیستم های ترجمه می تواند عملکرد آنها را حتی در ترجمه زبان هایی با داده های آموزشی محدود بهبود بخشد. دلیل این امر مشخص نیست.

این تیم میلیون‌ها ساعت فایل صوتی از گفتار را به همراه ترجمه‌های انسانی آن گفتار از اینترنت و سایر منابع مانند آرشیو سازمان ملل جمع‌آوری کرد. نویسندگان همچنین رونوشت هایی از برخی از آن سخنرانی ها را جمع آوری کردند.

این تیم همچنین از داده‌های قابل اعتماد برای آموزش مدل برای شناسایی دو قطعه محتوای مشابه استفاده کرد. این امر به محققان اجازه داد تا حدود نیم میلیون ساعت صدا را با متن جفت کنند و به طور خودکار هر قطعه یک زبان را با همتای خود در زبان‌های دیگر مطابقت دهند.

گفتار به گفتار

این سیستم می تواند گفتار را بدون تبدیل آن به متن نوشتاری ابتدا به گفتار ترجمه کند. از یک سنتز کننده گفتار برای تولید صدا استفاده می شود. می تواند گفتار را از هر یک از 101 زبان ترجمه کند، اگرچه نتایج تا کنون فقط به 36 زبان در دسترس است. این سیستم همچنین می تواند سایر کارهای ترجمه مانند متن به گفتار را با دامنه های مختلف زبان انجام دهد.

مارتا کاستا-ژوسا، دانشمند علوم کامپیوتر در متا و یکی از نویسندگان این مقاله، می‌گوید که عملکرد نه تنها با افزایش تعداد زبان‌ها، بلکه با ادغام ترکیبات مختلف متن و گفتار نیز افزایش یافته است. او می گوید: «اینها کلیدهای بهبود هستند. تأخیر زمانی معمولاً چند ثانیه است، و او اضافه می‌کند که این زمان قابل مقایسه با عملکرد مترجمان انسانی حرفه‌ای است.

نویسندگان می گویند که سیستم را برای محدود کردن بروز تعصب جنسیتی و "سمیت افزوده شده" تنظیم کرده اند - زمانی که یک ترجمه خودکار شامل زبان توهین آمیزی است که بازتاب دهنده عبارت اصلی نیست. نویسندگان همچنین برای جلوگیری از ترجمه اصطلاحاتی که در یک زبان، مانند «پرستار» در انگلیسی، بدون جنسیت هستند، به همتایان جنسیتی در زبان‌های دیگر، کنترل‌هایی را بر روی سیستم قرار دادند.

کونکه در تفسیر خود می نویسد که برای محدود کردن بیشتر آسیب های احتمالی ترجمه خودکار، "توسعه دهندگان باید در نظر بگیرند که چگونه ترجمه ها را به گونه ای نمایش دهند که محدودیت های یک مدل را آشکار کند" و به این فکر کنند که "در صورت تردید در دقت آن، به طور کلی از خروجی خودداری کنند".

سابین براون، محقق مطالعات ترجمه در دانشگاه ساری در گیلدفورد، انگلستان، می گوید این پروژه "تلاشی بسیار جالب و مهم" است. اما براون اضافه می‌کند که باید بررسی دقیق‌تری بر روی ترجمه ماشینی انجام شود و همچنین آموزش‌هایی در مورد نحوه استفاده از آن قبل از اینکه به طور گسترده، به‌ویژه توسط افرادی در مشاغل مهم مانند مشاغل پزشکی یا حقوقی، اتخاذ شود، ارائه شود. او می گوید: "من می خواهم بحث بیشتری در مورد چگونگی ارزیابی این سیستم ها ببینم."