اوفیر کراکوفسکی یکی از بنیانگذاران و مدیرعامل Deepdub است. او با ۳۰ سال تجربه در علوم کامپیوتر و یادگیری ماشین، نقش مهمی در تاسیس و رهبری بخش یادگیری ماشین و نوآوری نیروی هوایی اسرائیل به مدت ۲۵ سال ایفا کرده است.
Deepdub یک شرکت دوبله مبتنی بر هوش مصنوعی است که از یادگیری عمیق و شبیهسازی صدا برای ارائه بومیسازی مقیاسپذیر و با کیفیت بالا برای فیلم، تلویزیون و محتوای دیجیتال استفاده میکند. این شرکت که در سال ۲۰۱۹ تاسیس شده است، به سازندگان محتوا این امکان را میدهد تا ضمن ترجمه یکپارچه دیالوگها به چندین زبان، اجراهای اصلی را حفظ کنند. Deepdub با ادغام سنتز گفتار مبتنی بر هوش مصنوعی با نظارت زبانی انسانی، دسترسی جهانی به محتوا را افزایش میدهد و زمان و هزینه دوبله سنتی را کاهش میدهد. این شرکت به دلیل نوآوری خود، مشارکتها، گواهینامهها و بودجههای اصلی را برای گسترش فناوری بومیسازی هوش مصنوعی خود در بخش سرگرمی به دست آورده است.
چه چیزی الهامبخش شما برای تاسیس Deepdub در سال ۲۰۱۹ بود؟ آیا لحظه یا چالشی خاص وجود داشت که منجر به ایجاد آن شود؟
دوبله سنتی مدتهاست که استاندارد صنعت برای بومیسازی محتوا بوده است، اما فرآیندی پرهزینه، زمانبر و با منابع فشرده است. در حالی که راهکارهای صوتی تولید شده توسط هوش مصنوعی وجود داشتند، فاقد عمق عاطفی مورد نیاز برای ثبت واقعی عملکرد یک بازیگر بودند و آنها را برای محتوای پیچیده و با کیفیت بالا نامناسب میکرد.
ما فرصتی را برای پر کردن این شکاف با توسعه یک راهکار بومیسازی مبتنی بر هوش مصنوعی شناسایی کردیم که اصالت عاطفی اجرای اصلی را حفظ میکند و در عین حال کارایی را به شدت بهبود میبخشد. ما فناوری اختصاصی eTTS™ (تبدیل متن به گفتار احساسی) خود را توسعه دادیم که تضمین میکند صداهای تولید شده توسط هوش مصنوعی همان وزن، لحن و ظرافت عاطفی بازیگران انسانی را داشته باشند.
ما دنیایی را متصور هستیم که در آن موانع زبانی و فرهنگی دیگر مانع دسترسی جهانی به محتوا نیستند. ما در ایجاد پلتفرم خود، چالش محدودیتهای زبانی در سرگرمی، آموزش الکترونیکی، FAST و سایر صنایع را تشخیص دادیم و تصمیم گرفتیم در بومیسازی محتوا انقلابی ایجاد کنیم.
به منظور اطمینان از اینکه راهکار Deepdub بالاترین کیفیت بومیسازی و دوبله را برای محتوای پیچیده در مقیاس ارائه میدهد، تصمیم گرفتیم یک رویکرد ترکیبی اتخاذ کنیم و کارشناسان زبانی و صوتی را همراه با فناوری eTTS™ خود در این فرآیند ادغام کنیم.
چشمانداز ما دموکراتیزه کردن تولید صدا، در دسترس قرار دادن آن به طور گسترده، فراگیر و مرتبط با فرهنگهای مختلف است.
هنگام راهاندازی Deepdub با چه چالشهای فنی و تجاری بزرگی روبرو شدید و چگونه بر آنها غلبه کردید؟
کسب اعتماد صنعت سرگرمی یک مانع بزرگ هنگام راهاندازی Deepdub بود. هالیوود دهها سال است که به دوبله سنتی متکی بوده است و تغییر به سمت راهکارهای مبتنی بر هوش مصنوعی مستلزم نشان دادن توانایی ما در ارائه نتایج با کیفیت استودیویی در صنعتی بود که اغلب نسبت به هوش مصنوعی بدبین است.
برای رفع این تردید، ابتدا با ایجاد یک بانک صدای کاملاً مجاز، اصالت صداهای تولید شده توسط هوش مصنوعی خود را افزایش دادیم. این بانک شامل نمونههای صدای واقعی انسان است و به طور قابل توجهی طبیعی بودن و بیان خروجی ما را بهبود میبخشد، که برای پذیرش در هالیوود بسیار مهم است.
در مرحله بعد، فناوریهای اختصاصی مانند eTTS™ را همراه با ویژگیهایی مانند کنترل لهجه توسعه دادیم. این فناوریها اطمینان حاصل میکنند که صداهای تولید شده توسط هوش مصنوعی نه تنها عمق و ظرافتهای عاطفی را ثبت میکنند، بلکه به اصالت منطقهای مورد نیاز برای دوبله با کیفیت بالا نیز پایبند هستند.
ما همچنین یک تیم تولید پس از تولید داخلی اختصاصی ایجاد کردیم که از نزدیک با فناوری ما کار میکند. این تیم خروجیهای هوش مصنوعی را تنظیم میکند و اطمینان میدهد که هر قطعه محتوا صیقلی است و استانداردهای بالای صنعت را برآورده میکند.
علاوه بر این، رویکرد خود را گسترش دادیم تا شامل یک شبکه جهانی از متخصصان انسانی—بازیگران صدا، زبانشناسان و کارگردانان از سراسر جهان—شویم. این متخصصان بینشهای فرهنگی ارزشمندی را ارائه میدهند و تخصص خلاقانهای را ارائه میدهند و دقت فرهنگی و طنین عاطفی محتوای دوبله شده ما را افزایش میدهند.
تیم زبانشناسی ما در کنار فناوری و متخصصان جهانی ما کار میکند تا اطمینان حاصل کند که زبان استفاده شده برای زمینه فرهنگی مخاطب هدف مناسب است و اصالت و انطباق با هنجارهای محلی را تضمین میکند.
Deepdub از طریق این استراتژیها، با ترکیب فناوری پیشرفته با یک تیم قوی از متخصصان جهانی و یک تیم تولید پس از تولید داخلی، با موفقیت به هالیوود و سایر شرکتهای تولیدی درجه یک در سراسر جهان نشان داده است که هوش مصنوعی میتواند جریانهای کاری دوبله سنتی را به طور قابل توجهی افزایش دهد. این ادغام نه تنها تولید را ساده میکند، بلکه امکانات را برای گسترش بازار نیز افزایش میدهد.
فناوری دوبله مبتنی بر هوش مصنوعی Deepdub چه تفاوتی با روشهای دوبله سنتی دارد؟
دوبله سنتی یک فرآیند کار فشرده است که میتواند ماهها برای هر پروژه طول بکشد، زیرا به بازیگران صدا، مهندسان صدا و تیمهای تولید پس از تولید نیاز دارد تا به صورت دستی دیالوگها را به زبانهای مختلف بازسازی کنند. راهکار ما با ارائه یک راهکار سرتاسر ترکیبی—ترکیب فناوری و تخصص انسانی—که مستقیماً در جریانهای کاری تولید پس از تولید ادغام شده است، این فرآیند را متحول میکند، بنابراین هزینههای بومیسازی را تا ۷۰٪ و زمانهای برگشت را تا ۵۰٪ کاهش میدهد.
برخلاف سایر راهکارهای صوتی تولید شده توسط هوش مصنوعی، فناوری اختصاصی eTTS™ ما امکان دستیابی به سطحی از عمق عاطفی، اصالت فرهنگی و ثبات صوتی را فراهم میکند که روشهای سنتی در مقیاس با آن دست و پنجه نرم میکنند.
آیا میتوانید ما را با رویکرد ترکیبی Deepdub آشنا کنید—هوش مصنوعی و تخصص انسانی چگونه در فرآیند دوبله با هم کار میکنند؟
مدل ترکیبی Deepdub دقت و مقیاسپذیری هوش مصنوعی را با خلاقیت و حساسیت فرهنگی تخصص انسانی ترکیب میکند. رویکرد ما هنر دوبله سنتی را با فناوری پیشرفته هوش مصنوعی ترکیب میکند و اطمینان میدهد که محتوای بومیسازی شده اصالت عاطفی و تأثیر نسخه اصلی را حفظ میکند.
راهکار ما از هوش مصنوعی برای خودکارسازی جنبههای اساسی بومیسازی استفاده میکند، در حالی که متخصصان انسانی ظرافتهای عاطفی، لهجهها و جزئیات فرهنگی را اصلاح میکنند. ما هر دو فناوری اختصاصی eTTs™ و Voice-to-Voice (V2V) خود را برای افزایش بیان طبیعی صداهای تولید شده توسط هوش مصنوعی ادغام میکنیم و اطمینان میدهیم که عمق و واقعگرایی اجراهای انسانی را ثبت میکنند. به این ترتیب، اطمینان حاصل میکنیم که هر قطعه محتوا به همان اندازه که در نسخه اصلی است، در شکل بومیسازی شده خود احساس اصالت و تأثیر میکند.
زبانشناسان و متخصصان صدا نقش کلیدی در این فرآیند ایفا میکنند، زیرا آنها دقت فرهنگی محتوای تولید شده توسط هوش مصنوعی را افزایش میدهند. از آنجایی که جهانی شدن همچنان آینده سرگرمی را شکل میدهد، ادغام هوش مصنوعی با هنر انسانی به استاندارد طلایی برای بومیسازی محتوا تبدیل خواهد شد.
علاوه بر این، برنامه حق امتیاز هنرمند صدا به بازیگران صدای حرفهای هر زمان که از صداهای آنها در دوبله به کمک هوش مصنوعی استفاده میشود، غرامت میدهد و استفاده اخلاقی از فناوری هوش مصنوعی صدا را تضمین میکند.
فناوری اختصاصی eTTS™ (تبدیل متن به گفتار احساسی) Deepdub چگونه اصالت صدا و عمق عاطفی را در محتوای دوبله شده بهبود میبخشد؟
صداهای سنتی تولید شده توسط هوش مصنوعی اغلب فاقد نشانههای ظریف عاطفی هستند که اجراها را جذاب میکنند. Deepdub برای رفع این کمبود، فناوری اختصاصی eTTS™ خود را توسعه داد و از مدلهای هوش مصنوعی و یادگیری عمیق برای تولید گفتاری استفاده کرد که نه تنها عمق عاطفی کامل اجرای بازیگر اصلی را حفظ میکند، بلکه هوش عاطفی انسانی را نیز در فرآیند خودکار ادغام میکند. این قابلیت پیشرفته به هوش مصنوعی اجازه میدهد تا صداهای مصنوعی را به طور دقیق برای بازتاب احساسات مورد نظر مانند شادی، عصبانیت یا غم و اندوه تنظیم کند و به طور معتبر با مخاطبان طنین انداز شود. علاوه بر این، eTTS™ در تولید بازتولید صدای با کیفیت بالا، تقلید از ظرافتهای طبیعی در گفتار انسان مانند زیر و بمی، لحن و سرعت، که برای ارائه خطوطی که واقعی و جذاب هستند ضروری است، برتری دارد. این فناوری همچنین با تطبیق ماهرانه خروجیها برای کنترل لهجهها، حساسیت فرهنگی را افزایش میدهد و اطمینان میدهد که محتوای دوبله شده به ظرافتهای فرهنگی احترام میگذارد و با آن همسو است، در نتیجه جذابیت و اثربخشی جهانی آن را افزایش میدهد.
یکی از انتقادات رایج از صداهای تولید شده توسط هوش مصنوعی این است که میتوانند رباتیک به نظر برسند. Deepdub چگونه اطمینان میدهد که صداهای تولید شده توسط هوش مصنوعی طبیعی بودن و ظرافت عاطفی خود را حفظ میکنند؟
فناوری اختصاصی ما از الگوریتمهای یادگیری عمیق و یادگیری ماشین برای ارائه راهکارهای دوبله مقیاسپذیر و با کیفیت بالا استفاده میکند که هدف اصلی، سبک، طنز و ظرافتهای فرهنگی را حفظ میکنند.
همراه با فناوری eTTS™ خود، مجموعه نوآورانه Deepdub شامل ویژگیهایی مانند Voice-to-Voice (V2V)، شبیهسازی صدا، کنترل لهجه و بانک احساسات آوازی ما است که به تیمهای تولید اجازه میدهد تا اجراها را به گونهای تنظیم کنند که با دیدگاه خلاقانه آنها مطابقت داشته باشد. این ویژگیها اطمینان حاصل میکنند که هر صدا عمق عاطفی و ظرافتهای لازم برای داستانگویی جذاب و تجربیات کاربری تأثیرگذار را دارد.
در چند سال گذشته، شاهد موفقیت روزافزون راهکارهای خود در صنعت رسانه و سرگرمی بودهایم، بنابراین اخیراً تصمیم گرفتیم دسترسی به صداگذاریهای تأیید شده هالیوودی خود را با AI Audio API به توسعهدهندگان، شرکتها و سازندگان محتوا باز کنیم. API ما که توسط فناوری eTTS™ ما پشتیبانی میشود، تولید صدای بلادرنگ را با پارامترهای سفارشیسازی پیشرفته، از جمله لهجه، لحن عاطفی، سرعت و سبک آوازی امکانپذیر میکند.
ویژگی اصلی API ما، ایستگاههای از پیش تنظیم شده صوتی است که بر اساس سالها تجربه صنعت با بیشترین نیازهای صداگذاری درخواستی طراحی شدهاند. این تنظیمات از پیش پیکربندی شده به کاربران این امکان را میدهد تا به سرعت انواع مختلف محتوا را بدون نیاز به پیکربندی یا کاوش دستی گسترده تطبیق دهند. ایستگاههای از پیش تنظیم شده موجود شامل توضیحات صوتی و کتابهای صوتی، روایت مستند یا واقعنما، درام و سرگرمی، ارائه اخبار، تفسیر ورزشی، صداگذاری انیمه یا کارتونی، پاسخ صوتی تعاملی (IVR) و همچنین محتوای تبلیغاتی و تجاری هستند.
دوبله هوش مصنوعی شامل انطباق فرهنگی و زبانی است—Deepdub چگونه اطمینان میدهد که راهکارهای دوبله آن از نظر فرهنگی مناسب و دقیق هستند؟
بومیسازی فقط ترجمه کلمات نیست—بلکه ترجمه معنا، هدف و زمینه فرهنگی است. رویکرد ترکیبی Deepdub اتوماسیون مبتنی بر هوش مصنوعی را با تخصص زبانی انسانی ترکیب میکند و اطمینان میدهد که دیالوگ ترجمه شده بازتابی از ظرافتهای فرهنگی و عاطفی مخاطب هدف است. شبکه متخصصان بومیسازی ما در کنار هوش مصنوعی کار میکنند تا اطمینان حاصل کنند که محتوای دوبله شده با گویشها، اصطلاحات و حساسیتهای فرهنگی منطقهای مطابقت دارد.
هیجانانگیزترین نوآوریهایی که در حال حاضر روی آن کار میکنید چیست تا دوبله هوش مصنوعی را به سطح بعدی برسانید؟
یکی از بزرگترین نوآوریهای آتی ما دوبله زنده/پخش جریانی است که دوبله بلادرنگ را برای پخشهای زنده مانند رویدادهای ورزشی و رسانههای خبری امکانپذیر میکند و رویدادهای جهانی را فوراً در دسترس قرار میدهد. با ترکیب این با یکی دیگر از نوآوریهای هیجانانگیز ما، ویژگی eTTs™ ما، یک فناوری اختصاصی که امکان ایجاد صداهایی شبیه به صدای انسان از متن را در مقیاس بزرگ و با پشتیبانی عاطفی کامل و حقوق تجاری داخلی فراهم میکند، ما میتوانیم دوبله زنده معتبر، احساسی و با کیفیت بالا را ارائه دهیم که برخلاف هر چیزی در بازار است.
به عنوان مثال، مراسم افتتاحیه المپیک یا هر رویداد ورزشی زنده را در نظر بگیرید. در حالی که پخشکنندگان محلی معمولاً تفسیری را به زبان و گویش منطقهای خود ارائه میدهند، این فناوری به بینندگان از سراسر جهان این امکان را میدهد تا کل رویداد را به زبان مادری خود در حین پخش تجربه کنند.
دوبله زنده نحوه تجربه رویدادهای زنده در سراسر جهان را بازتعریف میکند و اطمینان میدهد که زبان هرگز یک مانع نیست.
دوبله تولید شده توسط هوش مصنوعی اخیراً با انتقاداتی در پروژههای خاص مواجه شده است. به نظر شما عوامل کلیدی محرک این انتقادات چیست؟
انتقادات اصلی ناشی از نگرانیها در مورد اصالت، اخلاق و کیفیت است. برخی از صداهای تولید شده توسط هوش مصنوعی فاقد طنین و ظرافت عاطفی مورد نیاز برای داستانگویی فراگیر بودهاند. ما در Deepdub، با توسعه صداهای هوش مصنوعی بیانگر عاطفی، با این موضوع مقابله کردهایم و اطمینان میدهیم که روح اجرای اصلی را حفظ میکنند. Deepdub در تمام ابعاد، از جمله انتخاب بازیگران عالی، دیالوگ واضح، همگامسازی یکپارچه و سرعت عالی، به بیش از ۷۰٪ رضایت استثنایی بینندگان دست یافته است.
مسئله دیگر استفاده اخلاقی از صداهای هوش مصنوعی است. Deepdub یک رهبر در دوبله مسئولانه هوش مصنوعی است و پیشگام اولین برنامه حق امتیاز صنعت است که به بازیگران صدا برای اجراهای تولید شده توسط هوش مصنوعی غرامت میدهد. ما معتقدیم که هوش مصنوعی باید خلاقیت انسانی را تقویت کند، نه جایگزین آن شود، و این تعهد در هر چیزی که میسازیم منعکس میشود.
به نظر شما دوبله هوش مصنوعی در ۵-۱۰ سال آینده چگونه صنعت سرگرمی جهانی را تغییر خواهد داد؟
در دهه آینده، دوبله مبتنی بر هوش مصنوعی محتوا را بیش از هر زمان دیگری دموکراتیزه میکند و فیلمها، برنامههای تلویزیونی و پخشهای زنده را برای هر مخاطبی، در هر کجا، به زبان مادری آنها فوراً در دسترس قرار میدهد.
ما دنیایی را متصور هستیم که در آن پلتفرمهای پخش جریانی و پخشکنندگان دوبله چند زبانه بلادرنگ را ادغام میکنند، موانع زبانی را از بین میبرند و به داستانها اجازه میدهند دورتر و سریعتر از روشهای بومیسازی سنتی سفر کنند.
فراتر از دسترسی زبانی، دوبله هوش مصنوعی همچنین میتواند دسترسی رسانهای را برای افراد نابینا و کم بینا افزایش دهد. بسیاری از توضیحات صوتی برای دنبال کردن محتوای بصری استفاده میکنند و دوبله هوش مصنوعی به آنها اجازه میدهد تا با محتوای زبان خارجی زمانی که زیرنویسها یک گزینه در دسترس نیستند، درگیر شوند. با از بین بردن موانع زبانی و حسی، دوبله مبتنی بر هوش مصنوعی به ایجاد یک تجربه سرگرمی فراگیرتر برای همه کمک میکند، که به ویژه با توجه به اینکه مقررات جدید در مورد دسترسی رسانهای در سال جاری در سراسر جهان به اجرا در میآیند، بسیار مهم است.
بزرگترین چالشهایی که هنوز باید برای تبدیل شدن دوبله هوش مصنوعی به یک جریان اصلی واقعی حل شوند چیست؟
بزرگترین چالشها حفظ کیفیت فوقالعاده بالا در مقیاس، اطمینان از دقت فرهنگی و زبانی و ایجاد دستورالعملهای اخلاقی برای صداهای تولید شده توسط هوش مصنوعی است. با این حال، فراتر از موانع فنی، پذیرش عمومی دوبله هوش مصنوعی به اعتماد بستگی دارد. بینندگان باید احساس کنند که صداهای تولید شده توسط هوش مصنوعی اصالت و عمق عاطفی اجراها را حفظ میکنند تا اینکه مصنوعی یا جدا به نظر برسند.
برای اینکه دوبله هوش مصنوعی به طور کامل پذیرفته شود، باید با ترکیب هنر و فناوری انسانی در مقیاس بالا از کیفیت بالایی برخوردار باشد و همچنین احترام به یکپارچگی خلاقانه، ظرافت زبانی و زمینه فرهنگی را نشان دهد. این بدان معناست که اطمینان حاصل شود که صداها به هدف بازیگران اصلی وفادار میمانند، از نادرستیهایی که میتوانند مخاطبان را بیگانه کنند، جلوگیری شود و به نگرانیهای اخلاقی در مورد خطرات جعل عمیق و مالکیت صدا رسیدگی شود.
با گسترش دوبله هوش مصنوعی، ارائهدهندگان فناوری باید استانداردهای دقیقی را برای اصالت صدا، امنیت و حفاظت از مالکیت معنوی اجرا کنند. Deepdub به طور فعال در این زمینهها پیشتاز است و اطمینان میدهد که فناوری صدای هوش مصنوعی داستانگویی جهانی را تقویت میکند و در عین حال به مشارکتهای هنری و حرفهای استعدادهای انسانی احترام میگذارد. تنها در این صورت است که مخاطبان، سازندگان محتوا و سهامداران صنعت دوبله هوش مصنوعی را به عنوان یک ابزار قابل اعتماد و ارزشمند به طور کامل میپذیرند.
با تشکر از مصاحبه عالی، خوانندگانی که مایل به کسب اطلاعات بیشتر هستند باید از Deepdub بازدید کنند.