اوفیر کراکوفسکی، مدیرعامل و بنیانگذار Deepdub - مجموعه مصاحبه‌ها

اوفیر کراکوفسکی یکی از بنیانگذاران و مدیرعامل Deepdub است. او با ۳۰ سال تجربه در علوم کامپیوتر و یادگیری ماشین، نقش مهمی در تاسیس و رهبری بخش یادگیری ماشین و نوآوری نیروی هوایی اسرائیل به مدت ۲۵ سال ایفا کرده است.

Deepdub یک شرکت دوبله مبتنی بر هوش مصنوعی است که از یادگیری عمیق و شبیه‌سازی صدا برای ارائه بومی‌سازی مقیاس‌پذیر و با کیفیت بالا برای فیلم، تلویزیون و محتوای دیجیتال استفاده می‌کند. این شرکت که در سال ۲۰۱۹ تاسیس شده است، به سازندگان محتوا این امکان را می‌دهد تا ضمن ترجمه یکپارچه دیالوگ‌ها به چندین زبان، اجراهای اصلی را حفظ کنند. Deepdub با ادغام سنتز گفتار مبتنی بر هوش مصنوعی با نظارت زبانی انسانی، دسترسی جهانی به محتوا را افزایش می‌دهد و زمان و هزینه دوبله سنتی را کاهش می‌دهد. این شرکت به دلیل نوآوری خود، مشارکت‌ها، گواهینامه‌ها و بودجه‌های اصلی را برای گسترش فناوری بومی‌سازی هوش مصنوعی خود در بخش سرگرمی به دست آورده است.

چه چیزی الهام‌بخش شما برای تاسیس Deepdub در سال ۲۰۱۹ بود؟ آیا لحظه یا چالشی خاص وجود داشت که منجر به ایجاد آن شود؟

دوبله سنتی مدت‌هاست که استاندارد صنعت برای بومی‌سازی محتوا بوده است، اما فرآیندی پرهزینه، زمان‌بر و با منابع فشرده است. در حالی که راهکارهای صوتی تولید شده توسط هوش مصنوعی وجود داشتند، فاقد عمق عاطفی مورد نیاز برای ثبت واقعی عملکرد یک بازیگر بودند و آنها را برای محتوای پیچیده و با کیفیت بالا نامناسب می‌کرد.

ما فرصتی را برای پر کردن این شکاف با توسعه یک راهکار بومی‌سازی مبتنی بر هوش مصنوعی شناسایی کردیم که اصالت عاطفی اجرای اصلی را حفظ می‌کند و در عین حال کارایی را به شدت بهبود می‌بخشد. ما فناوری اختصاصی eTTS™ (تبدیل متن به گفتار احساسی) خود را توسعه دادیم که تضمین می‌کند صداهای تولید شده توسط هوش مصنوعی همان وزن، لحن و ظرافت عاطفی بازیگران انسانی را داشته باشند.

ما دنیایی را متصور هستیم که در آن موانع زبانی و فرهنگی دیگر مانع دسترسی جهانی به محتوا نیستند. ما در ایجاد پلتفرم خود، چالش محدودیت‌های زبانی در سرگرمی، آموزش الکترونیکی، FAST و سایر صنایع را تشخیص دادیم و تصمیم گرفتیم در بومی‌سازی محتوا انقلابی ایجاد کنیم.

به منظور اطمینان از اینکه راهکار Deepdub بالاترین کیفیت بومی‌سازی و دوبله را برای محتوای پیچیده در مقیاس ارائه می‌دهد، تصمیم گرفتیم یک رویکرد ترکیبی اتخاذ کنیم و کارشناسان زبانی و صوتی را همراه با فناوری eTTS™ خود در این فرآیند ادغام کنیم.

چشم‌انداز ما دموکراتیزه کردن تولید صدا، در دسترس قرار دادن آن به طور گسترده، فراگیر و مرتبط با فرهنگ‌های مختلف است.

هنگام راه‌اندازی Deepdub با چه چالش‌های فنی و تجاری بزرگی روبرو شدید و چگونه بر آنها غلبه کردید؟

کسب اعتماد صنعت سرگرمی یک مانع بزرگ هنگام راه‌اندازی Deepdub بود. هالیوود ده‌ها سال است که به دوبله سنتی متکی بوده است و تغییر به سمت راهکارهای مبتنی بر هوش مصنوعی مستلزم نشان دادن توانایی ما در ارائه نتایج با کیفیت استودیویی در صنعتی بود که اغلب نسبت به هوش مصنوعی بدبین است.

برای رفع این تردید، ابتدا با ایجاد یک بانک صدای کاملاً مجاز، اصالت صداهای تولید شده توسط هوش مصنوعی خود را افزایش دادیم. این بانک شامل نمونه‌های صدای واقعی انسان است و به طور قابل توجهی طبیعی بودن و بیان خروجی ما را بهبود می‌بخشد، که برای پذیرش در هالیوود بسیار مهم است.

در مرحله بعد، فناوری‌های اختصاصی مانند eTTS™ را همراه با ویژگی‌هایی مانند کنترل لهجه توسعه دادیم. این فناوری‌ها اطمینان حاصل می‌کنند که صداهای تولید شده توسط هوش مصنوعی نه تنها عمق و ظرافت‌های عاطفی را ثبت می‌کنند، بلکه به اصالت منطقه‌ای مورد نیاز برای دوبله با کیفیت بالا نیز پایبند هستند.

ما همچنین یک تیم تولید پس از تولید داخلی اختصاصی ایجاد کردیم که از نزدیک با فناوری ما کار می‌کند. این تیم خروجی‌های هوش مصنوعی را تنظیم می‌کند و اطمینان می‌دهد که هر قطعه محتوا صیقلی است و استانداردهای بالای صنعت را برآورده می‌کند.

علاوه بر این، رویکرد خود را گسترش دادیم تا شامل یک شبکه جهانی از متخصصان انسانی—بازیگران صدا، زبان‌شناسان و کارگردانان از سراسر جهان—شویم. این متخصصان بینش‌های فرهنگی ارزشمندی را ارائه می‌دهند و تخصص خلاقانه‌ای را ارائه می‌دهند و دقت فرهنگی و طنین عاطفی محتوای دوبله شده ما را افزایش می‌دهند.

تیم زبان‌شناسی ما در کنار فناوری و متخصصان جهانی ما کار می‌کند تا اطمینان حاصل کند که زبان استفاده شده برای زمینه فرهنگی مخاطب هدف مناسب است و اصالت و انطباق با هنجارهای محلی را تضمین می‌کند.

Deepdub از طریق این استراتژی‌ها، با ترکیب فناوری پیشرفته با یک تیم قوی از متخصصان جهانی و یک تیم تولید پس از تولید داخلی، با موفقیت به هالیوود و سایر شرکت‌های تولیدی درجه یک در سراسر جهان نشان داده است که هوش مصنوعی می‌تواند جریان‌های کاری دوبله سنتی را به طور قابل توجهی افزایش دهد. این ادغام نه تنها تولید را ساده می‌کند، بلکه امکانات را برای گسترش بازار نیز افزایش می‌دهد.

فناوری دوبله مبتنی بر هوش مصنوعی Deepdub چه تفاوتی با روش‌های دوبله سنتی دارد؟

دوبله سنتی یک فرآیند کار فشرده است که می‌تواند ماه‌ها برای هر پروژه طول بکشد، زیرا به بازیگران صدا، مهندسان صدا و تیم‌های تولید پس از تولید نیاز دارد تا به صورت دستی دیالوگ‌ها را به زبان‌های مختلف بازسازی کنند. راهکار ما با ارائه یک راهکار سرتاسر ترکیبی—ترکیب فناوری و تخصص انسانی—که مستقیماً در جریان‌های کاری تولید پس از تولید ادغام شده است، این فرآیند را متحول می‌کند، بنابراین هزینه‌های بومی‌سازی را تا ۷۰٪ و زمان‌های برگشت را تا ۵۰٪ کاهش می‌دهد.

برخلاف سایر راهکارهای صوتی تولید شده توسط هوش مصنوعی، فناوری اختصاصی eTTS™ ما امکان دستیابی به سطحی از عمق عاطفی، اصالت فرهنگی و ثبات صوتی را فراهم می‌کند که روش‌های سنتی در مقیاس با آن دست و پنجه نرم می‌کنند.

آیا می‌توانید ما را با رویکرد ترکیبی Deepdub آشنا کنید—هوش مصنوعی و تخصص انسانی چگونه در فرآیند دوبله با هم کار می‌کنند؟

مدل ترکیبی Deepdub دقت و مقیاس‌پذیری هوش مصنوعی را با خلاقیت و حساسیت فرهنگی تخصص انسانی ترکیب می‌کند. رویکرد ما هنر دوبله سنتی را با فناوری پیشرفته هوش مصنوعی ترکیب می‌کند و اطمینان می‌دهد که محتوای بومی‌سازی شده اصالت عاطفی و تأثیر نسخه اصلی را حفظ می‌کند.

راهکار ما از هوش مصنوعی برای خودکارسازی جنبه‌های اساسی بومی‌سازی استفاده می‌کند، در حالی که متخصصان انسانی ظرافت‌های عاطفی، لهجه‌ها و جزئیات فرهنگی را اصلاح می‌کنند. ما هر دو فناوری اختصاصی eTTs™ و Voice-to-Voice (V2V) خود را برای افزایش بیان طبیعی صداهای تولید شده توسط هوش مصنوعی ادغام می‌کنیم و اطمینان می‌دهیم که عمق و واقع‌گرایی اجراهای انسانی را ثبت می‌کنند. به این ترتیب، اطمینان حاصل می‌کنیم که هر قطعه محتوا به همان اندازه که در نسخه اصلی است، در شکل بومی‌سازی شده خود احساس اصالت و تأثیر می‌کند.

زبان‌شناسان و متخصصان صدا نقش کلیدی در این فرآیند ایفا می‌کنند، زیرا آنها دقت فرهنگی محتوای تولید شده توسط هوش مصنوعی را افزایش می‌دهند. از آنجایی که جهانی شدن همچنان آینده سرگرمی را شکل می‌دهد، ادغام هوش مصنوعی با هنر انسانی به استاندارد طلایی برای بومی‌سازی محتوا تبدیل خواهد شد.

علاوه بر این، برنامه حق امتیاز هنرمند صدا به بازیگران صدای حرفه‌ای هر زمان که از صداهای آنها در دوبله به کمک هوش مصنوعی استفاده می‌شود، غرامت می‌دهد و استفاده اخلاقی از فناوری هوش مصنوعی صدا را تضمین می‌کند.

فناوری اختصاصی eTTS™ (تبدیل متن به گفتار احساسی) Deepdub چگونه اصالت صدا و عمق عاطفی را در محتوای دوبله شده بهبود می‌بخشد؟

صداهای سنتی تولید شده توسط هوش مصنوعی اغلب فاقد نشانه‌های ظریف عاطفی هستند که اجراها را جذاب می‌کنند. Deepdub برای رفع این کمبود، فناوری اختصاصی eTTS™ خود را توسعه داد و از مدل‌های هوش مصنوعی و یادگیری عمیق برای تولید گفتاری استفاده کرد که نه تنها عمق عاطفی کامل اجرای بازیگر اصلی را حفظ می‌کند، بلکه هوش عاطفی انسانی را نیز در فرآیند خودکار ادغام می‌کند. این قابلیت پیشرفته به هوش مصنوعی اجازه می‌دهد تا صداهای مصنوعی را به طور دقیق برای بازتاب احساسات مورد نظر مانند شادی، عصبانیت یا غم و اندوه تنظیم کند و به طور معتبر با مخاطبان طنین انداز شود. علاوه بر این، eTTS™ در تولید بازتولید صدای با کیفیت بالا، تقلید از ظرافت‌های طبیعی در گفتار انسان مانند زیر و بمی، لحن و سرعت، که برای ارائه خطوطی که واقعی و جذاب هستند ضروری است، برتری دارد. این فناوری همچنین با تطبیق ماهرانه خروجی‌ها برای کنترل لهجه‌ها، حساسیت فرهنگی را افزایش می‌دهد و اطمینان می‌دهد که محتوای دوبله شده به ظرافت‌های فرهنگی احترام می‌گذارد و با آن همسو است، در نتیجه جذابیت و اثربخشی جهانی آن را افزایش می‌دهد.

یکی از انتقادات رایج از صداهای تولید شده توسط هوش مصنوعی این است که می‌توانند رباتیک به نظر برسند. Deepdub چگونه اطمینان می‌دهد که صداهای تولید شده توسط هوش مصنوعی طبیعی بودن و ظرافت عاطفی خود را حفظ می‌کنند؟

فناوری اختصاصی ما از الگوریتم‌های یادگیری عمیق و یادگیری ماشین برای ارائه راهکارهای دوبله مقیاس‌پذیر و با کیفیت بالا استفاده می‌کند که هدف اصلی، سبک، طنز و ظرافت‌های فرهنگی را حفظ می‌کنند.

همراه با فناوری eTTS™ خود، مجموعه نوآورانه Deepdub شامل ویژگی‌هایی مانند Voice-to-Voice (V2V)، شبیه‌سازی صدا، کنترل لهجه و بانک احساسات آوازی ما است که به تیم‌های تولید اجازه می‌دهد تا اجراها را به گونه‌ای تنظیم کنند که با دیدگاه خلاقانه آنها مطابقت داشته باشد. این ویژگی‌ها اطمینان حاصل می‌کنند که هر صدا عمق عاطفی و ظرافت‌های لازم برای داستان‌گویی جذاب و تجربیات کاربری تأثیرگذار را دارد.

در چند سال گذشته، شاهد موفقیت روزافزون راهکارهای خود در صنعت رسانه و سرگرمی بوده‌ایم، بنابراین اخیراً تصمیم گرفتیم دسترسی به صداگذاری‌های تأیید شده هالیوودی خود را با AI Audio API به توسعه‌دهندگان، شرکت‌ها و سازندگان محتوا باز کنیم. API ما که توسط فناوری eTTS™ ما پشتیبانی می‌شود، تولید صدای بلادرنگ را با پارامترهای سفارشی‌سازی پیشرفته، از جمله لهجه، لحن عاطفی، سرعت و سبک آوازی امکان‌پذیر می‌کند.

ویژگی اصلی API ما، ایستگاه‌های از پیش تنظیم شده صوتی است که بر اساس سال‌ها تجربه صنعت با بیشترین نیازهای صداگذاری درخواستی طراحی شده‌اند. این تنظیمات از پیش پیکربندی شده به کاربران این امکان را می‌دهد تا به سرعت انواع مختلف محتوا را بدون نیاز به پیکربندی یا کاوش دستی گسترده تطبیق دهند. ایستگاه‌های از پیش تنظیم شده موجود شامل توضیحات صوتی و کتاب‌های صوتی، روایت مستند یا واقع‌نما، درام و سرگرمی، ارائه اخبار، تفسیر ورزشی، صداگذاری انیمه یا کارتونی، پاسخ صوتی تعاملی (IVR) و همچنین محتوای تبلیغاتی و تجاری هستند.

دوبله هوش مصنوعی شامل انطباق فرهنگی و زبانی است—Deepdub چگونه اطمینان می‌دهد که راهکارهای دوبله آن از نظر فرهنگی مناسب و دقیق هستند؟

بومی‌سازی فقط ترجمه کلمات نیست—بلکه ترجمه معنا، هدف و زمینه فرهنگی است. رویکرد ترکیبی Deepdub اتوماسیون مبتنی بر هوش مصنوعی را با تخصص زبانی انسانی ترکیب می‌کند و اطمینان می‌دهد که دیالوگ ترجمه شده بازتابی از ظرافت‌های فرهنگی و عاطفی مخاطب هدف است. شبکه متخصصان بومی‌سازی ما در کنار هوش مصنوعی کار می‌کنند تا اطمینان حاصل کنند که محتوای دوبله شده با گویش‌ها، اصطلاحات و حساسیت‌های فرهنگی منطقه‌ای مطابقت دارد.

هیجان‌انگیزترین نوآوری‌هایی که در حال حاضر روی آن کار می‌کنید چیست تا دوبله هوش مصنوعی را به سطح بعدی برسانید؟

یکی از بزرگ‌ترین نوآوری‌های آتی ما دوبله زنده/پخش جریانی است که دوبله بلادرنگ را برای پخش‌های زنده مانند رویدادهای ورزشی و رسانه‌های خبری امکان‌پذیر می‌کند و رویدادهای جهانی را فوراً در دسترس قرار می‌دهد. با ترکیب این با یکی دیگر از نوآوری‌های هیجان‌انگیز ما، ویژگی eTTs™ ما، یک فناوری اختصاصی که امکان ایجاد صداهایی شبیه به صدای انسان از متن را در مقیاس بزرگ و با پشتیبانی عاطفی کامل و حقوق تجاری داخلی فراهم می‌کند، ما می‌توانیم دوبله زنده معتبر، احساسی و با کیفیت بالا را ارائه دهیم که برخلاف هر چیزی در بازار است.

به عنوان مثال، مراسم افتتاحیه المپیک یا هر رویداد ورزشی زنده را در نظر بگیرید. در حالی که پخش‌کنندگان محلی معمولاً تفسیری را به زبان و گویش منطقه‌ای خود ارائه می‌دهند، این فناوری به بینندگان از سراسر جهان این امکان را می‌دهد تا کل رویداد را به زبان مادری خود در حین پخش تجربه کنند.

دوبله زنده نحوه تجربه رویدادهای زنده در سراسر جهان را بازتعریف می‌کند و اطمینان می‌دهد که زبان هرگز یک مانع نیست.

دوبله تولید شده توسط هوش مصنوعی اخیراً با انتقاداتی در پروژه‌های خاص مواجه شده است. به نظر شما عوامل کلیدی محرک این انتقادات چیست؟

انتقادات اصلی ناشی از نگرانی‌ها در مورد اصالت، اخلاق و کیفیت است. برخی از صداهای تولید شده توسط هوش مصنوعی فاقد طنین و ظرافت عاطفی مورد نیاز برای داستان‌گویی فراگیر بوده‌اند. ما در Deepdub، با توسعه صداهای هوش مصنوعی بیانگر عاطفی، با این موضوع مقابله کرده‌ایم و اطمینان می‌دهیم که روح اجرای اصلی را حفظ می‌کنند. Deepdub در تمام ابعاد، از جمله انتخاب بازیگران عالی، دیالوگ واضح، همگام‌سازی یکپارچه و سرعت عالی، به بیش از ۷۰٪ رضایت استثنایی بینندگان دست یافته است.

مسئله دیگر استفاده اخلاقی از صداهای هوش مصنوعی است. Deepdub یک رهبر در دوبله مسئولانه هوش مصنوعی است و پیشگام اولین برنامه حق امتیاز صنعت است که به بازیگران صدا برای اجراهای تولید شده توسط هوش مصنوعی غرامت می‌دهد. ما معتقدیم که هوش مصنوعی باید خلاقیت انسانی را تقویت کند، نه جایگزین آن شود، و این تعهد در هر چیزی که می‌سازیم منعکس می‌شود.

به نظر شما دوبله هوش مصنوعی در ۵-۱۰ سال آینده چگونه صنعت سرگرمی جهانی را تغییر خواهد داد؟

در دهه آینده، دوبله مبتنی بر هوش مصنوعی محتوا را بیش از هر زمان دیگری دموکراتیزه می‌کند و فیلم‌ها، برنامه‌های تلویزیونی و پخش‌های زنده را برای هر مخاطبی، در هر کجا، به زبان مادری آنها فوراً در دسترس قرار می‌دهد.

ما دنیایی را متصور هستیم که در آن پلتفرم‌های پخش جریانی و پخش‌کنندگان دوبله چند زبانه بلادرنگ را ادغام می‌کنند، موانع زبانی را از بین می‌برند و به داستان‌ها اجازه می‌دهند دورتر و سریع‌تر از روش‌های بومی‌سازی سنتی سفر کنند.

فراتر از دسترسی زبانی، دوبله هوش مصنوعی همچنین می‌تواند دسترسی رسانه‌ای را برای افراد نابینا و کم بینا افزایش دهد. بسیاری از توضیحات صوتی برای دنبال کردن محتوای بصری استفاده می‌کنند و دوبله هوش مصنوعی به آنها اجازه می‌دهد تا با محتوای زبان خارجی زمانی که زیرنویس‌ها یک گزینه در دسترس نیستند، درگیر شوند. با از بین بردن موانع زبانی و حسی، دوبله مبتنی بر هوش مصنوعی به ایجاد یک تجربه سرگرمی فراگیرتر برای همه کمک می‌کند، که به ویژه با توجه به اینکه مقررات جدید در مورد دسترسی رسانه‌ای در سال جاری در سراسر جهان به اجرا در می‌آیند، بسیار مهم است.

بزرگ‌ترین چالش‌هایی که هنوز باید برای تبدیل شدن دوبله هوش مصنوعی به یک جریان اصلی واقعی حل شوند چیست؟

بزرگ‌ترین چالش‌ها حفظ کیفیت فوق‌العاده بالا در مقیاس، اطمینان از دقت فرهنگی و زبانی و ایجاد دستورالعمل‌های اخلاقی برای صداهای تولید شده توسط هوش مصنوعی است. با این حال، فراتر از موانع فنی، پذیرش عمومی دوبله هوش مصنوعی به اعتماد بستگی دارد. بینندگان باید احساس کنند که صداهای تولید شده توسط هوش مصنوعی اصالت و عمق عاطفی اجراها را حفظ می‌کنند تا اینکه مصنوعی یا جدا به نظر برسند.

برای اینکه دوبله هوش مصنوعی به طور کامل پذیرفته شود، باید با ترکیب هنر و فناوری انسانی در مقیاس بالا از کیفیت بالایی برخوردار باشد و همچنین احترام به یکپارچگی خلاقانه، ظرافت زبانی و زمینه فرهنگی را نشان دهد. این بدان معناست که اطمینان حاصل شود که صداها به هدف بازیگران اصلی وفادار می‌مانند، از نادرستی‌هایی که می‌توانند مخاطبان را بیگانه کنند، جلوگیری شود و به نگرانی‌های اخلاقی در مورد خطرات جعل عمیق و مالکیت صدا رسیدگی شود.

با گسترش دوبله هوش مصنوعی، ارائه‌دهندگان فناوری باید استانداردهای دقیقی را برای اصالت صدا، امنیت و حفاظت از مالکیت معنوی اجرا کنند. Deepdub به طور فعال در این زمینه‌ها پیشتاز است و اطمینان می‌دهد که فناوری صدای هوش مصنوعی داستان‌گویی جهانی را تقویت می‌کند و در عین حال به مشارکت‌های هنری و حرفه‌ای استعدادهای انسانی احترام می‌گذارد. تنها در این صورت است که مخاطبان، سازندگان محتوا و سهامداران صنعت دوبله هوش مصنوعی را به عنوان یک ابزار قابل اعتماد و ارزشمند به طور کامل می‌پذیرند.

با تشکر از مصاحبه عالی، خوانندگانی که مایل به کسب اطلاعات بیشتر هستند باید از Deepdub بازدید کنند.

https://www.unite.ai/ofir-krakowski-ceo-and-co-founder-of-deepdub-interview-series/