مدل جهانی تبدیل گفتار به متن در زبان‌های انگلیسی، آلمانی و اسپانیایی پیشتاز است

بهبودهای جدید در مدل جهانی ما عملکرد تبدیل گفتار به متن را در سه زبان کلیدی افزایش می‌دهد.

میانگین نرخ خطای کلمه (WER) در زبان‌های مختلف برای چندین ارائه‌دهنده.
میانگین نرخ خطای کلمه (WER) در زبان‌های مختلف برای چندین ارائه‌دهنده. WER یک معیار متعارف در تبدیل گفتار به متن است که دقت معمولی را اندازه‌گیری می‌کند (هرچه کمتر باشد بهتر است). توضیحات مجموعه‌های ارزیابی ما را می‌توانید در پست وبلاگ نسخه اکتبر ما بیابید.
نرخ خطای مقایسه‌ای در مدل‌های تشخیص گفتار، با مقادیر کمتر که نشان دهنده عملکرد بهتر است.
نرخ خطای مقایسه‌ای در مدل‌های تشخیص گفتار، با مقادیر کمتر که نشان دهنده عملکرد بهتر است. توضیحات مجموعه‌های ارزیابی ما را می‌توانید در پست وبلاگ نسخه اکتبر ما بیابید.

درحالی که صنعت همچنان بر معیارهای دقت گسترده تمرکز دارد، ارزش واقعی کسب‌وکار در ثبت جزئیات مهمی است که برنامه‌های کاربردی هوش مکالمه را تقویت می‌کنند: اسم‌های خاص که معنای خود را حفظ می‌کنند، حروف الفبای عددی که به درستی تأیید می‌شوند و قالب‌بندی که معنای مورد نظر را در زبان‌های مختلف منتقل می‌کند.

امروز، ما پیشرفت‌های بیشتری را در بهترین خانواده مدل جهانی تبدیل گفتار به متن خود برای سه زبان مهم صنعتی ارائه می‌دهیم: انگلیسی، آلمانی و اسپانیایی. این یک بهبود نسبت به نسخه جهانی اکتبر 2024 ما از نظر تأخیر، دقت و پوشش زبان است.

نمودار زیر نرخ خطای استاندارد Universal را در مقایسه با مدل‌های پیشرو در بازار برای انگلیسی، آلمانی و اسپانیایی نشان می‌دهد و دقت پیشرو Universal را در هر سه زبان نشان می‌دهد:

علاوه بر این، این بهبودها در دقت با افزایش قابل توجهی در سرعت پردازش همراه است. آخرین نسخه جهانی ما به 27.4% سرعت بیشتر در زمان استنتاج برای اکثریت قریب به اتفاق فایل‌ها (در صدک 95) دست می‌یابد و رونویسی سریع‌تر در مقیاس بزرگ را امکان‌پذیر می‌کند.

Universal فراتر از معیارهای استاندارد می‌رود تا چالش‌های "مرحله آخر" در تشخیص گفتار را حل کند - جزئیات مهمی که رونویسی‌ها را واقعاً برای برنامه‌های کاربردی تجاری مفید می‌کند. علاوه بر دقت استاندارد، پوشش زبان و بهبود سرعت پردازش برای همه زبان‌های تحت پوشش که در بالا ذکر شد، ارتقاءهای جهانی امروز بهبودهای بیشتری را در این چالش‌های مرحله آخر، به ویژه برای صدای انگلیسی به ارمغان می‌آورد.

بهبودهای "مرحله آخر" انگلیسی

در حالی که ارزیابی‌های سنتی تبدیل گفتار به متن در درجه اول بر نرخ خطای کلمه تمرکز دارند، برنامه‌های کاربردی دنیای واقعی تقاضای بیشتری دارند: نام شرکت‌های دقیق که از گردش کار تشدید عامل پشتیبانی می‌کنند، ایمیل‌های قالب‌بندی شده مناسب که پیگیری‌های خودکار را امکان‌پذیر می‌کنند و مدیریت سازگار با اشاره به محصول که تجزیه و تحلیل فروش را تقویت می‌کند.

با تکیه بر عملکرد انگلیسی در کلاس جهانی Universal، ارتقاءهای امروز بهبودهای قابل توجهی را در این چالش‌های مرحله آخر به ارمغان می‌آورد. مدل بهبودیافته ما موجودیت‌های مهمی مانند نام‌ها و آدرس‌های ایمیل را دقیق‌تر از راه‌حل‌های موجود در بازار ثبت و قالب‌بندی می‌کند، که توسط آزمایش‌های عملکرد جامع پشتیبانی می‌شود. در اینجا برخی از نکات برجسته آورده شده است:

  • اسم‌های خاص: 12.5% بهبود نسبی در دقت اسم خاص (PNER) از 15.06% به 13.17%، که از ثبت صحیح نام‌ها، برندها و شرکت‌ها اطمینان حاصل می‌کند.
  • گفتار با لهجه: 5% بهبود نسبی در عملکرد در گفتار انگلیسی با لهجه (WER) از 11.4% به 10.8%، که عملکرد بهتری را در سبک‌های گفتاری متنوع ارائه می‌دهد.

نمودار زیر Universal را با چندین مدل دیگر تبدیل گفتار به متن در معیارهای مختلف مقایسه می‌کند که مجموعاً یک معیار جامع از عملکرد مدل را تشکیل می‌دهند. در مقابل تمرکز صرف بر دقت ASR استاندارد تحلیل‌های تک متغیره معمولی، مجموعه اندازه‌گیری‌های نمایش داده شده در زیر ارزیابی می‌کند که یک مدل چقدر خوب از عهده موجودیت‌های زبانی کلیدی برمی‌آید که در موارد استفاده در دنیای واقعی بسیار مهم هستند. هر مقدار نشان دهنده نرخ خطا است، بنابراین هر چه کمتر باشد بهتر است

نمودار برای هر مدل نشان می‌دهد:

  • ASR استاندارد: اندازه‌گیری نرخ خطای کلمه کلاسیک (WER)، که دقت کلی را بررسی می‌کند (ASR = تشخیص خودکار گفتار).
  • دقت اسم خاص: نرخ خطای اسم خاص (PNER)، که معیاری است که توسط تیم تحقیقاتی ما ابداع شده است تا عملکرد مدل را به طور خاص بر روی اسم‌های خاص بررسی کند.
  • دقت الفبای عددی: نرخ خطای الفبای عددی، اندازه‌گیری شده توسط WER، که عملکرد مدل را در رشته‌های الفبای عددی مانند شماره تلفن و آدرس ایمیل بررسی می‌کند.
  • دقت گفتار با لهجه: نرخ خطای گفتار با لهجه، اندازه‌گیری شده توسط WER، که عملکرد مدل را در گفتار انگلیسی با لهجه بررسی می‌کند.

عملکرد قوی Universal در سراسر مجموعه معیارها، استحکام را در موارد استفاده عملی نشان می‌دهد.

به عنوان مثال، مراکز تماس برای ثبت دقیق اطلاعات تماس گیرنده مانند شماره تلفن و آدرس ایمیل، چه برای سرنخ‌های فروش ورودی و چه برای تماس‌های خدمات مشتری، متکی هستند. عملکرد قوی Universal در الفبای عددی نشان می‌دهد که این ویژگی‌های مهم به طور کامل در رونویسی‌های تماس ثبت می‌شوند.

حوزه‌های دیگر مانند مربیگری فروش از عملکرد قوی Universal در اسم‌های خاص بهره می‌برند و اطمینان حاصل می‌کنند که موجودیت‌هایی مانند نام‌ها، شرکت‌ها، محصولات و مکان‌ها به طور دقیق ثبت می‌شوند. این دقت نه تنها برای بینش‌های تاکتیکی مانند تجزیه و تحلیل تعاملات مشتری، ردیابی اشاره‌های رقابتی و اندازه‌گیری آگاهی از برند، بلکه برای مبانی اساسی ایجاد روابط واقعی از طریق توجه به جزئیات بسیار مهم است.

و دقت قالب‌بندی متن قوی Universal، رونویسی‌های بسیار خوانایی را به همراه دارد که برای هر برنامه‌ای مهم است - یک مثال را در زیر بررسی کنید (منبع صوتی).

به نسخه دیگری از تلویزیون مسافر خوش آمدید. امروز ما در پل آرتور راونل جونیور هستیم که در اینجا واقع شده است. این پل در سال 2005 افتتاح شد و در حال حاضر طولانی‌ترین پل کابلی در نیمکره غربی است. این طراحی دارای دو برج الماسی شکل است که رودخانه کوپر را در بر می‌گیرد و مرکز شهر چارلستون را به Mount Pleasant متصل می‌کند. مسیرهای دوچرخه‌سواری و پیاده‌روی مناظر بی‌نظیری از بندر را ارائه می‌دهند و مکانی عالی برای تماشای طلوع یا غروب خورشید است. برای پیاده‌روی یا دوچرخه‌سواری روی پل، می‌توانید در سمت مرکز شهر در اینجا یا در سمت Mount Pleasant در Memorial Waterfront Park پارک کنید. برای کسب اطلاعات بیشتر در مورد پل آرتور راونل جونیور و سایر فعالیت‌های سرگرم‌کننده در چارلستون، SC. از وب‌سایت ما به آدرس travelerofcharleston.com دیدن کنید یا برنامه تلفن همراه رایگان ما را برای گشت و گذار در چارلستون، SC دانلود کنید.
                

نحوه استفاده از Universal برای تبدیل گفتار به متن

می‌توانید Universal را بلافاصله در Playground ما امتحان کنید - فقط یک فایل صوتی انگلیسی، آلمانی یا اسپانیایی ارسال کنید و ویژگی‌های خود را انتخاب کنید تا نتایج Universal را روی داده‌های خود مشاهده کنید.

همچنین می‌توانید از Universal از طریق API ما استفاده کنید. برای دریافت کلید API رایگان خود ثبت نام کنید و سپس API ما را به زبان و محیط دلخواه خود فراخوانی کنید. به عنوان مثال، در اینجا نحوه استفاده از Universal در پایتون با SDK پایتون ما آمده است. Universal مدل پیش‌فرض است، اما می‌توان آن را به طور صریح با تعیین لایه مدل best تنظیم کرد. علاوه بر این، می‌توانید مستقیماً یک language_code تنظیم کنید یا از تشخیص خودکار زبان ما استفاده کنید:

# pip install assemblyai
import assemblyai as aai

aai.settings.api_key = "YOUR_API_KEY"
audio_file = "https://assembly.ai/sports_injuries.mp3"

config = aai.TranscriptionConfig(
    language_code="en",  # "de", "es"
    speech_model=aai.SpeechModel.best
)

transcriber = aai.Transcriber()
transcript = transcriber.transcribe(audio_file, config)

print(transcript.text)

می‌توانید از هر فایل راه دور در دسترس عموم یا یک فایل محلی استفاده کنید. علاوه بر استفاده از SDKهای ما، می‌توانید مستقیماً API ما را فراخوانی کنید:

curl -X POST https://api.assemblyai.com/v2/transcript \
     -H "Authorization: your-api-key" \
     -H "Content-Type: application/json" \
     -d '{"audio_url": "https://assembly.ai/sports_injuries.mp3"}'

علاوه بر این، می‌توانید هر یک از ویژگی‌های دیگر ما را مانند برچسب‌های بلندگو به طور معمول مشخص کنید. برای کسب اطلاعات بیشتر در مورد استفاده از Universal و سایر ویژگی‌های موجود ما، اسناد ما را بررسی کنید یا برای تجزیه و تحلیل دقیق‌تر معیارها، صفحه معیارهای ما را بررسی کنید.