منبع: VentureBeat ساخته شده با Midjourney
منبع: VentureBeat ساخته شده با Midjourney

یک مدل جدید هوش مصنوعی بازشناسی گفتار ویژه سازمان‌ها از راه رسید: Jargonic از aiOla ادعا می‌کند در درک زبان تخصصی کسب‌وکار شما از رقبا بهتر است

مدل‌های بازشناسی گفتار در سال‌های اخیر به طور فزاینده‌ای دقیق‌تر شده‌اند، اما ممکن است تحت شرایط ایده‌آل - اتاق‌های ساکت، صدای واضح و واژگان عمومی - ساخته و محک زده شوند. با این حال، برای سازمان‌ها، صدای دنیای واقعی بسیار آشفته‌تر است.

این چالشی است که aiOla قصد دارد با راه‌اندازی Jargonic به آن رسیدگی کند؛ سامانه بازشناسی خودکار گفتار (ASR) جدید این شرکت که به طور خاص برای استفاده سازمانی ساخته شده و این استارتاپ اسرائیلی امروز از آن رونمایی می‌کند.

Jargonic یک مدل جدید تبدیل گفتار به متن است که برای مدیریت اصطلاحات تخصصی، نویز پس‌زمینه و لهجه‌های متنوع بدون نیاز به بازآموزی یا تنظیم دقیق گسترده طراحی شده است.

گیل هتز، معاون هوش مصنوعی در aiOla گفت: «مدل ما بر سه چالش کلیدی در بازشناسی گفتار تمرکز دارد: اصطلاحات تخصصی، نویز پس‌زمینه و لهجه‌ها. ما مدلی ساختیم که اصطلاحات تخصصی صنعت خاص را به صورت zero-shot (بدون نیاز به نمونه اولیه) درک می‌کند، با محیط‌های پر سر و صدا کنار می‌آید و از طیف گسترده‌ای از لهجه‌ها پشتیبانی می‌کند.»

Jargonic که اکنون از طریق API در پلتفرم سازمانی aiOla در دسترس است، به عنوان یک راهکار ASR آماده برای تولید برای کسب‌وکارها در صنایعی مانند تولید، لجستیک، خدمات مالی و مراقبت‌های بهداشتی معرفی می‌شود.

از محصول‌محوری به هوش‌مصنوعی‌محوری

راه‌اندازی Jargonic نشان‌دهنده تغییر تمرکز برای خود aiOla است. به گفته رهبران شرکت، تیم رویکرد خود را برای اولویت‌بندی تحقیقات و پیاده‌سازی هوش مصنوعی بازتعریف کرده است.

آساف اسباگ، مدیر ارشد فناوری و محصول aiOla گفت: «وقتی به اینجا آمدم، یک شرکت محصول شگفت‌انگیز دیدم که سرمایه‌گذاری زیادی روی قابلیت‌های پیشرفته هوش مصنوعی کرده بود، اما بیشتر به خاطر کمک به افراد در پر کردن فرم‌ها شناخته می‌شد. ما دیدگاه را تغییر دادیم و به یک شرکت هوش مصنوعی با محصولی عالی تبدیل شدیم، به جای یک شرکت محصول با قابلیت‌های هوش مصنوعی.»

اسباگ افزود: «ما تصمیم گرفتیم قابلیت‌های خود را به روی جهان باز کنیم. به جای ارائه مدل خود فقط به سازمان‌ها در داخل محصولمان، یک API توسعه دادیم و اکنون آن را راه‌اندازی می‌کنیم تا مدل ضدگلوله و درجه سازمانی خود را در دسترس همگان قرار دهیم.»

تشخیص اصطلاحات تخصصی، تطبیق بدون نمونه اولیه (Zero-shot)

یکی از ویژگی‌های متمایز Jargonic رویکرد آن به واژگان تخصصی است. سیستم‌های بازشناسی گفتار معمولاً هنگام مواجهه با اصطلاحات تخصصی حوزه‌ای که در داده‌های آموزشی استاندارد وجود ندارد، دچار مشکل می‌شوند. Jargonic با یک سیستم اختصاصی تشخیص کلمات کلیدی که امکان تطبیق zero-shot را فراهم می‌کند، به این چالش رسیدگی می‌کند - سازمان‌ها می‌توانند به سادگی لیستی از اصطلاحات را بدون نیاز به بازآموزی اضافی ارائه دهند.

در آزمون‌های محک‌زنی، Jargonic متوسط نرخ خطای کلمه (WER) 5.91% را در چهار مجموعه داده آکادمیک پیشرو انگلیسی نشان داد و از رقبایی مانند Eleven Labs، Assembly AI، Whisper از OpenAI و Deepgram Nova-3 عملکرد بهتری داشت.

با این حال، این شرکت هنوز مقایسه‌های عملکردی را به طور خاص در برابر مدل‌های رونویسی چندوجهی جدیدتر مانند GPT-4o-transcribe از OpenAI منتشر نکرده است؛ مدلی که تنها ۹ روز پیش با عملکرد برتر در معیارهایی مانند WER (تنها ۲.۴۶٪ در انگلیسی) معرفی شد. aiOla ادعا می‌کند که مدلش همچنان در تشخیص اصطلاحات تخصصی تجاری خاص بهتر عمل می‌کند.

در واقع، Jargonic همچنین به نرخ بازیابی (recall rate) 89.3% در اصطلاحات تخصصی مالی دست یافت و به طور مداوم در تشخیص اصطلاحات تخصصی چند زبانه از دیگران بهتر عمل کرد و به دقت بیش از ۹۵٪ در پنج زبان رسید.

اسباگ توضیح داد: «هنگامی که با اصطلاحات تخصصی سنگین روبرو می‌شوید، دقت بازشناسی معمولاً ۲۰٪ کاهش می‌یابد. اما با رویکرد zero-shot ما، که در آن فقط کلمات کلیدی مهم را لیست می‌کنید، دقت دوباره به ۹۵٪ افزایش می‌یابد. این ویژگی منحصر به فرد ما است.»

این قابلیت برای حذف فرآیند بازآموزی زمان‌بر و پرهزینه‌ای طراحی شده است که معمولاً برای تطبیق سیستم‌های ASR برای صنایع خاص مورد نیاز است.

بهینه‌سازی شده برای محیط سازمانی

توسعه Jargonic بر اساس سال‌ها تجربه در ساخت راهکارها برای مشتریان سازمانی شکل گرفته است. این مدل بر روی بیش از یک میلیون ساعت گفتار رونویسی شده، شامل داده‌های قابل توجهی از محیط‌های صنعتی و تجاری، آموزش داده شده است تا از استحکام آن در محیط‌های پر سر و صدا و واقعی اطمینان حاصل شود.

هتز گفت: «آنچه ما را متمایز می‌کند این است که سال‌ها صرف حل مشکلات واقعی سازمانی کرده‌ایم. ما برای سرعت، دقت و توانایی مدیریت محیط‌های پیچیده بهینه‌سازی کرده‌ایم - نه فقط پادکست‌ها یا ویدئوها، بلکه محیط‌های کاری پر سر و صدا، آشفته و واقعی.»

معماری این مدل، تشخیص کلمات کلیدی را مستقیماً در فرآیند رونویسی ادغام می‌کند و به Jargonic اجازه می‌دهد دقت خود را حتی در شرایط صوتی غیرقابل پیش‌بینی حفظ کند.

آینده مبتنی بر صدا (Voice-first)

از دیدگاه رهبران aiOla، Jargonic گامی به سوی تغییری گسترده‌تر در نحوه تعامل مردم با فناوری است. این شرکت بازشناسی گفتار را نه تنها به عنوان یک ابزار تجاری، بلکه به عنوان یک رابط ضروری برای آینده تعامل انسان و کامپیوتر می‌بیند.

هتز گفت: «چشم‌انداز ما این است که به زودی هر رابط ماشینی مبتنی بر صدا خواهد بود. شما قادر خواهید بود با یخچال، جاروبرقی یا هر ماشین دیگری صحبت کنید - و آن عمل کرده و هر کاری که می‌خواهید انجام خواهد داد. این آینده‌ای است که ما در حال ساختن آن هستیم.»

اسباگ با تأیید این دیدگاه افزود: «هوش مصنوعی مکالمه‌ای قرار است به مرورگر وب جدید تبدیل شود. ماشین‌ها شروع به درک ما کرده‌اند و اکنون ما دلیلی برای تعامل طبیعی با آنها داریم.»

در حال حاضر، تمرکز aiOla بر روی سازمان‌ها باقی می‌ماند. Jargonic بلافاصله از طریق API برای مشتریان سازمانی در دسترس است و به آنها اجازه می‌دهد تا قابلیت‌های بازشناسی گفتار این مدل را در گردش کارها، برنامه‌ها یا خدمات مشتری‌مدار خود ادغام کنند.