مدلهای بازشناسی گفتار در سالهای اخیر به طور فزایندهای دقیقتر شدهاند، اما ممکن است تحت شرایط ایدهآل - اتاقهای ساکت، صدای واضح و واژگان عمومی - ساخته و محک زده شوند. با این حال، برای سازمانها، صدای دنیای واقعی بسیار آشفتهتر است.
این چالشی است که aiOla قصد دارد با راهاندازی Jargonic به آن رسیدگی کند؛ سامانه بازشناسی خودکار گفتار (ASR) جدید این شرکت که به طور خاص برای استفاده سازمانی ساخته شده و این استارتاپ اسرائیلی امروز از آن رونمایی میکند.
Jargonic یک مدل جدید تبدیل گفتار به متن است که برای مدیریت اصطلاحات تخصصی، نویز پسزمینه و لهجههای متنوع بدون نیاز به بازآموزی یا تنظیم دقیق گسترده طراحی شده است.
گیل هتز، معاون هوش مصنوعی در aiOla گفت: «مدل ما بر سه چالش کلیدی در بازشناسی گفتار تمرکز دارد: اصطلاحات تخصصی، نویز پسزمینه و لهجهها. ما مدلی ساختیم که اصطلاحات تخصصی صنعت خاص را به صورت zero-shot (بدون نیاز به نمونه اولیه) درک میکند، با محیطهای پر سر و صدا کنار میآید و از طیف گستردهای از لهجهها پشتیبانی میکند.»
Jargonic که اکنون از طریق API در پلتفرم سازمانی aiOla در دسترس است، به عنوان یک راهکار ASR آماده برای تولید برای کسبوکارها در صنایعی مانند تولید، لجستیک، خدمات مالی و مراقبتهای بهداشتی معرفی میشود.
از محصولمحوری به هوشمصنوعیمحوری
راهاندازی Jargonic نشاندهنده تغییر تمرکز برای خود aiOla است. به گفته رهبران شرکت، تیم رویکرد خود را برای اولویتبندی تحقیقات و پیادهسازی هوش مصنوعی بازتعریف کرده است.
آساف اسباگ، مدیر ارشد فناوری و محصول aiOla گفت: «وقتی به اینجا آمدم، یک شرکت محصول شگفتانگیز دیدم که سرمایهگذاری زیادی روی قابلیتهای پیشرفته هوش مصنوعی کرده بود، اما بیشتر به خاطر کمک به افراد در پر کردن فرمها شناخته میشد. ما دیدگاه را تغییر دادیم و به یک شرکت هوش مصنوعی با محصولی عالی تبدیل شدیم، به جای یک شرکت محصول با قابلیتهای هوش مصنوعی.»
اسباگ افزود: «ما تصمیم گرفتیم قابلیتهای خود را به روی جهان باز کنیم. به جای ارائه مدل خود فقط به سازمانها در داخل محصولمان، یک API توسعه دادیم و اکنون آن را راهاندازی میکنیم تا مدل ضدگلوله و درجه سازمانی خود را در دسترس همگان قرار دهیم.»
تشخیص اصطلاحات تخصصی، تطبیق بدون نمونه اولیه (Zero-shot)
یکی از ویژگیهای متمایز Jargonic رویکرد آن به واژگان تخصصی است. سیستمهای بازشناسی گفتار معمولاً هنگام مواجهه با اصطلاحات تخصصی حوزهای که در دادههای آموزشی استاندارد وجود ندارد، دچار مشکل میشوند. Jargonic با یک سیستم اختصاصی تشخیص کلمات کلیدی که امکان تطبیق zero-shot را فراهم میکند، به این چالش رسیدگی میکند - سازمانها میتوانند به سادگی لیستی از اصطلاحات را بدون نیاز به بازآموزی اضافی ارائه دهند.
در آزمونهای محکزنی، Jargonic متوسط نرخ خطای کلمه (WER) 5.91% را در چهار مجموعه داده آکادمیک پیشرو انگلیسی نشان داد و از رقبایی مانند Eleven Labs، Assembly AI، Whisper از OpenAI و Deepgram Nova-3 عملکرد بهتری داشت.
با این حال، این شرکت هنوز مقایسههای عملکردی را به طور خاص در برابر مدلهای رونویسی چندوجهی جدیدتر مانند GPT-4o-transcribe از OpenAI منتشر نکرده است؛ مدلی که تنها ۹ روز پیش با عملکرد برتر در معیارهایی مانند WER (تنها ۲.۴۶٪ در انگلیسی) معرفی شد. aiOla ادعا میکند که مدلش همچنان در تشخیص اصطلاحات تخصصی تجاری خاص بهتر عمل میکند.
در واقع، Jargonic همچنین به نرخ بازیابی (recall rate) 89.3% در اصطلاحات تخصصی مالی دست یافت و به طور مداوم در تشخیص اصطلاحات تخصصی چند زبانه از دیگران بهتر عمل کرد و به دقت بیش از ۹۵٪ در پنج زبان رسید.
اسباگ توضیح داد: «هنگامی که با اصطلاحات تخصصی سنگین روبرو میشوید، دقت بازشناسی معمولاً ۲۰٪ کاهش مییابد. اما با رویکرد zero-shot ما، که در آن فقط کلمات کلیدی مهم را لیست میکنید، دقت دوباره به ۹۵٪ افزایش مییابد. این ویژگی منحصر به فرد ما است.»
این قابلیت برای حذف فرآیند بازآموزی زمانبر و پرهزینهای طراحی شده است که معمولاً برای تطبیق سیستمهای ASR برای صنایع خاص مورد نیاز است.
بهینهسازی شده برای محیط سازمانی
توسعه Jargonic بر اساس سالها تجربه در ساخت راهکارها برای مشتریان سازمانی شکل گرفته است. این مدل بر روی بیش از یک میلیون ساعت گفتار رونویسی شده، شامل دادههای قابل توجهی از محیطهای صنعتی و تجاری، آموزش داده شده است تا از استحکام آن در محیطهای پر سر و صدا و واقعی اطمینان حاصل شود.
هتز گفت: «آنچه ما را متمایز میکند این است که سالها صرف حل مشکلات واقعی سازمانی کردهایم. ما برای سرعت، دقت و توانایی مدیریت محیطهای پیچیده بهینهسازی کردهایم - نه فقط پادکستها یا ویدئوها، بلکه محیطهای کاری پر سر و صدا، آشفته و واقعی.»
معماری این مدل، تشخیص کلمات کلیدی را مستقیماً در فرآیند رونویسی ادغام میکند و به Jargonic اجازه میدهد دقت خود را حتی در شرایط صوتی غیرقابل پیشبینی حفظ کند.
آینده مبتنی بر صدا (Voice-first)
از دیدگاه رهبران aiOla، Jargonic گامی به سوی تغییری گستردهتر در نحوه تعامل مردم با فناوری است. این شرکت بازشناسی گفتار را نه تنها به عنوان یک ابزار تجاری، بلکه به عنوان یک رابط ضروری برای آینده تعامل انسان و کامپیوتر میبیند.
هتز گفت: «چشمانداز ما این است که به زودی هر رابط ماشینی مبتنی بر صدا خواهد بود. شما قادر خواهید بود با یخچال، جاروبرقی یا هر ماشین دیگری صحبت کنید - و آن عمل کرده و هر کاری که میخواهید انجام خواهد داد. این آیندهای است که ما در حال ساختن آن هستیم.»
اسباگ با تأیید این دیدگاه افزود: «هوش مصنوعی مکالمهای قرار است به مرورگر وب جدید تبدیل شود. ماشینها شروع به درک ما کردهاند و اکنون ما دلیلی برای تعامل طبیعی با آنها داریم.»
در حال حاضر، تمرکز aiOla بر روی سازمانها باقی میماند. Jargonic بلافاصله از طریق API برای مشتریان سازمانی در دسترس است و به آنها اجازه میدهد تا قابلیتهای بازشناسی گفتار این مدل را در گردش کارها، برنامهها یا خدمات مشتریمدار خود ادغام کنند.