منبع: VentureBeat ساخته شده با Midjourney
منبع: VentureBeat ساخته شده با Midjourney

Groq و PlayAI صدای هوش مصنوعی را بسیار انسانی‌تر کردند — در اینجا چگونگی آن را می‌خوانید

Groq و PlayAI امروز از همکاری خود برای عرضه Dialog، یک مدل پیشرفته تبدیل متن به گفتار (TTS)، از طریق پلتفرم استنتاج (inference) پرسرعت Groq خبر دادند.

این همکاری، تخصص PlayAI در هوش مصنوعی صوتی را با زیرساخت پردازشی تخصصی Groq ترکیب می‌کند و به ادعای این شرکت‌ها، یکی از طبیعی‌ترین و پاسخگوترین سیستم‌های تبدیل متن به گفتار موجود را ایجاد می‌کند.

ایان اندروز، مدیر ارشد درآمد در Groq، در مصاحبه‌ای اختصاصی با VentureBeat گفت: «Groq یک سیستم کامل و با تأخیر کم برای تشخیص خودکار گفتار (ASR)، هوش مصنوعی مولد (GenAI) و تبدیل متن به گفتار، همه را در یک جا فراهم می‌کند.» وی افزود: «با اجرای Dialog اکنون بر روی GroqCloud، این بدان معناست که مشتریان مجبور نخواهند بود از چندین ارائه‌دهنده برای یک مورد استفاده واحد استفاده کنند — Groq یک راه‌حل یکپارچه است.»

Groq اولین هوش مصنوعی صوتی عربی را تقویت می‌کند و حضور فناوری در خاورمیانه را گسترش می‌دهد

مدل Dialog به دلیل در دسترس بودن به دو زبان انگلیسی و عربی قابل توجه است، و نسخه عربی آن اولین هوش مصنوعی صوتی است که به طور خاص برای منطقه خاورمیانه طراحی شده است. گنجاندن زبان عربی به عنوان یکی از زبان‌های اولیه برای هر دو شرکت استراتژیک بود.

اندروز به VentureBeat گفت: «عربی چهارمین زبان پرگویشور در سطح جهان است — با همکاری با PlayAI برای ارائه مدل TTS عربی، Groq در حال گشودن یک بازار کلیدی جهانی و امکان دسترسی گسترده‌تر به استنتاج سریع هوش مصنوعی است.»

این شرکت‌ها ادعا می‌کنند که راه‌حل آن‌ها کاستی‌های کلیدی در فناوری‌های هوش مصنوعی صوتی موجود، به ویژه در مورد الگوهای گفتار طبیعی و سرعت پاسخ، را برطرف می‌کند. بر اساس آزمون معیار (benchmark) انجام شده توسط ارزیاب شخص ثالث Podonos، کاربران Dialog را با نسبت ۱۰ به ۱ نسبت به ElevenLabs v2.5 Turbo و بیش از ۳ به ۱ در برابر ElevenLabs Multilingual v2.0 ترجیح دادند.

«زمینه‌ساز گفتار تطبیقی» نوآورانه، هوش مصنوعی مکالمه‌ای را متحول می‌کند

آنچه Dialog را متمایز می‌کند، رویکرد پیچیده آن به زمینه (context) است. این سیستم به جای اینکه هر صداسازی را به عنوان یک رویداد مجزا در نظر بگیرد، از کل جریان مکالمه آگاهی دارد.

محمود فلفل، هم‌بنیان‌گذار و مدیرعامل PlayAI، در مصاحبه‌ای با VentureBeat گفت: «ما یک معماری نوآورانه ساختیم که آن را 'زمینه‌ساز گفتار تطبیقی' (ASC) می‌نامیم، که به مدل اجازه می‌دهد از زمینه و تاریخچه کامل یک مکالمه استفاده کند.» وی افزود: «این بدان معناست که هر پاسخ فقط یک خروجی مستقل نیست؛ بلکه با آهنگ کلام (prosody)، لحن (tone) و احساس (emotion) مناسب که جریان مکالمه را منعکس می‌کند، غنی شده است.»

برای شرکت‌هایی که به دنبال پیاده‌سازی هوش مصنوعی مکالمه‌ای هستند، تأخیر (latency) — فاصله زمانی بین درخواست و پاسخ — یک چالش مداوم بوده است. به نظر می‌رسد واحدهای پردازش زبان (LPU) تخصصی Groq مزیت قابل توجهی در این زمینه ارائه می‌دهند.

اندروز توضیح داد: «بر اساس آزمایش‌های داخلی اولیه، Groq تا ۱۴۰ کاراکتر در ثانیه را بر روی مدل Dialog PlayAI ارائه می‌دهد، که افزایش قابل توجهی در مقایسه با همین مدل در حال اجرا بر روی GPU با سرعت ۸۶ کاراکتر در ثانیه است.» وی افزود: «این بدان معناست که Dialog متن را تا ۱۰ برابر سریع‌تر از زمان واقعی تولید می‌کند.»

Groq سرمایه‌گذاری ۱.۵ میلیارد دلاری عربستان سعودی را برای ساخت زیرساخت هوش مصنوعی در سطح جهانی تضمین می‌کند

این همکاری در زمانی صورت می‌گیرد که Groq در حال گسترش قابل توجهی است و اخیراً تعهد ۱.۵ میلیارد دلاری از عربستان سعودی برای تأمین مالی زیرساخت‌های اضافی دریافت کرده است. این شرکت یک مرکز داده در دمام تأسیس کرده است که آن را «بزرگترین خوشه استنتاج منطقه» توصیف می‌کند.

فلفل گفت: «همکاری با Groq یک تصمیم بدیهی بود؛ آن‌ها پیشرو صنعت در زیرساخت‌های پیشرفته استنتاج هوش مصنوعی هستند.» وی افزود: «در TTS و ایجنت‌ها، تأخیر کم کلیدی است. ما قبلاً Dialog را برای این برنامه‌های کاربردی بلادرنگ بهینه‌سازی کرده‌ایم، اما همکاری با Groq به ما امکان می‌دهد تا کم‌تأخیرترین مدل صوتی موجود در بازار را ارائه دهیم.»

بازار هوش مصنوعی صوتی با توجه به تلاش کسب‌وکارها برای خودکارسازی تعاملات با مشتری ضمن حفظ تجربه‌ای طبیعی و شبیه به انسان، رشد سریعی را تجربه کرده است. کاربردها از خدمات مشتری و اتوماسیون فروش گرفته تا صداگذاری و ویژگی‌های دسترسی‌پذیری برای افراد کم‌بینا متغیر است.

کاربردهای سازمانی فراتر از موارد استفاده سنتی خدمات مشتری گسترش می‌یابد

اندروز گفت: «فراتر از خدمات مشتری، سایر موارد استفاده سازمانی شامل خودکارسازی فروش و زمان‌بندی قرار ملاقات‌ها، دستیاران شخصی و آن‌بوردینگ، ایجاد صداگذاری برای محتوای موجود، ترجمه محتوای صوتی و تصویری انگلیسی به عربی، افزایش دسترسی‌پذیری وب‌سایت و محتوای استاتیک برای افراد کم‌بینا و موارد دیگر است.»

برای PlayAI، که توسط کارآفرینانی از منطقه خاورمیانه و شمال آفریقا (MENA) تأسیس شده است، گنجاندن قابلیت‌های زبان عربی اهمیت ویژه‌ای داشت.

فلفل گفت: «به عنوان بنیان‌گذاران منطقه MENA، می‌دانیم که این منطقه به شدت در حال سرمایه‌گذاری در قابلیت‌ها و زیرساخت‌های هوش مصنوعی است، همانطور که در سرمایه‌گذاری‌هایی مانند Groq و همچنین پذیرش پیشرو در جهان منعکس شده است.» وی افزود: «عربی یک زبان تجاری جهانی و زبانی است که ما با صحبت کردن با آن بزرگ شده‌ایم، بنابراین انتخاب آن به عنوان یکی از زبان‌های اصلی ما طبیعی بود.»

این شرکت‌ها فناوری Dialog را از طریق مدل خدمات لایه‌ای GroqCloud، که شامل گزینه‌های رایگان و پولی است، در دسترس قرار داده‌اند. این رویکرد به توسعه‌دهندگان اجازه می‌دهد تا قبل از تعهد به پیاده‌سازی‌های بزرگ‌تر، با این فناوری آزمایش کنند.

اندروز توضیح داد: «GroqCloud هم طرح‌های رایگان و هم پولی ارائه می‌دهد. هر کسی می‌تواند یک حساب کاربری ایجاد کرده و یک کد API را به صورت رایگان دریافت کند.» وی افزود: «سطح توسعه‌دهنده پولی ما سلف‌سرویس است، به این معنی که هر کسی با کارت اعتباری می‌تواند خودش ثبت نام کند.»

با تبدیل شدن صدا به یک رابط کاربری مهم‌تر برای سیستم‌های هوش مصنوعی، این همکاری هر دو شرکت را در موقعیتی قرار می‌دهد که از تقاضای رو به رشد برای تجربیات مکالمه‌ای طبیعی‌تر و پاسخگوتر بهره‌مند شوند. با پرداختن به چالش‌های فنی تأخیر و الگوهای گفتار طبیعی، Groq و PlayAI ممکن است موانع مهمی را برای پذیرش گسترده‌تر هوش مصنوعی صوتی در محیط‌های سازمانی برداشته باشند.