Groq و PlayAI امروز از همکاری خود برای عرضه Dialog، یک مدل پیشرفته تبدیل متن به گفتار (TTS)، از طریق پلتفرم استنتاج (inference) پرسرعت Groq خبر دادند.
این همکاری، تخصص PlayAI در هوش مصنوعی صوتی را با زیرساخت پردازشی تخصصی Groq ترکیب میکند و به ادعای این شرکتها، یکی از طبیعیترین و پاسخگوترین سیستمهای تبدیل متن به گفتار موجود را ایجاد میکند.
ایان اندروز، مدیر ارشد درآمد در Groq، در مصاحبهای اختصاصی با VentureBeat گفت: «Groq یک سیستم کامل و با تأخیر کم برای تشخیص خودکار گفتار (ASR)، هوش مصنوعی مولد (GenAI) و تبدیل متن به گفتار، همه را در یک جا فراهم میکند.» وی افزود: «با اجرای Dialog اکنون بر روی GroqCloud، این بدان معناست که مشتریان مجبور نخواهند بود از چندین ارائهدهنده برای یک مورد استفاده واحد استفاده کنند — Groq یک راهحل یکپارچه است.»
Groq اولین هوش مصنوعی صوتی عربی را تقویت میکند و حضور فناوری در خاورمیانه را گسترش میدهد
مدل Dialog به دلیل در دسترس بودن به دو زبان انگلیسی و عربی قابل توجه است، و نسخه عربی آن اولین هوش مصنوعی صوتی است که به طور خاص برای منطقه خاورمیانه طراحی شده است. گنجاندن زبان عربی به عنوان یکی از زبانهای اولیه برای هر دو شرکت استراتژیک بود.
اندروز به VentureBeat گفت: «عربی چهارمین زبان پرگویشور در سطح جهان است — با همکاری با PlayAI برای ارائه مدل TTS عربی، Groq در حال گشودن یک بازار کلیدی جهانی و امکان دسترسی گستردهتر به استنتاج سریع هوش مصنوعی است.»
این شرکتها ادعا میکنند که راهحل آنها کاستیهای کلیدی در فناوریهای هوش مصنوعی صوتی موجود، به ویژه در مورد الگوهای گفتار طبیعی و سرعت پاسخ، را برطرف میکند. بر اساس آزمون معیار (benchmark) انجام شده توسط ارزیاب شخص ثالث Podonos، کاربران Dialog را با نسبت ۱۰ به ۱ نسبت به ElevenLabs v2.5 Turbo و بیش از ۳ به ۱ در برابر ElevenLabs Multilingual v2.0 ترجیح دادند.
«زمینهساز گفتار تطبیقی» نوآورانه، هوش مصنوعی مکالمهای را متحول میکند
آنچه Dialog را متمایز میکند، رویکرد پیچیده آن به زمینه (context) است. این سیستم به جای اینکه هر صداسازی را به عنوان یک رویداد مجزا در نظر بگیرد، از کل جریان مکالمه آگاهی دارد.
محمود فلفل، همبنیانگذار و مدیرعامل PlayAI، در مصاحبهای با VentureBeat گفت: «ما یک معماری نوآورانه ساختیم که آن را 'زمینهساز گفتار تطبیقی' (ASC) مینامیم، که به مدل اجازه میدهد از زمینه و تاریخچه کامل یک مکالمه استفاده کند.» وی افزود: «این بدان معناست که هر پاسخ فقط یک خروجی مستقل نیست؛ بلکه با آهنگ کلام (prosody)، لحن (tone) و احساس (emotion) مناسب که جریان مکالمه را منعکس میکند، غنی شده است.»
برای شرکتهایی که به دنبال پیادهسازی هوش مصنوعی مکالمهای هستند، تأخیر (latency) — فاصله زمانی بین درخواست و پاسخ — یک چالش مداوم بوده است. به نظر میرسد واحدهای پردازش زبان (LPU) تخصصی Groq مزیت قابل توجهی در این زمینه ارائه میدهند.
اندروز توضیح داد: «بر اساس آزمایشهای داخلی اولیه، Groq تا ۱۴۰ کاراکتر در ثانیه را بر روی مدل Dialog PlayAI ارائه میدهد، که افزایش قابل توجهی در مقایسه با همین مدل در حال اجرا بر روی GPU با سرعت ۸۶ کاراکتر در ثانیه است.» وی افزود: «این بدان معناست که Dialog متن را تا ۱۰ برابر سریعتر از زمان واقعی تولید میکند.»
Groq سرمایهگذاری ۱.۵ میلیارد دلاری عربستان سعودی را برای ساخت زیرساخت هوش مصنوعی در سطح جهانی تضمین میکند
این همکاری در زمانی صورت میگیرد که Groq در حال گسترش قابل توجهی است و اخیراً تعهد ۱.۵ میلیارد دلاری از عربستان سعودی برای تأمین مالی زیرساختهای اضافی دریافت کرده است. این شرکت یک مرکز داده در دمام تأسیس کرده است که آن را «بزرگترین خوشه استنتاج منطقه» توصیف میکند.
فلفل گفت: «همکاری با Groq یک تصمیم بدیهی بود؛ آنها پیشرو صنعت در زیرساختهای پیشرفته استنتاج هوش مصنوعی هستند.» وی افزود: «در TTS و ایجنتها، تأخیر کم کلیدی است. ما قبلاً Dialog را برای این برنامههای کاربردی بلادرنگ بهینهسازی کردهایم، اما همکاری با Groq به ما امکان میدهد تا کمتأخیرترین مدل صوتی موجود در بازار را ارائه دهیم.»
بازار هوش مصنوعی صوتی با توجه به تلاش کسبوکارها برای خودکارسازی تعاملات با مشتری ضمن حفظ تجربهای طبیعی و شبیه به انسان، رشد سریعی را تجربه کرده است. کاربردها از خدمات مشتری و اتوماسیون فروش گرفته تا صداگذاری و ویژگیهای دسترسیپذیری برای افراد کمبینا متغیر است.
کاربردهای سازمانی فراتر از موارد استفاده سنتی خدمات مشتری گسترش مییابد
اندروز گفت: «فراتر از خدمات مشتری، سایر موارد استفاده سازمانی شامل خودکارسازی فروش و زمانبندی قرار ملاقاتها، دستیاران شخصی و آنبوردینگ، ایجاد صداگذاری برای محتوای موجود، ترجمه محتوای صوتی و تصویری انگلیسی به عربی، افزایش دسترسیپذیری وبسایت و محتوای استاتیک برای افراد کمبینا و موارد دیگر است.»
برای PlayAI، که توسط کارآفرینانی از منطقه خاورمیانه و شمال آفریقا (MENA) تأسیس شده است، گنجاندن قابلیتهای زبان عربی اهمیت ویژهای داشت.
فلفل گفت: «به عنوان بنیانگذاران منطقه MENA، میدانیم که این منطقه به شدت در حال سرمایهگذاری در قابلیتها و زیرساختهای هوش مصنوعی است، همانطور که در سرمایهگذاریهایی مانند Groq و همچنین پذیرش پیشرو در جهان منعکس شده است.» وی افزود: «عربی یک زبان تجاری جهانی و زبانی است که ما با صحبت کردن با آن بزرگ شدهایم، بنابراین انتخاب آن به عنوان یکی از زبانهای اصلی ما طبیعی بود.»
این شرکتها فناوری Dialog را از طریق مدل خدمات لایهای GroqCloud، که شامل گزینههای رایگان و پولی است، در دسترس قرار دادهاند. این رویکرد به توسعهدهندگان اجازه میدهد تا قبل از تعهد به پیادهسازیهای بزرگتر، با این فناوری آزمایش کنند.
اندروز توضیح داد: «GroqCloud هم طرحهای رایگان و هم پولی ارائه میدهد. هر کسی میتواند یک حساب کاربری ایجاد کرده و یک کد API را به صورت رایگان دریافت کند.» وی افزود: «سطح توسعهدهنده پولی ما سلفسرویس است، به این معنی که هر کسی با کارت اعتباری میتواند خودش ثبت نام کند.»
با تبدیل شدن صدا به یک رابط کاربری مهمتر برای سیستمهای هوش مصنوعی، این همکاری هر دو شرکت را در موقعیتی قرار میدهد که از تقاضای رو به رشد برای تجربیات مکالمهای طبیعیتر و پاسخگوتر بهرهمند شوند. با پرداختن به چالشهای فنی تأخیر و الگوهای گفتار طبیعی، Groq و PlayAI ممکن است موانع مهمی را برای پذیرش گستردهتر هوش مصنوعی صوتی در محیطهای سازمانی برداشته باشند.