OpenAI نسل جدیدی از مدلهای صوتی را منتشر کرده است که به توسعهدهندگان اجازه میدهد نحوه صحبت کردن دستیارهای هوش مصنوعی خود را سفارشی کنند. این بهروزرسانی شامل بهبود تشخیص گفتار و توانایی کنترل سبک صحبت کردن هوش مصنوعی از طریق دستورات متنی ساده است.
به گفته OpenAI، مدلهای جدید gpt-4o-transcribe و gpt-4o-mini-transcribe در مقایسه با سیستمهای Whisper قبلی، نرخ خطای کمتری را در هنگام تبدیل گفتار به متن نشان میدهند. این شرکت میگوید این مدلها در شرایط چالشبرانگیز، مانند لهجههای سنگین، محیطهای پر سر و صدا و سرعتهای مختلف گفتار، عملکرد بهتری دارند.
مهمترین ویژگی، مدل جدید gpt-4o-mini-tts text-to-speech است. این سیستم به دستورالعملهای سبک مانند "مانند یک دزد دریایی صحبت کن" یا "این را به عنوان یک داستان قبل از خواب بگو" پاسخ میدهد و به توسعهدهندگان اجازه میدهد نحوه ارتباط صداهای هوش مصنوعی خود را تنظیم کنند. این قابلیتها بر اساس معماریهای GPT-4o و GPT-4o-mini OpenAI ساخته شدهاند که انواع مختلف ورودی و خروجی رسانهای را مدیریت میکنند.
به گفته OpenAI، عملکرد بهبود یافته به دلیل پیشآموزش تخصصی مجموعهدادههای صوتی برای درک دقیقتر گفتار، تکنیکهای تقطیر مدل کارآمدتر و استفاده گسترده از یادگیری تقویتی در تشخیص گفتار است. این شرکت روشهای "خودبازی" را برای شبیهسازی الگوهای مکالمه طبیعی پیادهسازی کرد.
دسترسی و محدودیتهای توسعهدهندگان
توسعهدهندگان اکنون میتوانند از طریق API OpenAI به این مدلها دسترسی داشته باشند و با استفاده از Agents SDK آنها را ادغام کنند. برای برنامههای کاربردی بیدرنگ، OpenAI پیشنهاد میکند از Realtime API خود با قابلیتهای گفتار به گفتار استفاده کنید.
در حال حاضر، این سیستم فقط با صداهای مصنوعی از پیش تعیین شده OpenAI کار میکند - توسعهدهندگان نمیتوانند صداهای جدید ایجاد کنند یا صداهای موجود را شبیهسازی کنند. این شرکت میگوید قصد دارد در آینده به صداهای سفارشی اجازه دهد در حالی که استانداردهای ایمنی را حفظ میکند و قصد دارد برای تجربههای چندوجهی به ویدیو گسترش یابد.
این بهروزرسانی پس از معرفی Voice Engine در مارس ۲۰۲۴ توسط OpenAI انجام میشود که به محصولات خود و مشتریان منتخب محدود شده بود. به نظر میرسد که آن مدل قبلی با قابلیتهای چندوجهی گستردهتر GPT-4o جایگزین شده است.
خلاصه:
- OpenAI مدلهای صوتی بهبود یافته، gpt-4o-transcribe و gpt-4o-mini-transcribe را منتشر کرده است که تبدیل گفتار به متن قابل اعتمادتری را ارائه میدهند و مدیریت بهتری از شرایط صوتی چالشبرانگیز مانند نویز پسزمینه و لهجهها ارائه میدهند.
- مدل جدید gpt-4o-mini-tts text-to-speech توسعهدهندگان را قادر میسازد تا سبک صحبت مورد نظر را با استفاده از متن مشخص کنند، مانند تقلید صدای دزد دریایی.
- این مدلها که بر اساس فناوری GPT-4o ساخته شدهاند، اکنون برای توسعهدهندگان در دسترس هستند و OpenAI قصد دارد پیشرفتهای بیشتری از جمله پشتیبانی از صداهای سفارشی و گنجاندن قابلیتهای ویدئویی را انجام دهد.
منبع: OpenAI
نویسنده: Matthias Bastian