OpenAI
OpenAI

OpenAI مدل‌های صوتی هوش مصنوعی جدید را با سبک‌های گفتاری قابل تنظیم منتشر کرد

OpenAI نسل جدیدی از مدل‌های صوتی را منتشر کرده است که به توسعه‌دهندگان اجازه می‌دهد نحوه صحبت کردن دستیارهای هوش مصنوعی خود را سفارشی کنند. این به‌روزرسانی شامل بهبود تشخیص گفتار و توانایی کنترل سبک صحبت کردن هوش مصنوعی از طریق دستورات متنی ساده است.

به گفته OpenAI، مدل‌های جدید gpt-4o-transcribe و gpt-4o-mini-transcribe در مقایسه با سیستم‌های Whisper قبلی، نرخ خطای کمتری را در هنگام تبدیل گفتار به متن نشان می‌دهند. این شرکت می‌گوید این مدل‌ها در شرایط چالش‌برانگیز، مانند لهجه‌های سنگین، محیط‌های پر سر و صدا و سرعت‌های مختلف گفتار، عملکرد بهتری دارند.

مهم‌ترین ویژگی، مدل جدید gpt-4o-mini-tts text-to-speech است. این سیستم به دستورالعمل‌های سبک مانند "مانند یک دزد دریایی صحبت کن" یا "این را به عنوان یک داستان قبل از خواب بگو" پاسخ می‌دهد و به توسعه‌دهندگان اجازه می‌دهد نحوه ارتباط صداهای هوش مصنوعی خود را تنظیم کنند. این قابلیت‌ها بر اساس معماری‌های GPT-4o و GPT-4o-mini OpenAI ساخته شده‌اند که انواع مختلف ورودی و خروجی رسانه‌ای را مدیریت می‌کنند.

به گفته OpenAI، عملکرد بهبود یافته به دلیل پیش‌آموزش تخصصی مجموعه‌داده‌های صوتی برای درک دقیق‌تر گفتار، تکنیک‌های تقطیر مدل کارآمدتر و استفاده گسترده از یادگیری تقویتی در تشخیص گفتار است. این شرکت روش‌های "خودبازی" را برای شبیه‌سازی الگوهای مکالمه طبیعی پیاده‌سازی کرد.

دسترسی و محدودیت‌های توسعه‌دهندگان

توسعه‌دهندگان اکنون می‌توانند از طریق API OpenAI به این مدل‌ها دسترسی داشته باشند و با استفاده از Agents SDK آن‌ها را ادغام کنند. برای برنامه‌های کاربردی بی‌درنگ، OpenAI پیشنهاد می‌کند از Realtime API خود با قابلیت‌های گفتار به گفتار استفاده کنید.

در حال حاضر، این سیستم فقط با صداهای مصنوعی از پیش تعیین شده OpenAI کار می‌کند - توسعه‌دهندگان نمی‌توانند صداهای جدید ایجاد کنند یا صداهای موجود را شبیه‌سازی کنند. این شرکت می‌گوید قصد دارد در آینده به صداهای سفارشی اجازه دهد در حالی که استانداردهای ایمنی را حفظ می‌کند و قصد دارد برای تجربه‌های چندوجهی به ویدیو گسترش یابد.

این به‌روزرسانی پس از معرفی Voice Engine در مارس ۲۰۲۴ توسط OpenAI انجام می‌شود که به محصولات خود و مشتریان منتخب محدود شده بود. به نظر می‌رسد که آن مدل قبلی با قابلیت‌های چندوجهی گسترده‌تر GPT-4o جایگزین شده است.

خلاصه:

  • OpenAI مدل‌های صوتی بهبود یافته، gpt-4o-transcribe و gpt-4o-mini-transcribe را منتشر کرده است که تبدیل گفتار به متن قابل اعتمادتری را ارائه می‌دهند و مدیریت بهتری از شرایط صوتی چالش‌برانگیز مانند نویز پس‌زمینه و لهجه‌ها ارائه می‌دهند.
  • مدل جدید gpt-4o-mini-tts text-to-speech توسعه‌دهندگان را قادر می‌سازد تا سبک صحبت مورد نظر را با استفاده از متن مشخص کنند، مانند تقلید صدای دزد دریایی.
  • این مدل‌ها که بر اساس فناوری GPT-4o ساخته شده‌اند، اکنون برای توسعه‌دهندگان در دسترس هستند و OpenAI قصد دارد پیشرفت‌های بیشتری از جمله پشتیبانی از صداهای سفارشی و گنجاندن قابلیت‌های ویدئویی را انجام دهد.

منبع: OpenAI

نویسنده: Matthias Bastian