برای دریافت آخرین به روز رسانی ها و محتوای اختصاصی در مورد پوشش هوش مصنوعی پیشرو در صنعت، در خبرنامه های روزانه و هفتگی ما مشترک شوید. بیشتر بدانید
آمازون بیشتر به عنوان یک غول تجارت الکترونیک شناخته می شود و سپس شاید در رتبه های پایین تر لیست پیشنهادهای قابل توجه، محصول دستیار صوتی هوش مصنوعی الکسا قرار دارد، که ماه گذشته به لطف سرمایه گذاری آمازون Anthropic، ارتقاء هوش بزرگی دریافت کرد.
اکنون الکسا باید فضایی را برای یک خواهر و برادر جدید هوش مصنوعی صوتی آمازون باز کند: امروز این شرکت Amazon Nova Sonic را معرفی می کند، یک مدل پایه جدید که برای این طراحی شده است که به توسعه دهندگان برنامه های شخص ثالث اجازه می دهد تا با استفاده از پلتفرم وب آمازون Bedrock، تعامل صوتی مکالمه ای طبیعی و بلادرنگ را در محصولات خود ایجاد کنند.
این مدل اکنون از طریق یک رابط برنامه نویسی برنامه (API) دو طرفه در دسترس است.
موارد استفاده آشکار شامل پشتیبانی و خدمات مشتری، راهنمایی، بازیابی اطلاعات و سرگرمی است.
رویکرد یکپارچه
Nova Sonic به یک چالش کلیدی در هوش مصنوعی صوتی می پردازد: پراکندگی فناوری ها.
به گفته Rohit Prasad، معاون ارشد و دانشمند ارشد هوش مصنوعی عمومی (AGI) در آمازون، به طور سنتی، ساخت رابط های صوتی مستلزم ترکیب مدل های جداگانه برای تشخیص گفتار، پردازش زبان و ترکیب گفتار بود. وی این مطلب را در مصاحبه تلفنی ویدیویی با VentureBeat با استفاده از سرویس ویدیویی Chime آمازون بیان کرد.
این پیچیدگی اغلب منجر به تعاملات رباتیک و غیرطبیعی و افزایش سربار توسعه می شود.
اکنون، Sonic به دنبال بهبود این وضعیت با ترکیب هر سه نوع مدل مجزا در یک مدل است.
Prasad نوآوری اصلی مدل را توضیح داد: "Nova Sonic سه مدل سنتی جداگانه - گفتار به متن، درک متن و متن به گفتار - را در یک سیستم یکپارچه جمع می کند که می تواند نه تنها 'چه' بلکه 'چگونه' ارتباط را نیز مدل سازی کند."
Nova Sonic با حفظ زمینه صوتی - مانند لحن، آهنگ و سبک - به حفظ تفاوت های ظریف مکالمه انسانی کمک می کند.
تشخیص پیچیدگی ها و ویژگی های عجیب و غریب مکالمات صوتی دو طرفه زنده
یکی از قابلیت های تعیین کننده Nova Sonic، توانایی آن در مدیریت مکالمات زنده و دو طرفه است. این مدل تشخیص می دهد که کاربران مکث می کنند، تردید می کنند یا قطع می کنند - رفتارهای رایج در گفتار انسان - و به طور روان پاسخ می دهد در حالی که زمینه را حفظ می کند.
Prasad گفت: "پیشرفت واقعی در اینجا تعامل صوتی بلادرنگ، تعاملی و با تأخیر کم است، به این معنی که شما می توانید هوش مصنوعی را در اواسط جمله قطع کنید و همچنان زمینه را حفظ کرده و به طور منسجم پاسخ دهد." این ویژگی به ویژه در سناریوهایی مانند خدمات مشتری مرتبط است، جایی که پاسخگویی و سازگاری بسیار مهم است.
استفاده از ابزار داخلی و ادغام گردش کار
Nova Sonic همچنین به گونه ای طراحی شده است که به طور یکپارچه با سایر سیستم ها ادغام شود. این مدل به طور خودکار رونوشت هایی از ورودی گفتاری تولید می کند که می تواند برای راه اندازی API ها یا تعامل با ابزارهای اختصاصی استفاده شود. این به شرکت ها اجازه می دهد تا عوامل هوش مصنوعی ایجاد کنند که می توانند وظایفی مانند رزرو قرار ملاقات، بازیابی اطلاعات زنده یا پاسخ دادن به سوالات پیچیده مشتری را انجام دهند.
Prasad گفت: "شما می توانید از Nova Sonic از طریق Amazon Bedrock استفاده کنید و آن را به هر ابزار یا منبع داده اختصاصی، حتی بصری، متصل کنید، تا زمانی که به عنوان API های قابل فراخوانی بسته بندی شوند." این انعطاف پذیری مدل را برای طیف گسترده ای از صنایع، از آموزش و سفر گرفته تا عملیات سازمانی و سرگرمی، مناسب می کند.
عملکرد معیار و مقایسه های صنعت
Nova Sonic در برابر سایر مدل های صوتی بلادرنگ، از جمله GPT-4o OpenAI و Gemini Flash 2.0 گوگل، محک زده شده است. در مجموعه داده Common Eval، این مدل در مکالمات تک نوبتی انگلیسی آمریکایی با استفاده از صدای مردانه، نرخ برد 69.7٪ نسبت به Gemini Flash 2.0 و نرخ برد 51.0٪ نسبت به GPT-4o به دست آورد. بهره های مشابهی با صداهای زنانه و انگلیسی بریتانیایی مشاهده شد.
Prasad بر عملکرد قوی Nova Sonic در بازارهای زبان اصلی خود تاکید کرد: "Nova Sonic در حال حاضر در ایالات متحده و انگلیسی بریتانیایی بهترین در کلاس خود است و حتی از GPT-4o بلادرنگ در هر دو طبیعی بودن و دقت مکالمه پیشی می گیرد." وی افزود: "تا جایی که ما می دانیم، تنها دو مدل دیگر - GPT-4o بلادرنگ و نوعی از GPT-4o mini - به آنچه Nova Sonic در ترکیب درک و تولید گفتار در زمان واقعی انجام می دهد، نزدیک می شوند. این فضا هنوز بسیار نوپا و بسیار دشوار است."
قابلیت های چند زبانه و مدیریت محیط های پر سر و صدا
در تشخیص گفتار، Nova Sonic همچنین در شرایط چند زبانه و دنیای واقعی عالی است. این مدل نرخ خطای کلمه (WER) 4.2٪ را در معیار Multilingual LibriSpeech ثبت کرد و بیش از 36٪ از GPT-4o Transcribe در انگلیسی، فرانسوی، آلمانی، ایتالیایی و اسپانیایی عملکرد بهتری داشت. در محیط های پر سر و صدا و چند بلندگو (اندازه گیری شده با استفاده از معیار AMI)، Nova Sonic بهبود 46.7٪ را در WER نسبت به GPT-4o Transcribe نشان داد.
صداهای رسا و گسترش زبان
در حال حاضر، این مدل از چندین صدای رسا، هم مردانه و هم زنانه، به زبان های انگلیسی آمریکایی و بریتانیایی پشتیبانی می کند. آمازون خاطرنشان کرد که لهجه ها و زبان های اضافی در حال توسعه هستند و در به روز رسانی های آینده منتشر خواهند شد.
تأخیر کم و هزینه مناسب برای شرکت ها
سرعت و هزینه نیز بخشی از جذابیت این مدل است. معیارگیری شخص ثالث نشان می دهد که Nova Sonic تأخیر درک شده توسط مشتری را 1.09 ثانیه ارائه می دهد، در حالی که این رقم برای GPT-4o OpenAI 1.18 ثانیه و برای Gemini Flash 2.0 گوگل 1.41 ثانیه است.
از نظر قیمت گذاری، آمازون Nova Sonic را به عنوان یک راه حل آماده برای شرکت ها معرفی می کند. Prasad گفت: "ما تقریباً 80٪ ارزان تر از GPT-4o بلادرنگ هستیم و این عملکرد برتر قیمت با شرکت هایی که از آزمایش به استقرار می روند، همخوانی دارد."
پذیرش اولیه در سراسر بخش ها
به گفته آمازون، شرکت ها در بخش های مختلف قبلاً استفاده یا آزمایش Nova Sonic را آغاز کرده اند.
ASAPP از این فناوری برای بهینه سازی گردش کار مراکز تماس استفاده می کند و دقت و مدیریت گفتگوی طبیعی آن را تحسین می کند.
Education First (EF) از این مدل برای حمایت از زبان آموزان با بازخورد تلفظ بلادرنگ، به ویژه برای سخنرانان غیر بومی با لهجه های مختلف استفاده می کند.
Stats Perform، ارائه دهنده داده های ورزشی، از تأخیر کم و تنظیم ساده Nova Sonic برای تقویت تعاملات سریع و غنی از داده در پلتفرم Opta AI Chat خود استفاده می کند.
تعهد هوش مصنوعی مسئولانه و ایمنی
در کنار عملکرد و هزینه، آمازون بر تعهد خود به توسعه هوش مصنوعی مسئولانه تاکید می کند. خانواده مدل های نوا شامل محافظت های داخلی است و توسط کارت های خدمات هوش مصنوعی AWS پشتیبانی می شود که موارد استفاده مورد نظر، محدودیت های بالقوه و دستورالعمل های اخلاقی را تشریح می کند.
Prasad بر تمرکز آمازون بر اعتماد و ایمنی تاکید کرد: "اعتماد برای ما از اهمیت بالایی برخوردار است - توسعه دهندگان می توانند شخصیت را در محدوده محدود سفارشی کنند، اما ما محافظت های قوی برای جلوگیری از شبیه سازی صدا یا تقلید ناخواسته قرار داده ایم." وی افزود: "ما بسیار سخت تلاش می کنیم تا توهمات و انحراف صدا را از بین ببریم. معیاری که برای انتشار تعیین کرده ایم بالا است زیرا تولید گفتار باید قابل اعتماد باشد."
Amazon Nova Sonic اکنون به طور کلی از طریق Amazon Bedrock در دسترس است. توسعه دهندگان و شرکت های علاقه مند به بررسی مدل می توانند با مراجعه به https://aws.amazon.com/nova/ شروع کنند.