بسیاری از تمرکز در هوش مصنوعی مولد تا کنون بر روی رابطهای مبتنی بر متن بوده است که برای تولید متن، تصاویر و موارد دیگر استفاده میشود. به نظر میرسد موج بعدی صدا باشد و به سرعت در حال غلتیدن است. در آخرین تحول، گوگل امروز اعلام کرد که Chirp 3 - رابط صوتی HD خود - را از هفته آینده به پلتفرم توسعه Vertex AI اضافه خواهد کرد.
گوگل هفته گذشته به آرامی اعلام کرد که Chirp 3، هشت صدای جدید را برای 31 زبان عرضه خواهد کرد. موارد استفاده برای این پلتفرم شامل ساخت دستیارهای صوتی، ایجاد کتابهای صوتی، توسعه نمایندگان پشتیبانی و صداگذاری برای فیلمها است. این خبر در رویدادی در دفاتر DeepMind گوگل در لندن اعلام شد.
تلاشهای آن همزمان با جهش سایرین در کار هوش مصنوعی صوتیشان است. هفته گذشته، Sesame - استارتاپ پشت برنامههای ویروسی و بسیار واقعی "مایا" و "مایلز" - راه اندازی مدل خود را برای توسعهدهندگان برای ساخت برنامهها و خدمات سفارشی بر اساس فناوری خود اعلام کرد.
شایان ذکر است محدودیتهایی در استفاده از Chirp 3 وجود خواهد داشت تا از سوء استفاده جلوگیری شود. توماس کوریان، مدیرعامل Google Cloud، امروز در یک رویداد خبری گفت: "ما فقط در حال بررسی برخی از این موارد با تیم ایمنی خود هستیم."
ElevenLabs از جمله استارتاپهای بزرگی است که صدها میلیون دلار سرمایه جمع آوری کردهاند تا کار خود را در خدمات صوتی هوش مصنوعی گسترش دهند.
این خبر Chirp 3 را به همان ثباتی میآورد که نسخههای جدیدتر LLM شاخص خود، Gemini، که در حال آزمایش هستند، و همچنین مدل تولید تصویر آن Imagen و ابزار گران قیمت تولید ویدیو Veo 2.
قابل بحث است که آیا آنچه گوگل با Chirp 3 منتشر میکند به اندازه برخی دیگر از تلاشهای هوش مصنوعی برای ایجاد صداهای "انسانی" "واقعی" خواهد بود یا خیر (کار Sesame به ویژه برجسته است). اما همانطور که دیمیس هاسابیس، مدیرعامل DeepMind، تاکید کرد، این همچنان یک ماراتن است، نه یک دوی سرعت.
او گفت: "در کوتاه مدت ... این ایده که [هوش مصنوعی] یک گلوله نقرهای برای همه چیز در چند سال آینده است، من نمیبینم که هنوز اتفاق بیفتد. فکر میکنم هنوز چند سال با اتفاق افتادن چیزی شبیه AGI فاصله داریم." "این قرار است چیزها را تغییر دهد ... در طول دهه آینده، بنابراین میان مدت تا بلند مدت. این یکی از آن لحظات جالب در زمان است."
گوگل Vertex AI را در سال 2021 به عنوان پلتفرمی برای توسعهدهندگان برای ساخت خدمات یادگیری ماشین در فضای ابری راه اندازی کرد. البته این قبل از انفجار علاقه به هوش مصنوعی، و به طور خاص هوش مصنوعی مولد بود که با راه اندازی خدمات GPT OpenAI همراه شد.
از آن زمان، این شرکت در حال تکیه بر Vertex AI است، تا حدی به این دلیل که بازی catch up به شرکتهای دیگر مانند مایکروسافت و آمازون است که ابزارهای هوش مصنوعی مولد را برای توسعهدهندگان میسازند. علاوه بر ساخت هوش مصنوعی مولد بر روی Gemini، توسعهدهندگان میتوانند از Vertex AI برای طبقهبندی دادهها، آموزش مدلها و تنظیم مدلهای آموزش برای تولید استفاده کنند. جالب خواهد بود که آیا به گسترش باغ دیواری خود به مدلهایی فراتر از مدلهای ساخته شده توسط خود گوگل میپردازد یا خیر.
گوگل سالهاست که خدمات صوتی "Chirp" را میسازد و به استفاده از این نام به عنوان یک نام رمز برای تلاشهای اولیه خود برای رقابت با سرویس Alexa آمازون باز میگردد.