تصویری از یک پرنده در حال آواز خواندن
تصویری از یک پرنده در حال آواز خواندن

اضافه شدن مدل صوتی HD گوگل، Chirp 3، به پلتفرم Vertex AI

بسیاری از تمرکز در هوش مصنوعی مولد تا کنون بر روی رابط‌های مبتنی بر متن بوده است که برای تولید متن، تصاویر و موارد دیگر استفاده می‌شود. به نظر می‌رسد موج بعدی صدا باشد و به سرعت در حال غلتیدن است. در آخرین تحول، گوگل امروز اعلام کرد که Chirp 3 - رابط صوتی HD خود - را از هفته آینده به پلتفرم توسعه Vertex AI اضافه خواهد کرد.

گوگل هفته گذشته به آرامی اعلام کرد که Chirp 3، هشت صدای جدید را برای 31 زبان عرضه خواهد کرد. موارد استفاده برای این پلتفرم شامل ساخت دستیارهای صوتی، ایجاد کتاب‌های صوتی، توسعه نمایندگان پشتیبانی و صداگذاری برای فیلم‌ها است. این خبر در رویدادی در دفاتر DeepMind گوگل در لندن اعلام شد.

تلاش‌های آن همزمان با جهش سایرین در کار هوش مصنوعی صوتی‌شان است. هفته گذشته، Sesame - استارتاپ پشت برنامه‌های ویروسی و بسیار واقعی "مایا" و "مایلز" - راه اندازی مدل خود را برای توسعه‌دهندگان برای ساخت برنامه‌ها و خدمات سفارشی بر اساس فناوری خود اعلام کرد.

شایان ذکر است محدودیت‌هایی در استفاده از Chirp 3 وجود خواهد داشت تا از سوء استفاده جلوگیری شود. توماس کوریان، مدیرعامل Google Cloud، امروز در یک رویداد خبری گفت: "ما فقط در حال بررسی برخی از این موارد با تیم ایمنی خود هستیم."

ElevenLabs از جمله استارتاپ‌های بزرگی است که صدها میلیون دلار سرمایه جمع آوری کرده‌اند تا کار خود را در خدمات صوتی هوش مصنوعی گسترش دهند.

این خبر Chirp 3 را به همان ثباتی می‌آورد که نسخه‌های جدیدتر LLM شاخص خود، Gemini، که در حال آزمایش هستند، و همچنین مدل تولید تصویر آن Imagen و ابزار گران قیمت تولید ویدیو Veo 2.

قابل بحث است که آیا آنچه گوگل با Chirp 3 منتشر می‌کند به اندازه برخی دیگر از تلاش‌های هوش مصنوعی برای ایجاد صداهای "انسانی" "واقعی" خواهد بود یا خیر (کار Sesame به ویژه برجسته است). اما همانطور که دیمیس هاسابیس، مدیرعامل DeepMind، تاکید کرد، این همچنان یک ماراتن است، نه یک دوی سرعت.

او گفت: "در کوتاه مدت ... این ایده که [هوش مصنوعی] یک گلوله نقره‌ای برای همه چیز در چند سال آینده است، من نمی‌بینم که هنوز اتفاق بیفتد. فکر می‌کنم هنوز چند سال با اتفاق افتادن چیزی شبیه AGI فاصله داریم." "این قرار است چیزها را تغییر دهد ... در طول دهه آینده، بنابراین میان مدت تا بلند مدت. این یکی از آن لحظات جالب در زمان است."

گوگل Vertex AI را در سال 2021 به عنوان پلتفرمی برای توسعه‌دهندگان برای ساخت خدمات یادگیری ماشین در فضای ابری راه اندازی کرد. البته این قبل از انفجار علاقه به هوش مصنوعی، و به طور خاص هوش مصنوعی مولد بود که با راه اندازی خدمات GPT OpenAI همراه شد.

از آن زمان، این شرکت در حال تکیه بر Vertex AI است، تا حدی به این دلیل که بازی catch up به شرکت‌های دیگر مانند مایکروسافت و آمازون است که ابزارهای هوش مصنوعی مولد را برای توسعه‌دهندگان می‌سازند. علاوه بر ساخت هوش مصنوعی مولد بر روی Gemini، توسعه‌دهندگان می‌توانند از Vertex AI برای طبقه‌بندی داده‌ها، آموزش مدل‌ها و تنظیم مدل‌های آموزش برای تولید استفاده کنند. جالب خواهد بود که آیا به گسترش باغ دیواری خود به مدل‌هایی فراتر از مدل‌های ساخته شده توسط خود گوگل می‌پردازد یا خیر.

گوگل سال‌هاست که خدمات صوتی "Chirp" را می‌سازد و به استفاده از این نام به عنوان یک نام رمز برای تلاش‌های اولیه خود برای رقابت با سرویس Alexa آمازون باز می‌گردد.