اعتبار تصویر: گوگل
اعتبار تصویر: گوگل

مدل هوش مصنوعی تولید موسیقی در فضای ابری گوگل

روز چهارشنبه، گوگل (Google) به‌روزرسانی‌هایی را برای چندین مدل هوش مصنوعی (AI) تولید رسانه خود که از طریق پلتفرم ابری Vertex AI در دسترس هستند، منتشر کرد.

مدل تولید موسیقی از متن گوگل، Lyria، اکنون برای مشتریان منتخب در حالت پیش‌نمایش در دسترس است، و مدل ایجاد ویدیوی Veo 2 این شرکت با گزینه‌های جدید ویرایش و سفارشی‌سازی جلوه‌های بصری بهبود یافته است. این شرکت همچنین یک ویژگی شبیه‌سازی صدا را با پشتیبانی از Chirp 3، مدل درک صوتی گوگل، برای کاربران «مجاز» راه‌اندازی کرده است. و تولیدکننده تصویر Imagen 3 اکنون عملکردی را ارائه می‌دهد که شرکت آن را «به‌طور قابل توجهی» بهتر توصیف می‌کند.

این به‌روزرسانی‌ها، که برای Cloud Next زمان‌بندی شده‌اند، آخرین تلاش گوگل برای تسخیر بازار سازمانی برای هوش مصنوعی مولد است. این شرکت احتمالاً مستقیماً با آمازون (Amazon) رقابت می‌کند، که یک پلتفرم هوش مصنوعی ابری قابل مقایسه به نام Bedrock با مجموعه مدل‌های هوش مصنوعی مولد اختصاصی خود ارائه می‌دهد.

گوگل در حال تبلیغ Lyria به عنوان جایگزینی برای کتابخانه‌های موسیقی بدون حق امتیاز است. این شرکت اعلام کرد که مشتریان با استفاده از این مدل می‌توانند آهنگ‌هایی را در طیف وسیعی از سبک‌ها و ژانرها، از تک‌نوازی‌های پیانوی جازی گرفته تا قطعات لوفای (lo-fi)، ایجاد کنند.

در همین حال، Chirp 3 می‌تواند گفتار را در حدود 35 زبان سنتز کند. Chirp 3 که اولین بار در اوایل سال جاری پیش‌نمایش شد، Instant Custom Voice را هدایت می‌کند، که ظاهراً می‌تواند صدایی را با 10 ثانیه صدا شبیه‌سازی کند. اکنون به‌طور کلی در دسترس است. این مدل همچنین زیربنای ابزار جدیدی است که در حالت پیش‌نمایش راه‌اندازی می‌شود، به نام Transcription with Diarization، که گویندگان را در ضبط‌هایی با چندین شرکت‌کننده جدا و شناسایی می‌کند.

به گفته گوگل، برای جلوگیری از سوء استفاده، Instant Custom Voice مشمول یک فرآیند «تلاش» برای تأیید «مجوزهای صحیح استفاده از صدا» است.

در مورد Veo 2، این مدل اکنون می‌تواند تصاویر پس‌زمینه، آرم‌ها و اشیاء را از ویدیوهای موجود حذف کند و قاب فیلم ویدیویی را گسترش دهد (به عنوان مثال، برای تبدیل ویدیوی منظره به پرتره). همچنین اکنون می‌تواند زوایای دوربین و سرعت را در صحنه‌های تولید شده توسط هوش مصنوعی تنظیم کند تا تایم‌لپس‌ها (timelapses)، کلیپ‌های به سبک پهپاد و موارد دیگر ایجاد کند، و می‌تواند بین فریم‌های شروع و پایان مشخص‌شده درونیابی (interpolate) کند.

این ویژگی‌های Veo اکنون در حالت پیش‌نمایش در دسترس هستند.

در مورد ارتقاء Imagen 3 که قبلاً ذکر شد، گوگل اعلام کرد که آنها توانایی مدل را برای حذف اشیاء و بازسازی قسمت‌های از دست رفته یا آسیب دیده تصاویر بهبود می‌بخشند.

تمام رسانه‌های تولید شده توسط Imagen، Veo و Lyria (اما نه Chirp) با استفاده از فناوری SynthID گوگل واترمارک (watermark) می‌شوند. این شرکت اعلام کرد که تمام مدل‌های هوش مصنوعی مولد آن دارای «حفاظت‌های داخلی» برای محافظت در برابر ایجاد محتوای مضر هستند.

گوگل از نظر تاریخی مشخص نکرده است که از کدام داده‌های خاص برای آموزش مدل‌های خود استفاده می‌کند، و این غول فناوری امروز به این رویه پایبند بود. داده‌های آموزشی به دلایل مربوط به مالکیت معنوی (IP) موضوعی بحث‌برانگیز است. برخی از شرکت‌ها مدل‌های خود را بر روی آثار دارای حق نسخه‌برداری آموزش می‌دهند بدون اینکه ابتدا از دارندگان حقوق اجازه بگیرند. در حالی که این شرکت‌ها ادعا می‌کنند که دکترین استفاده منصفانه ایالات متحده (U.S. fair use doctrine) از این عمل محافظت می‌کند، برخی از سازندگان به‌طور قابل درک مخالف هستند. بسیاری از آنها در دادگاه با فروشندگان می‌جنگند.

گوگل قبلاً به تک‌کرانچ (TechCrunch) گفته بود که مکانیسم‌های انصراف برای آموزش مدل و همچنین یک سیاست غرامت (indemnity policy) برای محافظت از مشتریان Google Cloud و Vertex AI در برابر اختلافات مربوط به حق نسخه‌برداری هوش مصنوعی ارائه می‌دهد.