روز چهارشنبه، گوگل (Google) بهروزرسانیهایی را برای چندین مدل هوش مصنوعی (AI) تولید رسانه خود که از طریق پلتفرم ابری Vertex AI در دسترس هستند، منتشر کرد.
مدل تولید موسیقی از متن گوگل، Lyria، اکنون برای مشتریان منتخب در حالت پیشنمایش در دسترس است، و مدل ایجاد ویدیوی Veo 2 این شرکت با گزینههای جدید ویرایش و سفارشیسازی جلوههای بصری بهبود یافته است. این شرکت همچنین یک ویژگی شبیهسازی صدا را با پشتیبانی از Chirp 3، مدل درک صوتی گوگل، برای کاربران «مجاز» راهاندازی کرده است. و تولیدکننده تصویر Imagen 3 اکنون عملکردی را ارائه میدهد که شرکت آن را «بهطور قابل توجهی» بهتر توصیف میکند.
این بهروزرسانیها، که برای Cloud Next زمانبندی شدهاند، آخرین تلاش گوگل برای تسخیر بازار سازمانی برای هوش مصنوعی مولد است. این شرکت احتمالاً مستقیماً با آمازون (Amazon) رقابت میکند، که یک پلتفرم هوش مصنوعی ابری قابل مقایسه به نام Bedrock با مجموعه مدلهای هوش مصنوعی مولد اختصاصی خود ارائه میدهد.
گوگل در حال تبلیغ Lyria به عنوان جایگزینی برای کتابخانههای موسیقی بدون حق امتیاز است. این شرکت اعلام کرد که مشتریان با استفاده از این مدل میتوانند آهنگهایی را در طیف وسیعی از سبکها و ژانرها، از تکنوازیهای پیانوی جازی گرفته تا قطعات لوفای (lo-fi)، ایجاد کنند.
در همین حال، Chirp 3 میتواند گفتار را در حدود 35 زبان سنتز کند. Chirp 3 که اولین بار در اوایل سال جاری پیشنمایش شد، Instant Custom Voice را هدایت میکند، که ظاهراً میتواند صدایی را با 10 ثانیه صدا شبیهسازی کند. اکنون بهطور کلی در دسترس است. این مدل همچنین زیربنای ابزار جدیدی است که در حالت پیشنمایش راهاندازی میشود، به نام Transcription with Diarization، که گویندگان را در ضبطهایی با چندین شرکتکننده جدا و شناسایی میکند.
به گفته گوگل، برای جلوگیری از سوء استفاده، Instant Custom Voice مشمول یک فرآیند «تلاش» برای تأیید «مجوزهای صحیح استفاده از صدا» است.
در مورد Veo 2، این مدل اکنون میتواند تصاویر پسزمینه، آرمها و اشیاء را از ویدیوهای موجود حذف کند و قاب فیلم ویدیویی را گسترش دهد (به عنوان مثال، برای تبدیل ویدیوی منظره به پرتره). همچنین اکنون میتواند زوایای دوربین و سرعت را در صحنههای تولید شده توسط هوش مصنوعی تنظیم کند تا تایملپسها (timelapses)، کلیپهای به سبک پهپاد و موارد دیگر ایجاد کند، و میتواند بین فریمهای شروع و پایان مشخصشده درونیابی (interpolate) کند.
این ویژگیهای Veo اکنون در حالت پیشنمایش در دسترس هستند.
در مورد ارتقاء Imagen 3 که قبلاً ذکر شد، گوگل اعلام کرد که آنها توانایی مدل را برای حذف اشیاء و بازسازی قسمتهای از دست رفته یا آسیب دیده تصاویر بهبود میبخشند.
تمام رسانههای تولید شده توسط Imagen، Veo و Lyria (اما نه Chirp) با استفاده از فناوری SynthID گوگل واترمارک (watermark) میشوند. این شرکت اعلام کرد که تمام مدلهای هوش مصنوعی مولد آن دارای «حفاظتهای داخلی» برای محافظت در برابر ایجاد محتوای مضر هستند.
گوگل از نظر تاریخی مشخص نکرده است که از کدام دادههای خاص برای آموزش مدلهای خود استفاده میکند، و این غول فناوری امروز به این رویه پایبند بود. دادههای آموزشی به دلایل مربوط به مالکیت معنوی (IP) موضوعی بحثبرانگیز است. برخی از شرکتها مدلهای خود را بر روی آثار دارای حق نسخهبرداری آموزش میدهند بدون اینکه ابتدا از دارندگان حقوق اجازه بگیرند. در حالی که این شرکتها ادعا میکنند که دکترین استفاده منصفانه ایالات متحده (U.S. fair use doctrine) از این عمل محافظت میکند، برخی از سازندگان بهطور قابل درک مخالف هستند. بسیاری از آنها در دادگاه با فروشندگان میجنگند.
گوگل قبلاً به تککرانچ (TechCrunch) گفته بود که مکانیسمهای انصراف برای آموزش مدل و همچنین یک سیاست غرامت (indemnity policy) برای محافظت از مشتریان Google Cloud و Vertex AI در برابر اختلافات مربوط به حق نسخهبرداری هوش مصنوعی ارائه میدهد.