چند سال پیش، چیزی به نام "مدل ویدیویی هوش مصنوعی مولد" وجود نداشت.
امروزه، دهها مدل وجود دارد، از جمله بسیاری که قادر به ارائه ویدیوهای فوقالعاده با کیفیت بالا و فوقالعاده واقعگرایانه در سطح هالیوود در عرض چند ثانیه از طریق دستورات متنی یا تصاویر آپلود شده توسط کاربر و کلیپهای ویدیویی موجود هستند. اگر در چند ماه گذشته ونچربیت را خوانده باشید، بدون شک با مقالاتی درباره این مدلها و شرکتهای پشت آنها برخورد کردهاید، از Gen-3 رانوی گرفته تا Veo 2 گوگل تا Sora OpenAI که مدتها به تأخیر افتاده بود اما سرانجام در دسترس قرار گرفت، تا Luma AI، Pika و شرکتهای نوپای چینی Kling و Hailuo. حتی Alibaba و یک استارتاپ به نام Genmo نسخههای منبع باز را ارائه دادهاند.
آنها قبلاً برای ساخت بخشهایی از فیلمهای پرفروش بزرگ از همهچیز، همهجا، به یکباره تا کارآگاه حقیقی: کشور شب HBO تا موزیک ویدیوها و تبلیغات تلویزیونی توسط Toys R’ Us و Coca Cola استفاده شدهاند. اما علیرغم استقبال نسبتاً سریع هالیوود و فیلمسازان از هوش مصنوعی، هنوز یک مسئله بالقوه بزرگ وجود دارد: نگرانیهای مربوط به حق تکثیر.
تا جایی که ما میتوانیم بگوییم با توجه به اینکه اکثر این استارتاپهای مدل ویدیویی هوش مصنوعی جزئیات دقیق دادههای آموزشی خود را به طور عمومی به اشتراک نمیگذارند، بیشتر آنها بر روی حجم وسیعی از ویدیوهایی که در وب بارگذاری شدهاند یا از سایر منابع آرشیوی جمعآوری شدهاند، آموزش داده شدهاند، از جمله ویدیوهایی که دارای حق تکثیر هستند و ممکن است مجوز صریحی به شرکتهای ویدیویی هوش مصنوعی برای آموزش بر روی آنها نداده باشند. در واقع، رانوی از جمله شرکتهایی است که با یک دعوی حقوقی طبقاتی روبرو است (هنوز در دادگاهها در حال بررسی است)، بر سر همین موضوع، و گزارش شده است که Nvidia حجم عظیمی از ویدیوهای YouTube را نیز برای این منظور جمعآوری کرده است. این اختلاف همچنان ادامه دارد - اینکه آیا جمعآوری دادهها از جمله ویدیوها استفاده منصفانه و تحولآفرین محسوب میشود یا خیر.
اما اکنون یک جایگزین جدید برای کسانی که نگران حق تکثیر هستند و نمیخواهند از مدلهایی استفاده کنند که علامت سؤالی در مورد آنها وجود دارد، وجود دارد: یک استارتاپ به نام Moonvalley - که توسط اعضای سابق Google DeepMind و محققان Meta، Microsoft و TikTok، از جمله دیگران، تأسیس شده است - Marey را معرفی کرده است، یک مدل ویدیویی هوش مصنوعی مولد که برای استودیوهای هالیوود، فیلمسازان و برندهای تجاری طراحی شده است. Marey که به عنوان یک مدل ویدیویی هوش مصنوعی بنیادی پیشرفته "پاک" قرار گرفته است، منحصراً بر روی دادههای متعلق و دارای مجوز آموزش داده شده است و یک جایگزین اخلاقی برای مدلهای هوش مصنوعی توسعه یافته با استفاده از محتوای جمعآوری شده ارائه میدهد.
نعیم تالوخدار، مدیر عامل و یکی از بنیانگذاران Moonvalley، در مصاحبه اخیر تلفنی با VentureBeat گفت: "مردم میگفتند ساخت یک مدل ویدیویی هوش مصنوعی پیشرفته بدون استفاده از دادههای جمعآوری شده از نظر فنی امکانپذیر نیست." "ما خلاف آن را ثابت کردیم."
Marey که اکنون بر اساس لیست انتظار فقط با دعوت در دسترس است، به مدل ویدیویی Firefly Adobe میپیوندد، که آن فروشنده نرم افزاری قدیمی نیز میگوید که درجه سازمانی دارد - فقط بر روی دادههای دارای مجوز و دادههای Adobe Stock آموزش داده شده است (به اعتراض برخی از مشارکتکنندگان) - و غرامت استفاده را برای شرکتها فراهم میکند. Moonvalley همچنین در بند 7 این سند، میگوید که از مشتریان خود با هزینه خود دفاع خواهد کرد.
Moonvalley امیدوار است که این ویژگیها Marey را برای استودیوهای بزرگ جذاب کند - حتی در حالی که دیگران مانند Runway با آنها قرارداد میبندند - و فیلمسازان، نسبت به آرایه بیشماری و همیشه در حال رشد از گزینههای جدید ایجاد ویدیوی هوش مصنوعی.
ویدیوی هوش مصنوعی "اخلاقیتر"؟
Marey نتیجه همکاری بین Moonvalley و Asteria، یک استودیوی فیلم و انیمیشن هوش مصنوعی به رهبری هنرمندان است. این مدل برای کمک به متخصصان خلاق ساخته شده است تا جایگزین آنها نشوند و ابزارهای جدیدی را برای تولید ویدیویی مبتنی بر هوش مصنوعی در اختیار فیلمسازان قرار میدهد و در عین حال استانداردهای سنتی صنعت را حفظ میکند.
تالوخدار گفت: "اعتقاد ما این بود که شما در این صنعت به پذیرش جریان اصلی نخواهید رسید مگر اینکه این کار را با صنعت انجام دهید." "این صنعت به وضوح اعلام کرده است که برای اینکه آنها واقعاً از این مدلها استفاده کنند، ما باید بفهمیم که چگونه یک مدل پاک بسازیم. و تا به امروز، مسیر برتر این بود که شما نمیتوانید این کار را انجام دهید."
Moonvalley به جای جمعآوری محتوا از اینترنت، روابط مستقیمی با این سازندگان ایجاد کرد تا برای فیلمهایشان مجوز بگیرد. این شرکت چندین ماه را صرف ایجاد این مشارکتها کرد و اطمینان حاصل کرد که تمام دادههای مورد استفاده برای آموزش به طور قانونی به دست آمده و دارای مجوز کامل هستند.
استراتژی صدور مجوز Moonvalley نیز برای حمایت از سازندگان محتوا با جبران خسارت برای مشارکتهای آنها طراحی شده است.
تالوخدار گفت: "اکثر روابط ما در حال حاضر به این دلیل است که مردم شروع به شنیدن در مورد کاری که ما انجام میدهیم کردهاند." "برای سازندگان شهرهای کوچک، بسیاری از فیلمهای آنها فقط در اطراف نشستهاند. ما میخواهیم به آنها کمک کنیم تا از آن کسب درآمد کنند و میخواهیم مدلهای متمرکز بر هنرمند را انجام دهیم. در نهایت یک رابطه بسیار خوب است."
تالوخدار به VentureBeat گفت که در حالی که این شرکت هنوز در حال ارزیابی و تجدید نظر در مدلهای جبران خسارت خود است، به طور کلی به سازندگان بر اساس مدت زمان فیلمهایشان غرامت پرداخت میکند و به آنها نرخ ساعتی یا دقیقهای تحت توافقنامههای صدور مجوز با مدت ثابت (به عنوان مثال، 12 یا 4 ماه) پرداخت میکند. این امکان پرداختهای مکرر بالقوه را فراهم میکند اگر محتوا همچنان مورد استفاده قرار گیرد.
هدف این شرکت این است که تولید ویدیوی سطح بالا را در دسترستر و مقرون به صرفهتر کند و به فیلمسازان، استودیوها و تبلیغکنندگان این امکان را بدهد که داستانگویی تولید شده توسط هوش مصنوعی را بدون نگرانیهای قانونی یا اخلاقی کشف کنند.
کنترل سینمایی بیشتر فراتر از دستورات متنی، تصاویر و جهتهای دوربین
تالوخدار توضیح داد که Moonvalley با تمرکز بر تولید درجه حرفهای به جای برنامههای کاربردی مصرفکننده، رویکرد متفاوتی را با مدل ویدیویی هوش مصنوعی Marey خود نسبت به مدلهای ویدیویی هوش مصنوعی موجود در پیش گرفته است.
او گفت: "اکثر شرکتهای تولید ویدیویی امروزی بیشتر بر مصرفکننده متمرکز هستند." "آنها مدلهای سادهای میسازند که در آن شما یک چتبات را تحریک میکنید، چند کلیپ تولید میکنید و جلوههای جالبی اضافه میکنید. تمرکز ما متفاوت است - چه فناوری برای استودیوهای هالیوود مورد نیاز است؟ برندهای بزرگ برای ساخت تبلیغات سوپر باول به چه چیزهایی نیاز دارند؟"
Marey چندین پیشرفت در ویدیوی تولید شده توسط هوش مصنوعی را معرفی میکند، از جمله:
- تولید HD بومی - ویدیوی با کیفیت بالا را بدون تکیه بر ارتقاء مقیاس تولید میکند و مصنوعات بصری را کاهش میدهد.
- طول ویدیوی طولانیتر - بر خلاف اکثر مدلهای ویدیویی هوش مصنوعی که فقط چند ثانیه فیلم تولید میکنند، Marey میتواند سکانسهای 30 ثانیهای را در یک بار عبور ایجاد کند.
- ویرایش مبتنی بر لایه - بر خلاف سایر مدلهای ویدیویی مولد، Marey به کاربران این امکان را میدهد که پیشزمینه، میانه و پسزمینه را به طور جداگانه ویرایش کنند و کنترل دقیقتری بر ترکیب ویدیویی ارائه دهند.
- ورودیهای مبتنی بر استوریبرد و طرح - Marey به جای تکیه صرفاً بر دستورات متنی (که بسیاری از مدلهای هوش مصنوعی انجام میدهند)، فیلمسازان را قادر میسازد تا با استفاده از استوریبردها، طرحها و حتی مراجع اکشن زنده ایجاد کنند و آن را برای متخصصان شهودیتر میکند.
- پاسخگوتر به ورودیهای شرطیسازی - این مدل برای تفسیر بهتر ورودیهای خارجی مانند نقاشیها و مراجع حرکتی طراحی شده است و ویدیوی تولید شده توسط هوش مصنوعی را قابل کنترلتر میکند.
- ویرایشگر ویدیوی "مولد بومی" - Moonvalley در حال توسعه نرمافزار همراه در کنار Marey است که به عنوان یک ابزار ویرایش ویدیوی مولد بومی عمل میکند که به کاربران کمک میکند پروژهها و جدولهای زمانی را به طور موثرتری مدیریت کنند.
تالوخدار توضیح داد: "خود مدل به شدت حول محور قابلیت کنترل ساخته شده است." "شما باید کنترلهای بسیار بیشتری در مورد خروجی داشته باشید - توانایی تغییر شخصیتها. این اولین مدلی است که به شما امکان میدهد ویرایش مبتنی بر لایه را انجام دهید، بنابراین میتوانید پیشزمینه، میانه و پسزمینه را به طور جداگانه ویرایش کنید. این همچنین اولین مدلی است که برای هالیوود ساخته شده است، که به طور ویژه برای تولید ساخته شده است."
علاوه بر این، او به VentureBeat گفت که Marey به یک مدل ترکیبی انتشار-ترانسفورمر متکی است که معماریهای مبتنی بر انتشار و ترانسفورمر را ترکیب میکند.
تالوخدار گفت: "مدلها مدلهای انتشار-ترانسفورمر هستند، بنابراین معماری ترانسفورمر است و سپس شما انتشار را به عنوان بخشی از لایهها دارید." "وقتی قابلیت کنترل را معرفی میکنید، معمولاً از طریق آن لایهها این کار را انجام میدهید."
تأمین مالی شده توسط VCهای بزرگ اما نه به اندازه سایر استارتاپهای ویدیویی هوش مصنوعی (هنوز)
Moonvalley همچنین این هفته اعلام میکند که یک دور جذب سرمایه اولیه 70 میلیون دلاری به رهبری Bessemer Venture Partners، Khosla Ventures و General Catalyst انجام داده است. سرمایهگذاران Hemant Taneja، Samir Kaul و Byron Deeter نیز به هیئت مدیره شرکت پیوستهاند.
تالوخدار خاطرنشان کرد که تأمین مالی Moonvalley تاکنون به طور قابل توجهی کمتر از برخی از رقبای خود است - گزارش شده است که Runway در مجموع 270 میلیون دلار در چندین دور جمعآوری کرده است - اما منابع خود را با گردآوری یک تیم نخبه از محققان و مهندسان هوش مصنوعی بهینهسازی کرده است.
او گفت: "ما حدود 70 میلیون دلار جمعآوری کردیم، قطعاً بسیار کمتر از رقبای خود." "اما این واقعاً به تیم برمیگردد - داشتن تیمی که بتواند آن معماری را به طور قابل توجهی کارآمدتر، محاسباتی و همه آن چیزهای مختلف بسازد."
Marey در حال حاضر در یک مرحله دسترسی محدود است و استودیوها و فیلمسازان منتخب در حال آزمایش این مدل هستند. Moonvalley قصد دارد به تدریج دسترسی را در هفتههای آینده گسترش دهد.
تالوخدار تأیید کرد: "در حال حاضر، تعدادی از استودیوها به آن دسترسی پیدا میکنند و ما یک گروه آلفا با چند دوجین فیلمساز داریم که از آن استفاده میکنند." "امیدواریم که در عرض چند هفته به طور کامل در دسترس باشد، در بدترین حالت در عرض چند ماه."
Moonvalley و Asteria با راهاندازی Marey، قصد دارند خود را در خط مقدم فیلمسازی به کمک هوش مصنوعی قرار دهند و راه حلی را به استودیوها و برندها ارائه دهند که هوش مصنوعی را بدون به خطر انداختن یکپارچگی خلاقانه ادغام میکند. اما با رقبای استارتاپی ویدیویی هوش مصنوعی مانند Runway، Pika و Hedra همچنان به اضافه کردن ویژگیهای جدیدی مانند صدا و حرکات شخصیت ادامه میدهند.