ماریِ مون‌ولی: یک مدل ویدیویی هوش مصنوعی پیشرفته که بر اساس داده‌های کاملاً دارای مجوز آموزش داده شده است

چند سال پیش، چیزی به نام "مدل ویدیویی هوش مصنوعی مولد" وجود نداشت.

امروزه، ده‌ها مدل وجود دارد، از جمله بسیاری که قادر به ارائه ویدیوهای فوق‌العاده با کیفیت بالا و فوق‌العاده واقع‌گرایانه در سطح هالیوود در عرض چند ثانیه از طریق دستورات متنی یا تصاویر آپلود شده توسط کاربر و کلیپ‌های ویدیویی موجود هستند. اگر در چند ماه گذشته ونچربیت را خوانده باشید، بدون شک با مقالاتی درباره این مدل‌ها و شرکت‌های پشت آن‌ها برخورد کرده‌اید، از Gen-3 ران‌وی گرفته تا Veo 2 گوگل تا Sora OpenAI که مدت‌ها به تأخیر افتاده بود اما سرانجام در دسترس قرار گرفت، تا Luma AI، Pika و شرکت‌های نوپای چینی Kling و Hailuo. حتی Alibaba و یک استارتاپ به نام Genmo نسخه‌های منبع باز را ارائه داده‌اند.

آن‌ها قبلاً برای ساخت بخش‌هایی از فیلم‌های پرفروش بزرگ از همه‌چیز، همه‌جا، به یکباره تا کارآگاه حقیقی: کشور شب HBO تا موزیک ویدیوها و تبلیغات تلویزیونی توسط Toys R’ Us و Coca Cola استفاده شده‌اند. اما علی‌رغم استقبال نسبتاً سریع هالیوود و فیلمسازان از هوش مصنوعی، هنوز یک مسئله بالقوه بزرگ وجود دارد: نگرانی‌های مربوط به حق تکثیر.

تا جایی که ما می‌توانیم بگوییم با توجه به اینکه اکثر این استارتاپ‌های مدل ویدیویی هوش مصنوعی جزئیات دقیق داده‌های آموزشی خود را به طور عمومی به اشتراک نمی‌گذارند، بیشتر آن‌ها بر روی حجم وسیعی از ویدیوهایی که در وب بارگذاری شده‌اند یا از سایر منابع آرشیوی جمع‌آوری شده‌اند، آموزش داده شده‌اند، از جمله ویدیوهایی که دارای حق تکثیر هستند و ممکن است مجوز صریحی به شرکت‌های ویدیویی هوش مصنوعی برای آموزش بر روی آن‌ها نداده باشند. در واقع، ران‌وی از جمله شرکت‌هایی است که با یک دعوی حقوقی طبقاتی روبرو است (هنوز در دادگاه‌ها در حال بررسی است)، بر سر همین موضوع، و گزارش شده است که Nvidia حجم عظیمی از ویدیوهای YouTube را نیز برای این منظور جمع‌آوری کرده است. این اختلاف همچنان ادامه دارد - اینکه آیا جمع‌آوری داده‌ها از جمله ویدیوها استفاده منصفانه و تحول‌آفرین محسوب می‌شود یا خیر.

اما اکنون یک جایگزین جدید برای کسانی که نگران حق تکثیر هستند و نمی‌خواهند از مدل‌هایی استفاده کنند که علامت سؤالی در مورد آن‌ها وجود دارد، وجود دارد: یک استارتاپ به نام Moonvalley - که توسط اعضای سابق Google DeepMind و محققان Meta، Microsoft و TikTok، از جمله دیگران، تأسیس شده است - Marey را معرفی کرده است، یک مدل ویدیویی هوش مصنوعی مولد که برای استودیوهای هالیوود، فیلمسازان و برندهای تجاری طراحی شده است. Marey که به عنوان یک مدل ویدیویی هوش مصنوعی بنیادی پیشرفته "پاک" قرار گرفته است، منحصراً بر روی داده‌های متعلق و دارای مجوز آموزش داده شده است و یک جایگزین اخلاقی برای مدل‌های هوش مصنوعی توسعه یافته با استفاده از محتوای جمع‌آوری شده ارائه می‌دهد.

نعیم تالوخدار، مدیر عامل و یکی از بنیان‌گذاران Moonvalley، در مصاحبه اخیر تلفنی با VentureBeat گفت: "مردم می‌گفتند ساخت یک مدل ویدیویی هوش مصنوعی پیشرفته بدون استفاده از داده‌های جمع‌آوری شده از نظر فنی امکان‌پذیر نیست." "ما خلاف آن را ثابت کردیم."

Marey که اکنون بر اساس لیست انتظار فقط با دعوت در دسترس است، به مدل ویدیویی Firefly Adobe می‌پیوندد، که آن فروشنده نرم افزاری قدیمی نیز می‌گوید که درجه سازمانی دارد - فقط بر روی داده‌های دارای مجوز و داده‌های Adobe Stock آموزش داده شده است (به اعتراض برخی از مشارکت‌کنندگان) - و غرامت استفاده را برای شرکت‌ها فراهم می‌کند. Moonvalley همچنین در بند 7 این سند، می‌گوید که از مشتریان خود با هزینه خود دفاع خواهد کرد.

Moonvalley امیدوار است که این ویژگی‌ها Marey را برای استودیوهای بزرگ جذاب کند - حتی در حالی که دیگران مانند Runway با آن‌ها قرارداد می‌بندند - و فیلمسازان، نسبت به آرایه بی‌شماری و همیشه در حال رشد از گزینه‌های جدید ایجاد ویدیوی هوش مصنوعی.

ویدیوی هوش مصنوعی "اخلاقی‌تر"؟

Marey نتیجه همکاری بین Moonvalley و Asteria، یک استودیوی فیلم و انیمیشن هوش مصنوعی به رهبری هنرمندان است. این مدل برای کمک به متخصصان خلاق ساخته شده است تا جایگزین آن‌ها نشوند و ابزارهای جدیدی را برای تولید ویدیویی مبتنی بر هوش مصنوعی در اختیار فیلمسازان قرار می‌دهد و در عین حال استانداردهای سنتی صنعت را حفظ می‌کند.

تالوخدار گفت: "اعتقاد ما این بود که شما در این صنعت به پذیرش جریان اصلی نخواهید رسید مگر اینکه این کار را با صنعت انجام دهید." "این صنعت به وضوح اعلام کرده است که برای اینکه آن‌ها واقعاً از این مدل‌ها استفاده کنند، ما باید بفهمیم که چگونه یک مدل پاک بسازیم. و تا به امروز، مسیر برتر این بود که شما نمی‌توانید این کار را انجام دهید."

Moonvalley به جای جمع‌آوری محتوا از اینترنت، روابط مستقیمی با این سازندگان ایجاد کرد تا برای فیلم‌هایشان مجوز بگیرد. این شرکت چندین ماه را صرف ایجاد این مشارکت‌ها کرد و اطمینان حاصل کرد که تمام داده‌های مورد استفاده برای آموزش به طور قانونی به دست آمده و دارای مجوز کامل هستند.

استراتژی صدور مجوز Moonvalley نیز برای حمایت از سازندگان محتوا با جبران خسارت برای مشارکت‌های آن‌ها طراحی شده است.

تالوخدار گفت: "اکثر روابط ما در حال حاضر به این دلیل است که مردم شروع به شنیدن در مورد کاری که ما انجام می‌دهیم کرده‌اند." "برای سازندگان شهرهای کوچک، بسیاری از فیلم‌های آن‌ها فقط در اطراف نشسته‌اند. ما می‌خواهیم به آن‌ها کمک کنیم تا از آن کسب درآمد کنند و می‌خواهیم مدل‌های متمرکز بر هنرمند را انجام دهیم. در نهایت یک رابطه بسیار خوب است."

تالوخدار به VentureBeat گفت که در حالی که این شرکت هنوز در حال ارزیابی و تجدید نظر در مدل‌های جبران خسارت خود است، به طور کلی به سازندگان بر اساس مدت زمان فیلم‌هایشان غرامت پرداخت می‌کند و به آن‌ها نرخ ساعتی یا دقیقه‌ای تحت توافق‌نامه‌های صدور مجوز با مدت ثابت (به عنوان مثال، 12 یا 4 ماه) پرداخت می‌کند. این امکان پرداخت‌های مکرر بالقوه را فراهم می‌کند اگر محتوا همچنان مورد استفاده قرار گیرد.

هدف این شرکت این است که تولید ویدیوی سطح بالا را در دسترس‌تر و مقرون به صرفه‌تر کند و به فیلمسازان، استودیوها و تبلیغ‌کنندگان این امکان را بدهد که داستان‌گویی تولید شده توسط هوش مصنوعی را بدون نگرانی‌های قانونی یا اخلاقی کشف کنند.

کنترل سینمایی بیشتر فراتر از دستورات متنی، تصاویر و جهت‌های دوربین

تالوخدار توضیح داد که Moonvalley با تمرکز بر تولید درجه حرفه‌ای به جای برنامه‌های کاربردی مصرف‌کننده، رویکرد متفاوتی را با مدل ویدیویی هوش مصنوعی Marey خود نسبت به مدل‌های ویدیویی هوش مصنوعی موجود در پیش گرفته است.

او گفت: "اکثر شرکت‌های تولید ویدیویی امروزی بیشتر بر مصرف‌کننده متمرکز هستند." "آن‌ها مدل‌های ساده‌ای می‌سازند که در آن شما یک چت‌بات را تحریک می‌کنید، چند کلیپ تولید می‌کنید و جلوه‌های جالبی اضافه می‌کنید. تمرکز ما متفاوت است - چه فناوری برای استودیوهای هالیوود مورد نیاز است؟ برندهای بزرگ برای ساخت تبلیغات سوپر باول به چه چیزهایی نیاز دارند؟"

Marey چندین پیشرفت در ویدیوی تولید شده توسط هوش مصنوعی را معرفی می‌کند، از جمله:

تولید HD بومی - ویدیوی با کیفیت بالا را بدون تکیه بر ارتقاء مقیاس تولید می‌کند و مصنوعات بصری را کاهش می‌دهد.
طول ویدیوی طولانی‌تر - بر خلاف اکثر مدل‌های ویدیویی هوش مصنوعی که فقط چند ثانیه فیلم تولید می‌کنند، Marey می‌تواند سکانس‌های 30 ثانیه‌ای را در یک بار عبور ایجاد کند.
ویرایش مبتنی بر لایه - بر خلاف سایر مدل‌های ویدیویی مولد، Marey به کاربران این امکان را می‌دهد که پیش‌زمینه، میانه و پس‌زمینه را به طور جداگانه ویرایش کنند و کنترل دقیق‌تری بر ترکیب ویدیویی ارائه دهند.
ورودی‌های مبتنی بر استوری‌برد و طرح - Marey به جای تکیه صرفاً بر دستورات متنی (که بسیاری از مدل‌های هوش مصنوعی انجام می‌دهند)، فیلمسازان را قادر می‌سازد تا با استفاده از استوری‌بردها، طرح‌ها و حتی مراجع اکشن زنده ایجاد کنند و آن را برای متخصصان شهودی‌تر می‌کند.
پاسخ‌گوتر به ورودی‌های شرطی‌سازی - این مدل برای تفسیر بهتر ورودی‌های خارجی مانند نقاشی‌ها و مراجع حرکتی طراحی شده است و ویدیوی تولید شده توسط هوش مصنوعی را قابل کنترل‌تر می‌کند.
ویرایشگر ویدیوی "مولد بومی" - Moonvalley در حال توسعه نرم‌افزار همراه در کنار Marey است که به عنوان یک ابزار ویرایش ویدیوی مولد بومی عمل می‌کند که به کاربران کمک می‌کند پروژه‌ها و جدول‌های زمانی را به طور موثرتری مدیریت کنند.

تالوخدار توضیح داد: "خود مدل به شدت حول محور قابلیت کنترل ساخته شده است." "شما باید کنترل‌های بسیار بیشتری در مورد خروجی داشته باشید - توانایی تغییر شخصیت‌ها. این اولین مدلی است که به شما امکان می‌دهد ویرایش مبتنی بر لایه را انجام دهید، بنابراین می‌توانید پیش‌زمینه، میانه و پس‌زمینه را به طور جداگانه ویرایش کنید. این همچنین اولین مدلی است که برای هالیوود ساخته شده است، که به طور ویژه برای تولید ساخته شده است."

علاوه بر این، او به VentureBeat گفت که Marey به یک مدل ترکیبی انتشار-ترانسفورمر متکی است که معماری‌های مبتنی بر انتشار و ترانسفورمر را ترکیب می‌کند.

تالوخدار گفت: "مدل‌ها مدل‌های انتشار-ترانسفورمر هستند، بنابراین معماری ترانسفورمر است و سپس شما انتشار را به عنوان بخشی از لایه‌ها دارید." "وقتی قابلیت کنترل را معرفی می‌کنید، معمولاً از طریق آن لایه‌ها این کار را انجام می‌دهید."

تأمین مالی شده توسط VCهای بزرگ اما نه به اندازه سایر استارتاپ‌های ویدیویی هوش مصنوعی (هنوز)

Moonvalley همچنین این هفته اعلام می‌کند که یک دور جذب سرمایه اولیه 70 میلیون دلاری به رهبری Bessemer Venture Partners، Khosla Ventures و General Catalyst انجام داده است. سرمایه‌گذاران Hemant Taneja، Samir Kaul و Byron Deeter نیز به هیئت مدیره شرکت پیوسته‌اند.

تالوخدار خاطرنشان کرد که تأمین مالی Moonvalley تاکنون به طور قابل توجهی کمتر از برخی از رقبای خود است - گزارش شده است که Runway در مجموع 270 میلیون دلار در چندین دور جمع‌آوری کرده است - اما منابع خود را با گردآوری یک تیم نخبه از محققان و مهندسان هوش مصنوعی بهینه‌سازی کرده است.

او گفت: "ما حدود 70 میلیون دلار جمع‌آوری کردیم، قطعاً بسیار کمتر از رقبای خود." "اما این واقعاً به تیم برمی‌گردد - داشتن تیمی که بتواند آن معماری را به طور قابل توجهی کارآمدتر، محاسباتی و همه آن چیزهای مختلف بسازد."

Marey در حال حاضر در یک مرحله دسترسی محدود است و استودیوها و فیلمسازان منتخب در حال آزمایش این مدل هستند. Moonvalley قصد دارد به تدریج دسترسی را در هفته‌های آینده گسترش دهد.

تالوخدار تأیید کرد: "در حال حاضر، تعدادی از استودیوها به آن دسترسی پیدا می‌کنند و ما یک گروه آلفا با چند دوجین فیلمساز داریم که از آن استفاده می‌کنند." "امیدواریم که در عرض چند هفته به طور کامل در دسترس باشد، در بدترین حالت در عرض چند ماه."

Moonvalley و Asteria با راه‌اندازی Marey، قصد دارند خود را در خط مقدم فیلم‌سازی به کمک هوش مصنوعی قرار دهند و راه حلی را به استودیوها و برندها ارائه دهند که هوش مصنوعی را بدون به خطر انداختن یکپارچگی خلاقانه ادغام می‌کند. اما با رقبای استارتاپی ویدیویی هوش مصنوعی مانند Runway، Pika و Hedra همچنان به اضافه کردن ویژگی‌های جدیدی مانند صدا و حرکات شخصیت ادامه می‌دهند.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: ونچربیت