هوش مصنوعی جدید Runway، مدل Sora شرکت OpenAI را با ویدیوهای منسجم‌تر به چالش می‌کشد

یک مدل هوش مصنوعی جدید از شرکت

Runway AI Inc.

با هدف امکان‌پذیر ساختن ایجاد ویدیوهایی با کاراکترها، اشیاء و پس‌زمینه‌های منسجم برای کاربران، نشان‌دهنده جهشی بالقوه در رقابت برای استفاده از رایانه‌ها به منظور ساخت فیلم‌ها با سرعت و هزینه کمتر است.

شرکت Runway قرار است روز دوشنبه مدل Gen-4 را برای کاربران پولی خود منتشر کند و قصد دارد در اواخر هفته، قابلیتی را اضافه کند که برای ماهرتر کردن نرم‌افزار در تولید صحنه‌هایی طراحی شده است که از یک ویدیو به ویدیوی دیگر منسجم به نظر برسند. به گفته این شرکت، کاربران قادر خواهند بود کلیپ‌هایی به مدت پنج و ده ثانیه با وضوح 1080p تولید کنند.

این استارتاپ مستقر در نیویورک، در اوایل سال ۲۰۲۳ با انتشار مدلی که قادر به تولید کلیپ‌های سه ثانیه‌ای با ظاهر کمی ناپیوسته بر اساس دستورهای متنی مانند «تصویر هوایی پهپاد از منظره بیابان» بود، شور و هیجان پیرامون تولیدکنندگان ویدیوی هوش مصنوعی را آغاز کرد. دو سال بعد، رقابت به طور قابل توجهی افزایش یافته است و شرکت‌های فناوری از جمله OpenAI و Pika

خدمات مشابهی

را عرضه کرده‌اند. اکنون، Runway در تلاش است تا در صدر این رقابت باقی بماند.

کریس والنزوئلا، هم‌بنیان‌گذار و مدیرعامل Runway، در مصاحبه‌ای گفت: «هدف ما در حال حاضر این است که اطمینان حاصل کنیم چیزهایی که روی آن‌ها کار می‌کنیم و می‌سازیم، کیفیت و استانداردی را دارند که هالیوود و فیلم‌سازان و متخصصان واقعی به آن نیاز دارند.» وی افزود: «این لحظه ویژه‌ای است زیرا ما از آن آستانه عبور کرده‌ایم.»

دو فیلم کوتاه ساخته شده با این نرم‌افزار که پیش از عرضه به بلومبرگ نیوز نشان داده شد، نمایی از قابلیت‌های آن ارائه می‌دهد. در یک کلیپ، که قرار بود صحنه‌ای فانتزی شبیه به انیمیشن خمیری (claymation) در جنگل را تداعی کند، یک شعله آتش کوچک و تنها در آتشدان، آرزوی ارتباط دارد و به طور تصادفی یک راسوی بدبو را می‌سوزاند، پیش از آنکه در یک صخره نزدیک، دوستی پیدا کند. برای ساخت آن، یکی از اعضای تیم Runway چند صد ویدیوی جداگانه را در عرض چند ساعت تولید کرد، سپس آن‌ها را به صورت یک کلیپ منسجم ویرایش نمود. صدا به طور جداگانه اضافه شد. والنزوئلا گفت کل این فرآیند چند روز طول کشید.

اگرچه ویدیوهای هوش مصنوعی طی دو سال گذشته بهبود یافته‌اند، بسیاری از آن‌ها همچنان انواع ناهماهنگی‌ها را نشان می‌دهند، از اعضای بدن شبح‌وار گرفته تا اشیائی که قوانین فیزیک را نقض می‌کنند و از یک کلیپ به کلیپ دیگر به‌طور محسوسی متفاوت به نظر می‌رسند. کلیپ‌هایی که به بلومبرگ نیوز نشان داده شد شامل برخی از این مشکلات بودند، اما به مراتب منسجم‌تر بودند.

والنزوئلا گفت که جدیدترین مدل هوش مصنوعی Runway با حفظ و پایداری طیفی از جزئیات مانند مکان، کاراکترها و ظاهر و حس ویدیو، قادر به بهبود خروجی‌های خود است. والنزوئلا از توضیح جزئیات فنی خودداری کرد، اما گفت Runway مجبور شد در مورد هدف مدل ویدیویی خود تجدید نظر کند.

نرم‌افزار Runway در طیف وسیعی از پروژه‌ها استفاده شده است، از جمله تولید برخی صحنه‌ها

برای سریال

، ساخت تصاویر بصری برای تور کنسرت مدونا و ساخت

یک آگهی تبلیغاتی برای پوما

. Runway همچنین قراردادی با لاینزگیت (Lionsgate) امضا کرد تا یک مدل هوش مصنوعی را بر روی محتوای این استودیو آموزش دهد که می‌تواند در پروژه‌های فیلم آن استفاده شود.

والنزوئلا اشاره کرد که این شرکت تلاش کرده است تا مدل خود را بیش از گذشته بر روی اصطلاحات تخصصی فیلم‌سازی آموزش دهد تا فرآیند نوشتن دستورها (prompt) برای فیلم‌سازان طبیعی‌تر باشد.

والنزوئلا گفت: «هدف اول این بود که بتوانید ویدیو رندر کنید، و فکر می‌کنم این وضعیت فعلی هوش مصنوعی ویدیویی است. مرحله دوم این است که بتوانید داستان‌های واقعی بسازید، چیزهایی که مردم تماشا خواهند کرد زیرا خوب و سرگرم‌کننده هستند و با آن‌ها ارتباط برقرار می‌کنند.»

برچسب‌ها Runway AI OpenAI Sora هوش مصنوعی تولید ویدیو Gen-4 یادگیری ماشین ویدیوی منسجم

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: bloomberg