رانوی Gen-4، جدیدترین مدل هوش مصنوعی خود برای تولید ویدئو را منتشر کرده است. این شرکت میگوید این سیستم یکی از بزرگترین چالشها در تولید ویدئو با هوش مصنوعی را برطرف میکند: حفظ سازگاری شخصیتها و اشیاء در طول صحنهها.
به گفته رانوی، Gen-4 ویدئوهای پویاتری با حرکات واقعگرایانه ایجاد میکند و در عین حال موتیفها، اشیاء و سبکها را در فریمهای مختلف سازگار نگه میدارد. رانوی اظهار میدارد: «Gen-4 استاندارد جدیدی برای تولید ویدئو تعیین میکند و پیشرفت قابل توجهی نسبت به Gen-3 Alpha است.»
رویکرد جدید به سازگاری شخصیتها
پیشرفت فنی کلیدی، توانایی Gen-4 در حفظ سازگاری شخصیتها با استفاده از تنها یک تصویر مرجع در نورپردازیها، مکانها و پردازشهای مختلف است. این سیستم ارجاعات بصری را با دستورالعملهای متنی ترکیب میکند تا سبکها را در طول ویدئوها حفظ کند.
به گفته رانوی، Gen-4 همچنین «نقطه عطف مهمی در توانایی مدلهای مولد بصری برای شبیهسازی فیزیک دنیای واقعی» است. این سیستم به کاربران اجازه میدهد تا هر شیء یا سوژهای را در مکانهای مختلف قرار دهند و در عین حال سازگاری را حفظ کنند.
رانوی چندین فیلم نمایشی برای به نمایش گذاشتن این قابلیتها ایجاد کرده است. «نیویورک یک باغ وحش است» سازگاری شخصیتها را با قرار دادن همان حیوانات در صحنههای مختلف نیویورک، با ترکیب تصاویر مرجع حیوانات با عکسهای شهر، نشان میدهد.
«گله» صحنه تعقیب و گریزی را در یک مزرعه گاو در شب نشان میدهد، که در آن Gen-4 ظاهر شخصیتها را با استفاده از تنها چند تصویر مرجع سازگار نگه میدارد.
«بازیابی»، که کاوشگرانی را در جستجوی گلی مرموز نشان میدهد، با Gen-4 در کمتر از یک هفته ساخته شده است.
مدل تبدیل تصویر به ویدئو Gen-4 برای مشترکین پولی و مشتریان سازمانی در دسترس است. توابع مرجع در بهروزرسانی آینده اضافه خواهند شد. نمونههای بیشتر در وبسایت RunwayML موجود است.
RunwayML خود را به عنوان یک بازیگر اصلی در فناوری ویدئوی هوش مصنوعی تثبیت کرده است، با ارزشی حدود ۴ میلیارد دلار، درآمد سالانه گزارش شده ۸۰ میلیون دلار در دسامبر ۲۰۲۴، و درآمد سالانه پیشبینی شده ۳۰۰ میلیون دلار در سال ۲۰۲۵. این قویترین رقیب غربی برای Sora متعلق به OpenAI است.
خلاصه
- رانوی Gen-4، جدیدترین نسخه مدلهای هوش مصنوعی خود را راهاندازی کرده است که میتواند ویدئوهایی با حرکات واقعگرایانه تولید کند و سازگاری اشیاء و سبکها را در طول ویدئو حفظ نماید.
- کاربران اکنون میتوانند دستورات متنی خود را با تصاویر مرجع بصری ترکیب کنند تا ویدئوهایی ایجاد کنند که روایتی منسجم را دنبال کرده و سبک بصری ثابتی را حفظ کنند.
- مدل Gen-4 در حال حاضر برای مشتریان پولی و کسبوکارها در دسترس است و برنامههایی برای معرفی ویژگیهای اضافی در آینده نزدیک وجود دارد.