ران‌وی مدل ویدئویی Gen-4 را با تمرکز بر سازگاری منتشر کرد

ران‌وی Gen-4، جدیدترین مدل هوش مصنوعی خود برای تولید ویدئو را منتشر کرده است. این شرکت می‌گوید این سیستم یکی از بزرگترین چالش‌ها در تولید ویدئو با هوش مصنوعی را برطرف می‌کند: حفظ سازگاری شخصیت‌ها و اشیاء در طول صحنه‌ها.

به گفته ران‌وی، Gen-4 ویدئوهای پویاتری با حرکات واقع‌گرایانه ایجاد می‌کند و در عین حال موتیف‌ها، اشیاء و سبک‌ها را در فریم‌های مختلف سازگار نگه می‌دارد. ران‌وی اظهار می‌دارد: «Gen-4 استاندارد جدیدی برای تولید ویدئو تعیین می‌کند و پیشرفت قابل توجهی نسبت به Gen-3 Alpha است.»

رویکرد جدید به سازگاری شخصیت‌ها

پیشرفت فنی کلیدی، توانایی Gen-4 در حفظ سازگاری شخصیت‌ها با استفاده از تنها یک تصویر مرجع در نورپردازی‌ها، مکان‌ها و پردازش‌های مختلف است. این سیستم ارجاعات بصری را با دستورالعمل‌های متنی ترکیب می‌کند تا سبک‌ها را در طول ویدئوها حفظ کند.

به گفته ران‌وی، Gen-4 همچنین «نقطه عطف مهمی در توانایی مدل‌های مولد بصری برای شبیه‌سازی فیزیک دنیای واقعی» است. این سیستم به کاربران اجازه می‌دهد تا هر شیء یا سوژه‌ای را در مکان‌های مختلف قرار دهند و در عین حال سازگاری را حفظ کنند.

ران‌وی چندین فیلم نمایشی برای به نمایش گذاشتن این قابلیت‌ها ایجاد کرده است. «نیویورک یک باغ وحش است» سازگاری شخصیت‌ها را با قرار دادن همان حیوانات در صحنه‌های مختلف نیویورک، با ترکیب تصاویر مرجع حیوانات با عکس‌های شهر، نشان می‌دهد.

«گله» صحنه تعقیب و گریزی را در یک مزرعه گاو در شب نشان می‌دهد، که در آن Gen-4 ظاهر شخصیت‌ها را با استفاده از تنها چند تصویر مرجع سازگار نگه می‌دارد.

«بازیابی»، که کاوشگرانی را در جستجوی گلی مرموز نشان می‌دهد، با Gen-4 در کمتر از یک هفته ساخته شده است.

مدل تبدیل تصویر به ویدئو Gen-4 برای مشترکین پولی و مشتریان سازمانی در دسترس است. توابع مرجع در به‌روزرسانی آینده اضافه خواهند شد. نمونه‌های بیشتر در وب‌سایت RunwayML موجود است.

RunwayML خود را به عنوان یک بازیگر اصلی در فناوری ویدئوی هوش مصنوعی تثبیت کرده است، با ارزشی حدود ۴ میلیارد دلار، درآمد سالانه گزارش شده ۸۰ میلیون دلار در دسامبر ۲۰۲۴، و درآمد سالانه پیش‌بینی شده ۳۰۰ میلیون دلار در سال ۲۰۲۵. این قوی‌ترین رقیب غربی برای Sora متعلق به OpenAI است.

خلاصه

ران‌وی Gen-4، جدیدترین نسخه مدل‌های هوش مصنوعی خود را راه‌اندازی کرده است که می‌تواند ویدئوهایی با حرکات واقع‌گرایانه تولید کند و سازگاری اشیاء و سبک‌ها را در طول ویدئو حفظ نماید.
کاربران اکنون می‌توانند دستورات متنی خود را با تصاویر مرجع بصری ترکیب کنند تا ویدئوهایی ایجاد کنند که روایتی منسجم را دنبال کرده و سبک بصری ثابتی را حفظ کنند.
مدل Gen-4 در حال حاضر برای مشتریان پولی و کسب‌وکارها در دسترس است و برنامه‌هایی برای معرفی ویژگی‌های اضافی در آینده نزدیک وجود دارد.

این گزارش ترجمه و بازنویسی خبری با موتور هوش مصنوعی افق آبی است و برای خوانندهٔ فارسی‌زبان بازتنظیم شده. منبع اصلی: the decoder