نمایی از Open-Sora 2.0
نمایی از Open-Sora 2.0

Open-Sora 2.0 با ۹۰٪ هزینه آموزشی کمتر، با مدل‌های ویدیویی هوش مصنوعی رقابتی مطابقت دارد

شرکت HPC-AI Tech سیستم هوش مصنوعی ویدیویی جدیدی را توسعه داده است که با استفاده از روش‌های فشرده‌سازی جدید، به کیفیت درجه تجاری با حدود یک دهم هزینه آموزش معمول دست می‌یابد.

در حالی که مدل‌های زبانی به طور فزاینده‌ای کارآمدتر شده‌اند، هوش مصنوعی ویدیویی همچنان به منابع GPU قابل توجهی نیاز دارد. Open-Sora 2.0 با تبادل مقداری وضوح برای نیازهای محاسباتی بسیار کمتر، رویکرد متفاوتی را در پیش می‌گیرد.

جدول: مقایسه مدل، تعداد پردازنده‌های گرافیکی، ساعات GPU و هزینه‌ها برای یک بار اجرا برای مدل‌های تولید حرکت ویدیویی MovieGen، Step-Video-T2V و Open Sora
2.0.
مقایسه هزینه آموزش: Open-Sora 2.0 تقریباً به 200,000 دلار نیاز دارد، در مقایسه با 2.5 میلیون دلار برای Movie Gen و 1 میلیون دلار برای Step-Video-T2V. | تصویر: HPC-AI Tech

مقاله تحقیقاتی نشان می‌دهد که هزینه‌های آموزش تقریباً 200,000 دلار است - تقریباً یک دهم هزینه‌ای که سیستم‌هایی مانند Movie Gen یا Step-Video-T2V نیاز دارند. آزمایش‌ها نشان می‌دهد که کیفیت قابل مقایسه با سیستم‌های تجاری مانند Runway Gen-3 Alpha و HunyuanVideo است. این تیم از 224 پردازنده گرافیکی Nvidia H200 برای آموزش استفاده کرد.

فریم‌های ویدیویی نمونه برای ویدیوهای تولید شده با دو نرخ فشرده‌سازی رمزگذار خودکار مختلف: ردیف بالا نرخ فشرده‌سازی پایین، ردیف پایین نرخ فشرده‌سازی بالا.
فشرده‌سازی بالاتر خروجی کمی کم‌جزئیات‌تری ایجاد می‌کند، اما سرعت تولید ویدیوی بسیار سریع‌تری را امکان‌پذیر می‌کند. | تصویر: HPC-AI Tech

این سیستم از طریق سه مرحله آموزشی به کارایی خود دست می‌یابد: با شروع با ویدیوهای با وضوح پایین، تخصص در تبدیل تصویر به ویدیو، و در نهایت تنظیم دقیق برای وضوح بالاتر. این تیم همچنین با گنجاندن مدل‌های تصویر از پیش آموزش‌دیده مانند Flux، منابع را بهینه کرد.

نقطه مرکزی این سیستم، رمزگذار خودکار Video DC-AE است که نرخ فشرده‌سازی برتری را در مقایسه با روش‌های موجود ارائه می‌دهد. این نوآوری آموزش را 5.2 برابر سریع‌تر می‌کند و در عین حال سرعت تولید ویدیو را بیش از ده برابر بهبود می‌بخشد.

سیستم متن‌باز هوش مصنوعی ویدیویی تجاری را به چالش می‌کشد

Open-Sora 2.0 می‌تواند ویدیوها را هم از توضیحات متنی و هم از تصاویر تکی تولید کند. این شامل یک ویژگی امتیاز حرکت است که به کاربران امکان می‌دهد شدت حرکت را در کلیپ‌های تولید شده کنترل کنند.

توالی تصویر: تأثیر امتیاز حرکت بر تولید ویدیو با استفاده از هوش مصنوعی، افزایش حرکت دوربین و پویایی در مقادیر بالاتر.
امتیازهای حرکتی بالاتر منجر به حرکات دوربین پویاتر و افزایش فعالیت صحنه می‌شود. | تصویر: HPC-AI Tech

این سیستم محدودیت‌های قابل توجهی دارد. ویدیوها فقط می‌توانند به وضوح 768x768 پیکسل برسند و حداکثر پنج ثانیه (128 فریم) اجرا شوند. برای مقایسه، Sora OpenAI - که فقط نام خود را با این پروژه به اشتراک می‌گذارد - می‌تواند ویدیوهای 1080p را تا 20 ثانیه تولید کند.

آزمایش‌ها نشان می‌دهد که این سیستم در معیارهای کلیدی از جمله کیفیت بصری، دقت در درخواست و مدیریت حرکت، در سطوح نزدیک به تجاری عمل می‌کند. به طور قابل توجهی، امتیاز VBench Open-Sora 2.0 اکنون تنها 0.69 درصد از Sora OpenAI عقب‌تر است و به طور قابل توجهی شکاف 4.52 درصدی مشاهده شده در نسخه قبلی را کاهش می‌دهد.

نمودار میله‌ای مقایسه امتیازهای VBench برای مدل‌های متن به ویدیو: امتیاز کل، امتیاز کیفیت و امتیاز معنایی.
Open-Sora 2.0 بهبودهای قابل توجهی نسبت به نسخه قبلی خود نشان می‌دهد و در عین حال شکاف کیفیت را با سیستم‌های هوش مصنوعی ویدیویی تجاری کاهش می‌دهد. | تصویر: HPC-AI Tech

Open-Sora اکنون به عنوان متن‌باز در GitHub در دسترس است. مانند سایر مدل‌های ویدیویی هوش مصنوعی، این مدل نیز هنوز با مصنوعات گاه به گاه و حرکات مغایر با قوانین فیزیک مواجه است. می‌توانید نمونه‌های بیشتری را در صفحه رسمی پروژه تماشا کنید.

تولید ویدیوی هوش مصنوعی به یک زمینه به طور فزاینده رقابتی تبدیل شده است و شرکت‌های چینی بخش زیادی از توسعه را رهبری می‌کنند. سیستم‌های جدید تقریباً به صورت هفتگی راه‌اندازی می‌شوند، از جمله پروژه‌های متن‌باز مانند Genmo Mochi 1 و MiniMax Video-01. در حالی که این مدل‌ها اغلب پیشرفت‌های متوسطی در معیارها نشان می‌دهند، هیچ‌کدام پیشرفت عمده‌ای در کیفیت کلی ویدیو به دست نیاورده‌اند.

استراتژی‌های مقرون به صرفه Open-Sora 2.0 جنبه‌هایی از "لحظه Deepseek" در مدل‌های زبان را تکرار می‌کند، زمانی که روش‌های آموزشی بهبود یافته به سیستم‌های متن‌باز کمک کرد تا عملکرد سطح تجاری را با هزینه‌های کاهش یافته به دست آورند. این می‌تواند بر قیمت‌گذاری در کل بخش هوش مصنوعی ویدیویی تأثیر بگذارد، جایی که خدماتی مانند آخرین مدل گوگل در حال حاضر به دلیل نیازهای محاسباتی فشرده، 0.50 سنت در ثانیه نیاز دارد.

با این حال، شکاف عملکرد بین هوش مصنوعی ویدیویی متن‌باز و تجاری همچنان قابل توجه‌تر از مدل‌های زبان است، زیرا حتی رهبران صنعت به کار برای حل چالش‌های فنی اساسی ادامه می‌دهند.