ویدیوهای تولید شده توسط هوش مصنوعی از توضیحات متنی یا تصاویر، پتانسیل عظیمی برای تولید محتوا، تولید رسانه و سرگرمی دارند. پیشرفتهای اخیر در یادگیری عمیق (Deep Learning)، به ویژه در معماریهای مبتنی بر ترانسفورمر و مدلهای انتشار، این پیشرفت را تسریع کردهاند. با این حال، آموزش این مدلها همچنان نیازمند منابع فشرده است و به مجموعههای داده بزرگ، قدرت محاسباتی گسترده و سرمایهگذاری مالی قابل توجهی نیاز دارد. این چالشها دسترسی به فناوریهای پیشرفته تولید ویدیو را محدود میکند و آنها را در درجه اول برای گروههای تحقیقاتی و سازمانهای مجهز به بودجه کافی در دسترس قرار میدهد.
آموزش مدلهای ویدیویی هوش مصنوعی گران و از نظر محاسباتی پرهزینه است. مدلهای با عملکرد بالا به میلیونها نمونه آموزشی و خوشههای قدرتمند GPU نیاز دارند که توسعه آنها را بدون تأمین مالی قابل توجه دشوار میکند. مدلهای بزرگ، مانند Sora OpenAI، کیفیت تولید ویدیو را به ارتفاعات جدیدی ارتقا میدهند، اما منابع محاسباتی عظیمی را میطلبند. هزینه بالای آموزش، دسترسی به سنتز ویدیویی پیشرفته مبتنی بر هوش مصنوعی را محدود میکند و نوآوری را به چند سازمان بزرگ محدود میکند. پرداختن به این موانع مالی و فنی برای در دسترس قرار دادن گستردهتر تولید ویدیویی هوش مصنوعی و تشویق پذیرش گستردهتر ضروری است.
رویکردهای مختلفی برای مدیریت خواستههای محاسباتی تولید ویدیویی هوش مصنوعی توسعه یافتهاند. مدلهای اختصاصی مانند Runway Gen-3 Alpha دارای معماریهای بسیار بهینه شده هستند، اما منبع بسته هستند و مشارکتهای تحقیقاتی گستردهتر را محدود میکنند. مدلهای منبع باز مانند HunyuanVideo و Step-Video-T2V شفافیت را ارائه میدهند، اما به قدرت محاسباتی قابل توجهی نیاز دارند. بسیاری از آنها برای افزایش کیفیت ویدیو به مجموعههای داده گسترده، فشردهسازی مبتنی بر رمزگذار خودکار و تکنیکهای انتشار سلسله مراتبی متکی هستند. با این حال، هر رویکردی با مصالحههایی بین کارایی و عملکرد همراه است. در حالی که برخی از مدلها بر خروجی با وضوح بالا و دقت حرکت تمرکز دارند، برخی دیگر هزینههای محاسباتی کمتری را در اولویت قرار میدهند و در نتیجه سطوح عملکرد متفاوتی را در معیارهای ارزیابی ارائه میدهند. محققان همچنان به دنبال تعادل بهینه هستند که کیفیت ویدیو را حفظ کند و در عین حال بارهای مالی و محاسباتی را کاهش دهد.
محققان HPC-AI Tech Open-Sora 2.0 را معرفی میکنند، یک مدل تولید ویدیوی هوش مصنوعی در سطح تجاری که به عملکردی پیشرفته دست مییابد و در عین حال هزینههای آموزش را به طور قابل توجهی کاهش میدهد. این مدل با سرمایهگذاری تنها 200000 دلار توسعه یافته است که آن را پنج تا ده برابر مقرونبهصرفهتر از مدلهای رقیب مانند MovieGen و Step-Video-T2V میکند. Open-Sora 2.0 برای دموکراتیک کردن تولید ویدیوی هوش مصنوعی با در دسترس قرار دادن فناوری با عملکرد بالا برای مخاطبان گستردهتر طراحی شده است. بر خلاف مدلهای پرهزینه قبلی، این رویکرد چندین نوآوری مبتنی بر کارایی، از جمله بهبود انتخاب داده، یک رمزگذار خودکار پیشرفته، یک چارچوب ترانسفورمر ترکیبی جدید و روشهای آموزشی بسیار بهینه را ادغام میکند.
تیم تحقیق یک سیستم فیلتر داده سلسله مراتبی را پیادهسازی کرد که مجموعههای داده ویدیویی را به زیرمجموعههای با کیفیت بالاتر به طور فزاینده پالایش میکند و از کارایی آموزش بهینه اطمینان حاصل میکند. یک پیشرفت چشمگیر، معرفی رمزگذار خودکار Video DC-AE بود که فشردهسازی ویدیو را بهبود میبخشد و در عین حال تعداد توکنهای مورد نیاز برای نمایش را کاهش میدهد. معماری این مدل مکانیسمهای توجه کامل، پردازش چند جریانی و یک رویکرد ترانسفورمر انتشار ترکیبی را برای افزایش کیفیت ویدیو و دقت حرکت در خود جای داده است. کارایی آموزش از طریق یک خط لوله سه مرحلهای به حداکثر رسید: یادگیری متن به ویدیو بر روی دادههای با وضوح پایین، انطباق تصویر به ویدیو برای بهبود پویایی حرکت و تنظیم دقیق با وضوح بالا. این رویکرد ساختاریافته به مدل اجازه میدهد تا الگوهای حرکتی پیچیده و سازگاری فضایی را درک کند و در عین حال کارایی محاسباتی را حفظ کند.
این مدل در ابعاد مختلف آزمایش شد: کیفیت بصری، پایبندی به اعلان و واقع گرایی حرکت. ارزیابیهای ترجیحی انسانی نشان داد که Open-Sora 2.0 در حداقل دو دسته از رقبای اختصاصی و منبع باز بهتر عمل میکند. در ارزیابیهای VBench، شکاف عملکرد بین Open-Sora و Sora OpenAI از 4.52٪ به تنها 0.69٪ کاهش یافت که نشان دهنده پیشرفتهای اساسی است. Open-Sora 2.0 همچنین نمره VBench بالاتری نسبت به HunyuanVideo و CogVideo به دست آورد و خود را به عنوان یک رقیب قوی در میان مدلهای منبع باز فعلی تثبیت کرد. همچنین، این مدل بهینهسازیهای آموزشی پیشرفته مانند پردازش موازی، چکپوینت فعالسازی و بازیابی خودکار خرابی را ادغام میکند و از عملکرد مداوم و به حداکثر رساندن کارایی GPU اطمینان میدهد.
نکات کلیدی از تحقیق در مورد Open-Sora 2.0 عبارتند از:
- Open-Sora 2.0 تنها با 200000 دلار آموزش داده شد که آن را پنج تا ده برابر مقرونبهصرفهتر از مدلهای قابل مقایسه میکند.
- سیستم فیلتر داده سلسله مراتبی، مجموعههای داده ویدیویی را از طریق چندین مرحله پالایش میکند و کارایی آموزش را بهبود میبخشد.
- رمزگذار خودکار Video DC-AE به طور قابل توجهی تعداد توکنها را کاهش میدهد و در عین حال وفاداری بازسازی بالا را حفظ میکند.
- خط لوله آموزشی سه مرحلهای، یادگیری از دادههای با وضوح پایین تا تنظیم دقیق با وضوح بالا را بهینه میکند.
- ارزیابیهای ترجیحی انسانی نشان میدهد که Open-Sora 2.0 در حداقل دو دسته عملکرد از مدلهای اختصاصی و منبع باز پیشرو بهتر عمل میکند.
- این مدل شکاف عملکرد با Sora OpenAI را از 4.52٪ به 0.69٪ در ارزیابیهای VBench کاهش داد.
- بهینهسازیهای پیشرفته سیستم، مانند چکپوینت فعالسازی و آموزش موازی، کارایی GPU را به حداکثر میرساند و سربار سختافزاری را کاهش میدهد.
- Open-Sora 2.0 نشان میدهد که تولید ویدیوی هوش مصنوعی با عملکرد بالا را میتوان با هزینههای کنترلشده به دست آورد و این فناوری را برای محققان و توسعهدهندگان در سراسر جهان در دسترستر قرار داد.
مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به SubReddit 80k+ ML ما بپیوندید.