انتشار Open-Sora 2.0 توسط HPC-AI Tech: مدل تولید ویدیو متن‌باز SOTA که تنها با 200 هزار دلار آموزش داده شده است

مدل Open-Sora 2.0
مدل Open-Sora 2.0
عملکرد Open-Sora 2.0
عملکرد Open-Sora 2.0

ویدیوهای تولید شده توسط هوش مصنوعی از توضیحات متنی یا تصاویر، پتانسیل عظیمی برای تولید محتوا، تولید رسانه و سرگرمی دارند. پیشرفت‌های اخیر در یادگیری عمیق (Deep Learning)، به ویژه در معماری‌های مبتنی بر ترانسفورمر و مدل‌های انتشار، این پیشرفت را تسریع کرده‌اند. با این حال، آموزش این مدل‌ها همچنان نیازمند منابع فشرده است و به مجموعه‌های داده بزرگ، قدرت محاسباتی گسترده و سرمایه‌گذاری مالی قابل توجهی نیاز دارد. این چالش‌ها دسترسی به فناوری‌های پیشرفته تولید ویدیو را محدود می‌کند و آنها را در درجه اول برای گروه‌های تحقیقاتی و سازمان‌های مجهز به بودجه کافی در دسترس قرار می‌دهد.

آموزش مدل‌های ویدیویی هوش مصنوعی گران و از نظر محاسباتی پرهزینه است. مدل‌های با عملکرد بالا به میلیون‌ها نمونه آموزشی و خوشه‌های قدرتمند GPU نیاز دارند که توسعه آنها را بدون تأمین مالی قابل توجه دشوار می‌کند. مدل‌های بزرگ، مانند Sora OpenAI، کیفیت تولید ویدیو را به ارتفاعات جدیدی ارتقا می‌دهند، اما منابع محاسباتی عظیمی را می‌طلبند. هزینه بالای آموزش، دسترسی به سنتز ویدیویی پیشرفته مبتنی بر هوش مصنوعی را محدود می‌کند و نوآوری را به چند سازمان بزرگ محدود می‌کند. پرداختن به این موانع مالی و فنی برای در دسترس قرار دادن گسترده‌تر تولید ویدیویی هوش مصنوعی و تشویق پذیرش گسترده‌تر ضروری است.

رویکردهای مختلفی برای مدیریت خواسته‌های محاسباتی تولید ویدیویی هوش مصنوعی توسعه یافته‌اند. مدل‌های اختصاصی مانند Runway Gen-3 Alpha دارای معماری‌های بسیار بهینه شده هستند، اما منبع بسته هستند و مشارکت‌های تحقیقاتی گسترده‌تر را محدود می‌کنند. مدل‌های منبع باز مانند HunyuanVideo و Step-Video-T2V شفافیت را ارائه می‌دهند، اما به قدرت محاسباتی قابل توجهی نیاز دارند. بسیاری از آنها برای افزایش کیفیت ویدیو به مجموعه‌های داده گسترده، فشرده‌سازی مبتنی بر رمزگذار خودکار و تکنیک‌های انتشار سلسله مراتبی متکی هستند. با این حال، هر رویکردی با مصالحه‌هایی بین کارایی و عملکرد همراه است. در حالی که برخی از مدل‌ها بر خروجی با وضوح بالا و دقت حرکت تمرکز دارند، برخی دیگر هزینه‌های محاسباتی کمتری را در اولویت قرار می‌دهند و در نتیجه سطوح عملکرد متفاوتی را در معیارهای ارزیابی ارائه می‌دهند. محققان همچنان به دنبال تعادل بهینه هستند که کیفیت ویدیو را حفظ کند و در عین حال بارهای مالی و محاسباتی را کاهش دهد.

محققان HPC-AI Tech Open-Sora 2.0 را معرفی می‌کنند، یک مدل تولید ویدیوی هوش مصنوعی در سطح تجاری که به عملکردی پیشرفته دست می‌یابد و در عین حال هزینه‌های آموزش را به طور قابل توجهی کاهش می‌دهد. این مدل با سرمایه‌گذاری تنها 200000 دلار توسعه یافته است که آن را پنج تا ده برابر مقرون‌به‌صرفه‌تر از مدل‌های رقیب مانند MovieGen و Step-Video-T2V می‌کند. Open-Sora 2.0 برای دموکراتیک کردن تولید ویدیوی هوش مصنوعی با در دسترس قرار دادن فناوری با عملکرد بالا برای مخاطبان گسترده‌تر طراحی شده است. بر خلاف مدل‌های پرهزینه قبلی، این رویکرد چندین نوآوری مبتنی بر کارایی، از جمله بهبود انتخاب داده، یک رمزگذار خودکار پیشرفته، یک چارچوب ترانسفورمر ترکیبی جدید و روش‌های آموزشی بسیار بهینه را ادغام می‌کند.

تیم تحقیق یک سیستم فیلتر داده سلسله مراتبی را پیاده‌سازی کرد که مجموعه‌های داده ویدیویی را به زیرمجموعه‌های با کیفیت بالاتر به طور فزاینده پالایش می‌کند و از کارایی آموزش بهینه اطمینان حاصل می‌کند. یک پیشرفت چشمگیر، معرفی رمزگذار خودکار Video DC-AE بود که فشرده‌سازی ویدیو را بهبود می‌بخشد و در عین حال تعداد توکن‌های مورد نیاز برای نمایش را کاهش می‌دهد. معماری این مدل مکانیسم‌های توجه کامل، پردازش چند جریانی و یک رویکرد ترانسفورمر انتشار ترکیبی را برای افزایش کیفیت ویدیو و دقت حرکت در خود جای داده است. کارایی آموزش از طریق یک خط لوله سه مرحله‌ای به حداکثر رسید: یادگیری متن به ویدیو بر روی داده‌های با وضوح پایین، انطباق تصویر به ویدیو برای بهبود پویایی حرکت و تنظیم دقیق با وضوح بالا. این رویکرد ساختاریافته به مدل اجازه می‌دهد تا الگوهای حرکتی پیچیده و سازگاری فضایی را درک کند و در عین حال کارایی محاسباتی را حفظ کند.

این مدل در ابعاد مختلف آزمایش شد: کیفیت بصری، پایبندی به اعلان و واقع گرایی حرکت. ارزیابی‌های ترجیحی انسانی نشان داد که Open-Sora 2.0 در حداقل دو دسته از رقبای اختصاصی و منبع باز بهتر عمل می‌کند. در ارزیابی‌های VBench، شکاف عملکرد بین Open-Sora و Sora OpenAI از 4.52٪ به تنها 0.69٪ کاهش یافت که نشان دهنده پیشرفت‌های اساسی است. Open-Sora 2.0 همچنین نمره VBench بالاتری نسبت به HunyuanVideo و CogVideo به دست آورد و خود را به عنوان یک رقیب قوی در میان مدل‌های منبع باز فعلی تثبیت کرد. همچنین، این مدل بهینه‌سازی‌های آموزشی پیشرفته مانند پردازش موازی، چکپوینت فعال‌سازی و بازیابی خودکار خرابی را ادغام می‌کند و از عملکرد مداوم و به حداکثر رساندن کارایی GPU اطمینان می‌دهد.

نکات کلیدی از تحقیق در مورد Open-Sora 2.0 عبارتند از:

  1. Open-Sora 2.0 تنها با 200000 دلار آموزش داده شد که آن را پنج تا ده برابر مقرون‌به‌صرفه‌تر از مدل‌های قابل مقایسه می‌کند.
  2. سیستم فیلتر داده سلسله مراتبی، مجموعه‌های داده ویدیویی را از طریق چندین مرحله پالایش می‌کند و کارایی آموزش را بهبود می‌بخشد.
  3. رمزگذار خودکار Video DC-AE به طور قابل توجهی تعداد توکن‌ها را کاهش می‌دهد و در عین حال وفاداری بازسازی بالا را حفظ می‌کند.
  4. خط لوله آموزشی سه مرحله‌ای، یادگیری از داده‌های با وضوح پایین تا تنظیم دقیق با وضوح بالا را بهینه می‌کند.
  5. ارزیابی‌های ترجیحی انسانی نشان می‌دهد که Open-Sora 2.0 در حداقل دو دسته عملکرد از مدل‌های اختصاصی و منبع باز پیشرو بهتر عمل می‌کند.
  6. این مدل شکاف عملکرد با Sora OpenAI را از 4.52٪ به 0.69٪ در ارزیابی‌های VBench کاهش داد.
  7. بهینه‌سازی‌های پیشرفته سیستم، مانند چکپوینت فعال‌سازی و آموزش موازی، کارایی GPU را به حداکثر می‌رساند و سربار سخت‌افزاری را کاهش می‌دهد.
  8. Open-Sora 2.0 نشان می‌دهد که تولید ویدیوی هوش مصنوعی با عملکرد بالا را می‌توان با هزینه‌های کنترل‌شده به دست آورد و این فناوری را برای محققان و توسعه‌دهندگان در سراسر جهان در دسترس‌تر قرار داد.

مقاله و صفحه GitHub را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به SubReddit 80k+ ML ما بپیوندید.