تصاویری از مقاله 'VideoPainter: ترمیم ویدیو با هر طول و ویرایش با کنترل زمینه Plug-and-Play'.
تصاویری از مقاله 'VideoPainter: ترمیم ویدیو با هر طول و ویرایش با کنترل زمینه Plug-and-Play'.

مسیر به سوی ویرایش ویدیویی بهتر مبتنی بر هوش مصنوعی

شمای خط لوله ساخت مجموعه داده. منبع: https://arxiv.org/pdf/2503.05639
<em>شمای خط لوله ساخت مجموعه داده.</em> منبع: <a href="https://arxiv.org/pdf/2503.05639">https://arxiv.org/pdf/2503.05639</a>
محققان بر فقدان عنوان‌گذاری ویدیو در مجموعه‌های قابل مقایسه تأکید می‌کنند.
<em>محققان بر فقدان عنوان‌گذاری ویدیو در مجموعه‌های قابل مقایسه تأکید می‌کنند.</em>
شمای مفهومی برای VideoPainter. رمزگذار زمینه VideoPainter، نهان‌های پر سر و صدا، ماسک‌های نمونه‌برداری شده و نهان‌های ویدیوی ماسک‌شده را از طریق VAE پردازش می‌کند، و تنها نشانه‌های پس‌زمینه را در DiT از پیش آموزش‌دیده ادغام می‌کند تا از ابهام جلوگیری شود. ID Resample Adapter با به هم پیوستن نشانه‌های منطقه ماسک‌شده در طول آموزش و نمونه‌برداری مجدد آن‌ها از کلیپ‌های قبلی در طول استنتاج، از سازگاری هویت اطمینان می‌دهد.
<em>شمای مفهومی برای VideoPainter. رمزگذار زمینه VideoPainter، نهان‌های پر سر و صدا، ماسک‌های نمونه‌برداری شده و نهان‌های ویدیوی ماسک‌شده را از طریق VAE پردازش می‌کند، و تنها نشانه‌های پس‌زمینه را در DiT از پیش آموزش‌دیده ادغام می‌کند تا از ابهام جلوگیری شود. ID Resample Adapter با به هم پیوستن نشانه‌های منطقه ماسک‌شده در طول آموزش و نمونه‌برداری مجدد آن‌ها از کلیپ‌های قبلی در طول استنتاج، از سازگاری هویت اطمینان می‌دهد.</em>
مقایسه کمی VideoPainter در مقابل ProPainter، COCOCO و Cog-Inp در VPBench (ماسک‌های تقسیم‌بندی) و Davis (ماسک‌های تصادفی). معیارها حفظ منطقه ماسک‌شده، تراز متن و کیفیت ویدیو را پوشش می‌دهند. قرمز = بهترین، آبی = دومین بهترین.
<em>مقایسه کمی VideoPainter در مقابل ProPainter، COCOCO و Cog-Inp در VPBench (ماسک‌های تقسیم‌بندی) و Davis (ماسک‌های تصادفی). معیارها حفظ منطقه ماسک‌شده، تراز متن و کیفیت ویدیو را پوشش می‌دهند. قرمز = بهترین، آبی = دومین بهترین.</em>
مقایسه در برابر روش‌های ترمیم در چارچوب‌های قبلی.
<em>مقایسه در برابر روش‌های ترمیم در چارچوب‌های قبلی.</em>
ارزیابی کمی برای ویرایش ویدیو. ارزیابی شامل معیارهای همسویی DISTS و CLIP.
<em>ارزیابی کمی برای ویرایش ویدیو. ارزیابی شامل معیارهای همسویی DISTS و CLIP.</em>
نمونه‌هایی از نتایج ویرایش ویدیو. این جدول تبدیل ویدیو را از یک فرد به فرد دیگر با حفظ پس‌زمینه و تراز متن نشان می‌دهد.
<em>نمونه‌هایی از نتایج ویرایش ویدیو. این جدول تبدیل ویدیو را از یک فرد به فرد دیگر با حفظ پس‌زمینه و تراز متن نشان می‌دهد.</em>

بخش تحقیقات سنتز ویدیو/تصویر به طور منظم معماری‌های ویرایش ویدیو را ارائه می‌دهد*، و در طول نه ماه گذشته، این نوع خروجی‌ها حتی مکررتر شده‌اند. با این حال، بیشتر آن‌ها تنها پیشرفت‌های تدریجی در وضعیت هنر هستند، زیرا چالش‌های اصلی اساسی هستند.

با این وجود، همکاری جدید بین چین و ژاپن در این هفته، مثال‌هایی را ارائه داده است که شایسته بررسی دقیق‌تر رویکرد هستند، حتی اگر لزوماً یک اثر برجسته نباشد.

در کلیپ ویدیویی زیر (از سایت پروژه مرتبط با مقاله، که هشدار داده می‌شود ممکن است مرورگر شما را تحت فشار قرار دهد) می‌بینیم که در حالی که قابلیت‌های دیپ‌فیکینگ سیستم در پیکربندی فعلی وجود ندارد، سیستم کار خوبی را در تغییر معقول و قابل توجه هویت زن جوان در تصویر، بر اساس یک ماسک ویدیو (پایین-چپ) انجام می‌دهد:

برای پخش کلیک کنید. بر اساس ماسک تقسیم‌بندی معنایی که در پایین سمت چپ تجسم شده است، زن اصلی (بالا سمت چپ) به یک هویت قابل توجه متفاوت تبدیل می‌شود، حتی اگر این فرآیند به تبادل هویتی که در درخواست نشان داده شده است، دست نیابد. منبع: https://yxbian23.github.io/project/video-painter/ (آگاه باشید که در زمان نوشتن، این سایت پر از پخش خودکار و ویدیو تمایل داشت مرورگر من را خراب کند). لطفاً برای وضوح و جزئیات بهتر به ویدیوهای منبع مراجعه کنید، اگر می‌توانید به آن‌ها دسترسی داشته باشید، یا مثال‌ها را در ویدیوی بررسی اجمالی پروژه در https://www.youtube.com/watch?v=HYzNfsD3A0s بررسی کنید.

ویرایش مبتنی بر ماسک از این نوع به خوبی در مدل‌های انتشار پنهان ایستا، با استفاده از ابزارهایی مانند ControlNet به خوبی تثبیت شده است. با این حال، حفظ سازگاری پس‌زمینه در ویدیو بسیار چالش‌برانگیزتر است، حتی زمانی که مناطق ماسک‌شده به مدل انعطاف‌پذیری خلاقانه می‌دهند، همانطور که در زیر نشان داده شده است:

برای پخش کلیک کنید. تغییر گونه، با روش جدید VideoPainter. لطفاً برای وضوح و جزئیات بهتر به ویدیوهای منبع مراجعه کنید، اگر می‌توانید به آن‌ها دسترسی داشته باشید، یا مثال‌ها را در ویدیوی بررسی اجمالی پروژه در https://www.youtube.com/watch?v=HYzNfsD3A0s بررسی کنید.

نویسندگان اثر جدید روش خود را هم در رابطه با معماری BrushNet خود Tencent (که سال گذشته پوشش دادیم )، و هم با ControlNet در نظر می‌گیرند، که هر دو به یک معماری دو شاخه می‌پردازند که قادر به جداسازی تولید پیش‌زمینه و پس‌زمینه است.

با این حال، اعمال مستقیم این روش به رویکرد بسیار پربار Diffusion Transformers (DiT) که توسط Sora OpenAI پیشنهاد شده است، چالش‌های خاصی را به همراه دارد، همانطور که نویسندگان اشاره می‌کنند:

'[به طور مستقیم] اعمال [معماری BrushNet و ControlNet] به ویدیوی DiTها چالش‌های متعددی را ارائه می‌دهد: [اولاً، با توجه به] پایه تولیدی قوی و اندازه مدل سنگین ویدیوی DiT، تکرار ستون فقرات کامل/نیمه غول پیکر ویدیوی DiT به عنوان رمزگذار زمینه غیر ضروری و از نظر محاسباتی بازدارنده خواهد بود.

'[ثانیاً، برخلاف] شاخه کنترل کانولوشن خالص BrushNet، نشانه‌های DiT در مناطق ماسک‌شده به دلیل توجه جهانی ذاتاً حاوی اطلاعات پس‌زمینه هستند، که تمایز بین مناطق ماسک‌شده و غیرماسک‌شده در ستون فقرات DiT را پیچیده می‌کند.

'[در نهایت،] ControlNet فاقد تزریق ویژگی در تمام لایه‌ها است، که کنترل پس‌زمینه متراکم را برای وظایف ترمیم مانع می‌شود.'

بنابراین، محققان یک رویکرد plug-and-play را در قالب یک چارچوب دو شاخه با عنوان VideoPainter توسعه داده‌اند.

VideoPainter یک چارچوب ترمیم ویدیوی دو شاخه ارائه می‌دهد که DiTهای از پیش آموزش‌دیده را با یک رمزگذار زمینه سبک وزن افزایش می‌دهد. این رمزگذار تنها 6 درصد از پارامترهای ستون فقرات را تشکیل می‌دهد، که به گفته نویسندگان، این رویکرد را کارآمدتر از روش‌های مرسوم می‌کند.

این مدل سه نوآوری کلیدی را پیشنهاد می‌کند: یک رمزگذار زمینه ساده‌شده دو لایه برای راهنمایی کارآمد پس‌زمینه؛ یک سیستم یکپارچه‌سازی ویژگی انتخابی ماسک که نشانه‌های ماسک‌شده و غیرماسک‌شده را جدا می‌کند؛ و یک تکنیک نمونه‌برداری مجدد شناسه منطقه ترمیم که سازگاری هویت را در طول سکانس‌های ویدیویی طولانی حفظ می‌کند.

با مسدود کردن هم DiT از پیش آموزش‌دیده و هم رمزگذار زمینه در حالی که یک ID-Adapter را معرفی می‌کند، VideoPainter تضمین می‌کند که نشانه‌های منطقه ترمیم از کلیپ‌های قبلی در طول یک ویدیو باقی می‌مانند، و سوسو زدن و ناسازگاری‌ها را کاهش می‌دهد.

این چارچوب همچنین برای سازگاری plug-and-play طراحی شده است، و به کاربران اجازه می‌دهد تا آن را به طور یکپارچه در جریان‌های کاری موجود تولید و ویرایش ویدیو ادغام کنند.

برای پشتیبانی از این کار، که از CogVideo-5B-I2V به عنوان موتور تولیدی خود استفاده می‌کند، نویسندگان آنچه را که بزرگترین مجموعه داده ترمیم ویدیو تا به امروز می‌نامند، گردآوری کرده‌اند. این مجموعه با عنوان VPData ، شامل بیش از 390،000 کلیپ است، برای مدت زمان ویدیویی کل بیش از 886 ساعت. آن‌ها همچنین یک چارچوب معیار مرتبط با عنوان VPBench توسعه دادند.

برای پخش کلیک کنید. از مثال‌های وب‌سایت پروژه، قابلیت‌های تقسیم‌بندی را می‌بینیم که توسط مجموعه VPData و مجموعه آزمون VPBench پشتیبانی می‌شوند. لطفاً برای وضوح و جزئیات بهتر به ویدیوهای منبع مراجعه کنید، اگر می‌توانید به آن‌ها دسترسی داشته باشید، یا مثال‌ها را در ویدیوی بررسی اجمالی پروژه در https://www.youtube.com/watch?v=HYzNfsD3A0s بررسی کنید.

اثر جدید با عنوان VideoPainter: ترمیم ویدیو با هر طول و ویرایش با کنترل زمینه Plug-and-Play ، از هفت نویسنده در آزمایشگاه Tencent ARC، دانشگاه چینی هنگ کنگ، دانشگاه توکیو و دانشگاه ماکائو آمده است.

علاوه بر سایت پروژه ذکر شده، نویسندگان همچنین یک بررسی اجمالی YouTube در دسترس‌تر و همچنین یک صفحه Hugging Face را منتشر کرده‌اند.

روش

خط لوله جمع‌آوری داده برای VPData شامل جمع‌آوری، حاشیه‌نویسی، تقسیم‌بندی، انتخاب و عنوان‌گذاری است:

dataset construction pipeline
شمای خط لوله ساخت مجموعه داده. منبع: https://arxiv.org/pdf/2503.05639

سپس آن‌ها 860 ساعت ویدیوی بدون حق امتیاز را از اینترنت دانلود کردند و به صورت دستی 20،000 ویدیو را با 239،000 مرجع با کیفیت بالا از یک کتابخانه با بیش از 16 میلیون شناسه برچسب‌گذاری کردند.

این تیم مدل‌های تقسیم‌بندی و تشخیص اشیا را برای شناسایی مناطق نامربوط مانند برچسب‌ها و عناصر نمایش روی صفحه آموزش دادند. این داده‌ها قبل از انتقال به مرحله عنوان‌گذاری پردازش و حذف شدند. نویسندگان اعتراف می‌کنند که مراحل داده‌های آن‌ها از این واقعیت که عنوان‌گذاری معمولاً با ویرایش ویدیو همراه نیست، جلوگیری می‌کند:

captions lack
محققان بر فقدان عنوان‌گذاری ویدیو در مجموعه‌های قابل مقایسه تأکید می‌کنند.

شمای مفهومی برای VideoPainter در زیر نشان داده شده است:

conceptual schema videopainter
شمای مفهومی برای VideoPainter. رمزگذار زمینه VideoPainter، نهان‌های پر سر و صدا، ماسک‌های نمونه‌برداری شده و نهان‌های ویدیوی ماسک‌شده را از طریق VAE پردازش می‌کند، و تنها نشانه‌های پس‌زمینه را در DiT از پیش آموزش‌دیده ادغام می‌کند تا از ابهام جلوگیری شود. ID Resample Adapter با به هم پیوستن نشانه‌های منطقه ماسک‌شده در طول آموزش و نمونه‌برداری مجدد آن‌ها از کلیپ‌های قبلی در طول استنتاج، از سازگاری هویت اطمینان می‌دهد.

آزمایش‌ها

نویسندگان کارایی VideoPainter را با سایر رویکردهای برتر به طور کمی و کیفی ارزیابی کردند. این روش در زمینه بازسازی و ویرایش ویدیو مورد آزمایش قرار گرفت و آزمایش‌های گسترده‌ای برای تعیین عملکرد آن در سناریوهای مختلف انجام شد.

سپس VideoPainter به طور کمی با ProPainter، COCOCO و Cog-Inp در VPBench (ماسک‌های تقسیم‌بندی) و Davis (ماسک‌های تصادفی) مقایسه شد:

table 2-2
مقایسه کمی VideoPainter در مقابل ProPainter، COCOCO و Cog-Inp در VPBench (ماسک‌های تقسیم‌بندی) و Davis (ماسک‌های تصادفی). معیارها حفظ منطقه ماسک‌شده، تراز متن و کیفیت ویدیو را پوشش می‌دهند. قرمز = بهترین، آبی = دومین بهترین.

در اینجا مقایسه‌ای در برابر روش‌های ترمیم در چارچوب‌های قبلی وجود دارد:

fig 5
مقایسه در برابر روش‌های ترمیم در چارچوب‌های قبلی.

این روش ارزیابی کمی برای وظایف ویرایش ویدیو را نشان می‌دهد. ارزیابی شامل معیارهای همسویی DISTS و CLIP است:

table 3
ارزیابی کمی برای ویرایش ویدیو. ارزیابی شامل معیارهای همسویی DISTS و CLIP.

در نهایت، VideoPainter قادر به تبدیل یک فرد در یک ویدیو به فرد دیگری است، در حالی که پس‌زمینه را حفظ می‌کند و تراز متن را حفظ می‌کند:

fig 7
نمونه‌هایی از نتایج ویرایش ویدیو. این جدول تبدیل ویدیو را از یک فرد به فرد دیگر با حفظ پس‌زمینه و تراز متن نشان می‌دهد.

محققان ادعا می‌کنند که این آزمایش‌ها نشان می‌دهد که VideoPainter می‌تواند عملکرد و ثبات بهتری را در سناریوهای مختلف ویرایش و ترمیم ویدیو در مقایسه با رویکردهای برتر ارائه دهد. آزمایش‌ها نشان می‌دهند که سیستم در حفظ کیفیت ویدیو و تراز متن موثر است و در عین حال ویرایش‌های منسجمی را نیز ارائه می‌دهد.

یکی دیگر از نکات برجسته این کار این است که VideoPainter برای کار با طیف وسیعی از ویدیوها از منابع مختلف طراحی شده است. این انعطاف‌پذیری در ایجاد مجموعه‌های داده گسترده جدید حیاتی است و به سازگاری و سودمندی در کاربردهای عملی در دنیای واقعی کمک می‌کند.

با این حال، یک نمایش قوی در سطح پلتفرم، و ارائه کد، به تعیین سطح پذیرش که VideoPainter دریافت خواهد کرد، کمک می‌کند.

نتیجه گیری

VideoPainter نمونه‌ای امیدوارکننده از پیشرفت در زمینه ویرایش ویدیوهای هوش مصنوعی است. نویسندگان رویکردی خلاقانه برای حل برخی از چالش‌های کلیدی مرتبط با ادغام مدل‌های انتشار در ویرایش ویدیو ارائه داده‌اند، و بر حفظ سازگاری و کیفیت در عین ارائه گزینه‌های ویرایشی هموار تأکید کرده‌اند.

به طور کلی، کار بر روی VideoPainter به این مسیر مهم از تحول در ویرایش ویدیو اشاره دارد و می‌تواند منجر به تکنیک‌های پیچیده‌تر و کاربرپسندتر شود.

* لازم به ذکر است که در هر مقاله، به دلیل محدودیت فضای متغیر در یک کتابچه راهنمای گزارش، ما هیچ استراتژی ارائه‌ای جز استفاده از اصطلاح‌های گسترده برای ایجاد طبقه وظیفه ای از این نوع نداریم. از لحاظ تئوری، همه ما می‌توانیم درباره هر زمینه‌ای به طور جداگانه بنویسیم، اما از نظر عملی، چنین چیزی برای هیچ‌کس مفید نخواهد بود (علاوه بر نویسنده). از این گذشته، این یکی از دلایلی است که ما در اینجا به همپوشانی به عنوان چیزی فکر می‌کنیم که باید به‌طور قابل قبولی محدود نگه داشته شود.