VideoMind: یک عامل مبتنی بر نقش برای درک ویدئوی زمان‌بندی‌شده

مدل‌های زبانی بزرگ (LLMs) قابلیت‌های چشمگیری در وظایف استدلالی مانند زنجیره-تفکر (CoT) نشان داده‌اند که دقت و تفسیرپذیری را در حل مسائل پیچیده افزایش می‌دهد. در حالی که محققان در حال گسترش این قابلیت‌ها به حوزه‌های چندوجهی هستند، ویدئوها به دلیل بُعد زمانی خود چالش‌های منحصر به فردی را ایجاد می‌کنند. برخلاف تصاویر ثابت، ویدئوها نیازمند درک تعاملات پویا در طول زمان هستند. روش‌های کنونی CoT بصری با ورودی‌های ثابت به خوبی عمل می‌کنند اما با محتوای ویدئویی مشکل دارند زیرا نمی‌توانند به صراحت لحظات خاصی را در دنباله‌ها مکان‌یابی یا بازبینی کنند. انسان‌ها با تجزیه مسائل پیچیده، شناسایی و بازبینی لحظات کلیدی و ترکیب مشاهدات در پاسخ‌های منسجم بر این چالش‌ها غلبه می‌کنند. این رویکرد نیاز به سیستم‌های هوش مصنوعی برای مدیریت چندین قابلیت استدلال را برجسته می‌کند.

پیشرفت‌های اخیر در درک ویدئو وظایفی مانند تولید زیرنویس و پاسخ به سؤال را بهبود بخشیده است، اما مدل‌ها اغلب فاقد تطابق بصری-زمینی و تفسیرپذیری هستند، به خصوص برای ویدئوهای طولانی. زمینه‌یابی زمانی ویدئو (Video Temporal Grounding) با نیاز به مکان‌یابی دقیق به این موضوع می‌پردازد. مدل‌های چندوجهی بزرگ که با تنظیم دقیق دستورالعمل‌های نظارت شده آموزش دیده‌اند، با وظایف استدلال پیچیده دست و پنجه نرم می‌کنند. دو رویکرد عمده برای رفع این محدودیت‌ها پدید آمده است: رابط‌های مبتنی بر عامل و پارادایم‌های استدلال مبتنی بر متن خالص که نمونه آن فرآیندهای CoT است. علاوه بر این، تکنیک‌های جستجوی زمان استنتاج در حوزه‌هایی مانند رباتیک، بازی‌ها و ناوبری با اجازه دادن به مدل‌ها برای پالایش مکرر خروجی‌ها بدون تغییر وزن‌های زیربنایی، ارزشمند هستند.

پژوهشگران از دانشگاه پلی‌تکنیک هنگ کنگ و آزمایشگاه Show در دانشگاه ملی سنگاپور، VideoMind را پیشنهاد کرده‌اند؛ یک عامل زبان-ویدئو که برای درک ویدئوی زمان‌بندی‌شده طراحی شده است. VideoMind دو نوآوری کلیدی را برای مقابله با چالش‌های استدلال ویدئویی معرفی می‌کند. اول، قابلیت‌های ضروری برای استدلال زمانی ویدئو را شناسایی کرده و یک گردش کار عاملی مبتنی بر نقش با اجزای تخصصی پیاده‌سازی می‌کند: یک برنامه‌ریز، یک زمینه‌یاب، یک تأییدکننده و یک پاسخ‌دهنده. دوم، یک استراتژی زنجیره-LoRA (Chain-of-LoRA) را پیشنهاد می‌کند که تعویض نقش یکپارچه را از طریق آداپتورهای سبک LoRA امکان‌پذیر می‌سازد و از سربار چندین مدل جلوگیری می‌کند در حالی که تعادل بین کارایی و انعطاف‌پذیری را حفظ می‌کند. آزمایش‌ها بر روی ۱۴ معیار عمومی، عملکرد پیشرفته‌ای را در وظایف متنوع درک ویدئو نشان می‌دهند.

VideoMind بر پایه Qwen2-VL ساخته شده است و یک ستون فقرات LLM را با یک رمزگذار بصری مبتنی بر ViT ترکیب می‌کند که قادر به پردازش ورودی‌های با وضوح پویا است. نوآوری اصلی آن استراتژی زنجیره-LoRA است که به صورت پویا آداپتورهای LoRA مختص نقش را در طول استنتاج از طریق فراخوانی خودکار فعال می‌کند. علاوه بر این، شامل چهار جزء تخصصی است: (الف) برنامه‌ریز، که تمام نقش‌های دیگر را هماهنگ می‌کند و بر اساس پرس‌وجو تعیین می‌کند که کدام تابع بعداً فراخوانی شود، (ب) زمینه‌یاب، که لحظات مرتبط را با شناسایی مُهرهای زمانی شروع و پایان بر اساس پرس‌وجوهای متنی مکان‌یابی می‌کند، (ج) تأییدکننده، که پاسخ‌های دوتایی ("بله"/"خیر") برای اعتبارسنجی بازه‌های زمانی ارائه می‌دهد و (د) پاسخ‌دهنده، که پاسخ‌ها را بر اساس بخش‌های ویدئویی برش‌خورده شناسایی‌شده توسط زمینه‌یاب یا کل ویدئو (زمانی که پاسخ‌دهی مستقیم مناسب‌تر است) تولید می‌کند.

در معیارهای زمینه‌یابی، مدل سبک‌وزن 2B VideoMind از بیشتر مدل‌های مقایسه شده، از جمله InternVL2-78B و Claude-3.5-Sonnet، عملکرد بهتری دارد و تنها GPT-4o نتایج برتری نشان می‌دهد. با این حال، نسخه 7B VideoMind حتی از GPT-4o نیز پیشی می‌گیرد و به عملکرد کلی رقابتی دست می‌یابد. در معیار NExT-GQA، مدل 2B با مدل‌های 7B پیشرفته در هر دو رویکرد مبتنی بر عامل و انتها به انتها برابری می‌کند و با راه‌حل‌های غنی از متن و مبتنی بر عامل مانند LLoVi، LangRepo و SeViLA مقایسه مطلوبی دارد. VideoMind قابلیت‌های استثنایی در حالت آزمون صفر-شات (zero-shot) نشان می‌دهد، از تمام روش‌های زمینه‌یابی زمانی مبتنی بر LLM بهتر عمل می‌کند و نتایج رقابتی در مقایسه با متخصصان زمینه‌یابی زمانی تنظیم دقیق شده به دست می‌آورد. علاوه بر این، VideoMind در وظایف عمومی پرسش و پاسخ ویدئویی در Video-MME (Long)، MLVU و LVBench برتری دارد و مکان‌یابی مؤثر بخش‌های کلیدی را قبل از پاسخ به سؤالات نشان می‌دهد.

در این مقاله، محققان VideoMind را معرفی کردند که پیشرفت قابل توجهی در استدلال ویدئویی زمان‌بندی‌شده است. این سیستم چالش‌های پیچیده درک ویدئو را از طریق گردش کار عاملی، ترکیب یک برنامه‌ریز، زمینه‌یاب، تأییدکننده، پاسخ‌دهنده و یک استراتژی کارآمد زنجیره-LoRA برای تعویض نقش، برطرف می‌کند. آزمایش‌ها در سه حوزه کلیدی، پرسش و پاسخ ویدئویی زمینه‌مند، زمینه‌یابی زمانی ویدئو و پرسش و پاسخ ویدئویی عمومی، اثربخشی VideoMind را برای وظایف استدلال ویدئویی طولانی که در آن پاسخ‌های دقیق و مبتنی بر شواهد ارائه می‌دهد، تأیید می‌کنند. این کار پایه‌ای برای توسعه‌های آینده در عامل‌های ویدئویی چندوجهی و قابلیت‌های استدلال ایجاد می‌کند و مسیرهای جدیدی را برای سیستم‌های پیچیده‌تر درک ویدئو باز می‌کند.


مقاله و صفحه پروژه را بررسی کنید. تمام اعتبار این پژوهش متعلق به محققان این پروژه است. همچنین، آزادانه ما را در توییتر دنبال کنید و فراموش نکنید به انجمن ردیت +۸۵ هزار نفری یادگیری ماشین ما بپیوندید.