مدلهای زبانی بزرگ (LLMs) قابلیتهای چشمگیری در وظایف استدلالی مانند زنجیره-تفکر (CoT) نشان دادهاند که دقت و تفسیرپذیری را در حل مسائل پیچیده افزایش میدهد. در حالی که محققان در حال گسترش این قابلیتها به حوزههای چندوجهی هستند، ویدئوها به دلیل بُعد زمانی خود چالشهای منحصر به فردی را ایجاد میکنند. برخلاف تصاویر ثابت، ویدئوها نیازمند درک تعاملات پویا در طول زمان هستند. روشهای کنونی CoT بصری با ورودیهای ثابت به خوبی عمل میکنند اما با محتوای ویدئویی مشکل دارند زیرا نمیتوانند به صراحت لحظات خاصی را در دنبالهها مکانیابی یا بازبینی کنند. انسانها با تجزیه مسائل پیچیده، شناسایی و بازبینی لحظات کلیدی و ترکیب مشاهدات در پاسخهای منسجم بر این چالشها غلبه میکنند. این رویکرد نیاز به سیستمهای هوش مصنوعی برای مدیریت چندین قابلیت استدلال را برجسته میکند.
پیشرفتهای اخیر در درک ویدئو وظایفی مانند تولید زیرنویس و پاسخ به سؤال را بهبود بخشیده است، اما مدلها اغلب فاقد تطابق بصری-زمینی و تفسیرپذیری هستند، به خصوص برای ویدئوهای طولانی. زمینهیابی زمانی ویدئو (Video Temporal Grounding) با نیاز به مکانیابی دقیق به این موضوع میپردازد. مدلهای چندوجهی بزرگ که با تنظیم دقیق دستورالعملهای نظارت شده آموزش دیدهاند، با وظایف استدلال پیچیده دست و پنجه نرم میکنند. دو رویکرد عمده برای رفع این محدودیتها پدید آمده است: رابطهای مبتنی بر عامل و پارادایمهای استدلال مبتنی بر متن خالص که نمونه آن فرآیندهای CoT است. علاوه بر این، تکنیکهای جستجوی زمان استنتاج در حوزههایی مانند رباتیک، بازیها و ناوبری با اجازه دادن به مدلها برای پالایش مکرر خروجیها بدون تغییر وزنهای زیربنایی، ارزشمند هستند.
پژوهشگران از دانشگاه پلیتکنیک هنگ کنگ و آزمایشگاه Show در دانشگاه ملی سنگاپور، VideoMind را پیشنهاد کردهاند؛ یک عامل زبان-ویدئو که برای درک ویدئوی زمانبندیشده طراحی شده است. VideoMind دو نوآوری کلیدی را برای مقابله با چالشهای استدلال ویدئویی معرفی میکند. اول، قابلیتهای ضروری برای استدلال زمانی ویدئو را شناسایی کرده و یک گردش کار عاملی مبتنی بر نقش با اجزای تخصصی پیادهسازی میکند: یک برنامهریز، یک زمینهیاب، یک تأییدکننده و یک پاسخدهنده. دوم، یک استراتژی زنجیره-LoRA (Chain-of-LoRA) را پیشنهاد میکند که تعویض نقش یکپارچه را از طریق آداپتورهای سبک LoRA امکانپذیر میسازد و از سربار چندین مدل جلوگیری میکند در حالی که تعادل بین کارایی و انعطافپذیری را حفظ میکند. آزمایشها بر روی ۱۴ معیار عمومی، عملکرد پیشرفتهای را در وظایف متنوع درک ویدئو نشان میدهند.
VideoMind بر پایه Qwen2-VL ساخته شده است و یک ستون فقرات LLM را با یک رمزگذار بصری مبتنی بر ViT ترکیب میکند که قادر به پردازش ورودیهای با وضوح پویا است. نوآوری اصلی آن استراتژی زنجیره-LoRA است که به صورت پویا آداپتورهای LoRA مختص نقش را در طول استنتاج از طریق فراخوانی خودکار فعال میکند. علاوه بر این، شامل چهار جزء تخصصی است: (الف) برنامهریز، که تمام نقشهای دیگر را هماهنگ میکند و بر اساس پرسوجو تعیین میکند که کدام تابع بعداً فراخوانی شود، (ب) زمینهیاب، که لحظات مرتبط را با شناسایی مُهرهای زمانی شروع و پایان بر اساس پرسوجوهای متنی مکانیابی میکند، (ج) تأییدکننده، که پاسخهای دوتایی ("بله"/"خیر") برای اعتبارسنجی بازههای زمانی ارائه میدهد و (د) پاسخدهنده، که پاسخها را بر اساس بخشهای ویدئویی برشخورده شناساییشده توسط زمینهیاب یا کل ویدئو (زمانی که پاسخدهی مستقیم مناسبتر است) تولید میکند.
در معیارهای زمینهیابی، مدل سبکوزن 2B VideoMind از بیشتر مدلهای مقایسه شده، از جمله InternVL2-78B و Claude-3.5-Sonnet، عملکرد بهتری دارد و تنها GPT-4o نتایج برتری نشان میدهد. با این حال، نسخه 7B VideoMind حتی از GPT-4o نیز پیشی میگیرد و به عملکرد کلی رقابتی دست مییابد. در معیار NExT-GQA، مدل 2B با مدلهای 7B پیشرفته در هر دو رویکرد مبتنی بر عامل و انتها به انتها برابری میکند و با راهحلهای غنی از متن و مبتنی بر عامل مانند LLoVi، LangRepo و SeViLA مقایسه مطلوبی دارد. VideoMind قابلیتهای استثنایی در حالت آزمون صفر-شات (zero-shot) نشان میدهد، از تمام روشهای زمینهیابی زمانی مبتنی بر LLM بهتر عمل میکند و نتایج رقابتی در مقایسه با متخصصان زمینهیابی زمانی تنظیم دقیق شده به دست میآورد. علاوه بر این، VideoMind در وظایف عمومی پرسش و پاسخ ویدئویی در Video-MME (Long)، MLVU و LVBench برتری دارد و مکانیابی مؤثر بخشهای کلیدی را قبل از پاسخ به سؤالات نشان میدهد.
در این مقاله، محققان VideoMind را معرفی کردند که پیشرفت قابل توجهی در استدلال ویدئویی زمانبندیشده است. این سیستم چالشهای پیچیده درک ویدئو را از طریق گردش کار عاملی، ترکیب یک برنامهریز، زمینهیاب، تأییدکننده، پاسخدهنده و یک استراتژی کارآمد زنجیره-LoRA برای تعویض نقش، برطرف میکند. آزمایشها در سه حوزه کلیدی، پرسش و پاسخ ویدئویی زمینهمند، زمینهیابی زمانی ویدئو و پرسش و پاسخ ویدئویی عمومی، اثربخشی VideoMind را برای وظایف استدلال ویدئویی طولانی که در آن پاسخهای دقیق و مبتنی بر شواهد ارائه میدهد، تأیید میکنند. این کار پایهای برای توسعههای آینده در عاملهای ویدئویی چندوجهی و قابلیتهای استدلال ایجاد میکند و مسیرهای جدیدی را برای سیستمهای پیچیدهتر درک ویدئو باز میکند.
مقاله و صفحه پروژه را بررسی کنید. تمام اعتبار این پژوهش متعلق به محققان این پروژه است. همچنین، آزادانه ما را در توییتر دنبال کنید و فراموش نکنید به انجمن ردیت +۸۵ هزار نفری یادگیری ماشین ما بپیوندید.