نمونه‌ای از خروجی Describe Anything 3B.
نمونه‌ای از خروجی Describe Anything 3B.

انتشار Describe Anything 3B توسط NVIDIA AI: یک مدل زبانی بزرگ چندوجهی برای شرح دقیق تصاویر و ویدیوها

چالش‌ها در شرح موضعی برای مدل‌های زبان بصری

شرح مناطق خاص درون تصاویر یا ویدیوها همچنان یک چالش مداوم در مدل‌سازی زبان بصری است. در حالی که مدل‌های زبان بصری (VLMs) با هدف کلی در تولید شرح‌های سراسری عملکرد خوبی دارند، اغلب در تولید توضیحات دقیق و مختص منطقه کوتاهی می‌کنند. این محدودیت‌ها در داده‌های ویدیویی تشدید می‌شوند، جایی که مدل‌ها باید پویایی‌های زمانی را در نظر بگیرند. موانع اصلی شامل از دست دادن جزئیات دقیق در طول استخراج ویژگی‌های بصری، مجموعه‌های داده حاشیه‌نویسی ناکافی که برای توضیحات منطقه‌ای طراحی شده‌اند، و معیارهای ارزیابی است که خروجی‌های دقیق را به دلیل شرح‌های مرجع ناقص جریمه می‌کنند.

Describe Anything 3B - مدلی متناسب با توضیحات موضعی

این کار هوش مصنوعی از NVIDIA، مدل زبانی بزرگ چندوجهی Describe Anything 3B (DAM-3B) را ارائه می‌دهد که به طور ویژه برای شرح دقیق و موضعی در تصاویر و ویدیوها ساخته شده است. این سیستم که با DAM-3B-Video همراه است، ورودی‌هایی را می‌پذیرد که مناطق را از طریق نقاط، جعبه‌های محدودکننده، خطوط خطی یا ماسک‌ها مشخص می‌کنند و متن توصیفی مبتنی بر زمینه تولید می‌کند. این مدل با هر دو ورودی تصویر ثابت و ویدیوی پویا سازگار است و مدل‌ها به طور عمومی از طریق Hugging Face در دسترس هستند.

اجزای اصلی معماری و طراحی مدل

DAM-3B دو نوآوری اصلی را در خود جای داده است: یک prompt کانونی و یک بک‌بُن بینایی موضعی که با توجه متقابل دروازه‌ای (gated cross-attention) تقویت شده است. Prompt کانونی یک تصویر کامل را با یک برش با وضوح بالا از منطقه هدف ترکیب می‌کند و هم جزئیات منطقه‌ای و هم زمینه گسترده‌تر را حفظ می‌کند. این ورودی دوگانه توسط بک‌بُن بینایی موضعی پردازش می‌شود، که ورودی‌های تصویر و ماسک را جاسازی می‌کند و قبل از ارسال آن‌ها به یک مدل زبانی بزرگ، توجه متقابل را برای ترکیب ویژگی‌های سراسری و کانونی اعمال می‌کند. این مکانیسم‌ها بدون افزایش طول توکن ادغام می‌شوند و کارایی محاسباتی را حفظ می‌کنند.

DAM-3B-Video این معماری را به توالی‌های زمانی با رمزگذاری ماسک‌های منطقه‌ای فریم به فریم و ادغام آن‌ها در طول زمان گسترش می‌دهد. این امکان تولید توضیحات مختص منطقه را برای ویدیوها فراهم می‌کند، حتی در حضور انسداد یا حرکت.

معماری DAM-3B
معماری مدل DAM-3B.

استراتژی داده‌های آموزشی و معیارهای ارزیابی

برای غلبه بر کمبود داده، NVIDIA خط لوله DLC-SDP را توسعه می‌دهد - یک استراتژی تولید داده نیمه نظارتی. این فرآیند دو مرحله‌ای از مجموعه‌های داده تقسیم‌بندی و تصاویر وب‌مقیاس بدون برچسب برای انتخاب یک مجموعه آموزشی متشکل از 1.5 میلیون نمونه موضعی استفاده می‌کند. توضیحات منطقه با استفاده از یک رویکرد خودآموزی اصلاح می‌شوند و شرح‌های با کیفیت بالا تولید می‌کنند.

برای ارزیابی، تیم DLC-Bench را معرفی می‌کند، که کیفیت توضیحات را بر اساس صحت سطح ویژگی و نه مقایسه‌های سخت با شرح‌های مرجع ارزیابی می‌کند. DAM-3B به عملکرد پیشرو در هفت معیار دست می‌یابد و از خطوط پایه مانند GPT-4o و VideoRefer فراتر می‌رود. این مدل نتایج قوی در سطح کلمه کلیدی (LVIS، PACO)، سطح عبارت (Flickr30k Entities) و شرح موضعی چند جمله‌ای (Ref-L4، HC-STVG) نشان می‌دهد. در DLC-Bench، DAM-3B به دقت متوسط 67.3٪ دست می‌یابد و از سایر مدل‌ها هم در جزئیات و هم در دقت بهتر عمل می‌کند.

عملکرد DLC-Bench
عملکرد DAM-3B در DLC-Bench.

نتیجه‌گیری

Describe Anything 3B با ترکیب یک معماری آگاه به زمینه با یک خط لوله داده با کیفیت بالا و مقیاس‌پذیر، به محدودیت‌های دیرینه در شرح مختص منطقه می‌پردازد. توانایی این مدل در توصیف محتوای موضعی در هر دو تصویر و ویدیو، کاربرد گسترده‌ای در زمینه‌هایی مانند ابزارهای دسترسی، رباتیک و تجزیه و تحلیل محتوای ویدیویی دارد. با این انتشار، NVIDIA یک معیار قوی و قابل تکرار برای تحقیقات آینده ارائه می‌کند و یک جهت فنی اصلاح‌شده برای نسل بعدی سیستم‌های هوش مصنوعی چندوجهی تعیین می‌کند.