چالشها در شرح موضعی برای مدلهای زبان بصری
شرح مناطق خاص درون تصاویر یا ویدیوها همچنان یک چالش مداوم در مدلسازی زبان بصری است. در حالی که مدلهای زبان بصری (VLMs) با هدف کلی در تولید شرحهای سراسری عملکرد خوبی دارند، اغلب در تولید توضیحات دقیق و مختص منطقه کوتاهی میکنند. این محدودیتها در دادههای ویدیویی تشدید میشوند، جایی که مدلها باید پویاییهای زمانی را در نظر بگیرند. موانع اصلی شامل از دست دادن جزئیات دقیق در طول استخراج ویژگیهای بصری، مجموعههای داده حاشیهنویسی ناکافی که برای توضیحات منطقهای طراحی شدهاند، و معیارهای ارزیابی است که خروجیهای دقیق را به دلیل شرحهای مرجع ناقص جریمه میکنند.
Describe Anything 3B - مدلی متناسب با توضیحات موضعی
این کار هوش مصنوعی از NVIDIA، مدل زبانی بزرگ چندوجهی Describe Anything 3B (DAM-3B) را ارائه میدهد که به طور ویژه برای شرح دقیق و موضعی در تصاویر و ویدیوها ساخته شده است. این سیستم که با DAM-3B-Video همراه است، ورودیهایی را میپذیرد که مناطق را از طریق نقاط، جعبههای محدودکننده، خطوط خطی یا ماسکها مشخص میکنند و متن توصیفی مبتنی بر زمینه تولید میکند. این مدل با هر دو ورودی تصویر ثابت و ویدیوی پویا سازگار است و مدلها به طور عمومی از طریق Hugging Face در دسترس هستند.
اجزای اصلی معماری و طراحی مدل
DAM-3B دو نوآوری اصلی را در خود جای داده است: یک prompt کانونی و یک بکبُن بینایی موضعی که با توجه متقابل دروازهای (gated cross-attention) تقویت شده است. Prompt کانونی یک تصویر کامل را با یک برش با وضوح بالا از منطقه هدف ترکیب میکند و هم جزئیات منطقهای و هم زمینه گستردهتر را حفظ میکند. این ورودی دوگانه توسط بکبُن بینایی موضعی پردازش میشود، که ورودیهای تصویر و ماسک را جاسازی میکند و قبل از ارسال آنها به یک مدل زبانی بزرگ، توجه متقابل را برای ترکیب ویژگیهای سراسری و کانونی اعمال میکند. این مکانیسمها بدون افزایش طول توکن ادغام میشوند و کارایی محاسباتی را حفظ میکنند.
DAM-3B-Video این معماری را به توالیهای زمانی با رمزگذاری ماسکهای منطقهای فریم به فریم و ادغام آنها در طول زمان گسترش میدهد. این امکان تولید توضیحات مختص منطقه را برای ویدیوها فراهم میکند، حتی در حضور انسداد یا حرکت.
استراتژی دادههای آموزشی و معیارهای ارزیابی
برای غلبه بر کمبود داده، NVIDIA خط لوله DLC-SDP را توسعه میدهد - یک استراتژی تولید داده نیمه نظارتی. این فرآیند دو مرحلهای از مجموعههای داده تقسیمبندی و تصاویر وبمقیاس بدون برچسب برای انتخاب یک مجموعه آموزشی متشکل از 1.5 میلیون نمونه موضعی استفاده میکند. توضیحات منطقه با استفاده از یک رویکرد خودآموزی اصلاح میشوند و شرحهای با کیفیت بالا تولید میکنند.
برای ارزیابی، تیم DLC-Bench را معرفی میکند، که کیفیت توضیحات را بر اساس صحت سطح ویژگی و نه مقایسههای سخت با شرحهای مرجع ارزیابی میکند. DAM-3B به عملکرد پیشرو در هفت معیار دست مییابد و از خطوط پایه مانند GPT-4o و VideoRefer فراتر میرود. این مدل نتایج قوی در سطح کلمه کلیدی (LVIS، PACO)، سطح عبارت (Flickr30k Entities) و شرح موضعی چند جملهای (Ref-L4، HC-STVG) نشان میدهد. در DLC-Bench، DAM-3B به دقت متوسط 67.3٪ دست مییابد و از سایر مدلها هم در جزئیات و هم در دقت بهتر عمل میکند.
نتیجهگیری
Describe Anything 3B با ترکیب یک معماری آگاه به زمینه با یک خط لوله داده با کیفیت بالا و مقیاسپذیر، به محدودیتهای دیرینه در شرح مختص منطقه میپردازد. توانایی این مدل در توصیف محتوای موضعی در هر دو تصویر و ویدیو، کاربرد گستردهای در زمینههایی مانند ابزارهای دسترسی، رباتیک و تجزیه و تحلیل محتوای ویدیویی دارد. با این انتشار، NVIDIA یک معیار قوی و قابل تکرار برای تحقیقات آینده ارائه میکند و یک جهت فنی اصلاحشده برای نسل بعدی سیستمهای هوش مصنوعی چندوجهی تعیین میکند.