مدلهای زبان بزرگ چندوجهی (MLLM) اخیراً در رسیدگی به درک بصری دقیق در سطح پیکسل پیشرفت کردهاند و به این ترتیب کاربردهای خود را در وظایفی مانند ویرایش و تقسیمبندی دقیق مبتنی بر منطقه گسترش دادهاند. با وجود اثربخشی، بیشتر رویکردهای موجود به شدت به معماریهای پیچیده متشکل از اجزای جداگانه مانند رمزگذارهای بینایی (به عنوان مثال، CLIP)، شبکههای تقسیمبندی و ماژولهای ادغام یا رمزگشایی اضافی متکی هستند. این اتکا به سیستمهای مدولار، پیچیدگی سیستم را افزایش میدهد و مقیاسپذیری را محدود میکند، به ویژه هنگام انطباق با وظایف جدید. با الهام از معماریهای یکپارچه که به طور مشترک ویژگیهای بصری و متنی را با استفاده از یک ترانسفورماتور واحد یاد میگیرند، تلاشهای اخیر طرحهای سادهتری را بررسی کردهاند که از اجزای خارجی اجتناب میکنند و در عین حال عملکرد قوی را در وظایفی که نیاز به مبنای بصری دقیق و تعامل زبانی دارند، امکانپذیر میسازند.
از لحاظ تاریخی، مدلهای دیداری-زبانی از رویکردهای یادگیری متضاد، مانند CLIP و ALIGN، به سمت مدلهای بزرگمقیاس که به وظایف بازپایان، از جمله پاسخگویی به پرسشهای بصری و تشخیص نوری کاراکترها رسیدگی میکنند، تکامل یافتهاند. این مدلها معمولاً ویژگیهای دیداری و زبانی را با تزریق زبان به ترانسفورماتورهای بصری یا با افزودن شبکههای تقسیمبندی به مدلهای زبان بزرگ، ادغام میکنند. با این حال، چنین روشهایی اغلب به مهندسی پیچیده نیاز دارند و به عملکرد زیرماژولهای منفرد وابسته هستند. تحقیقات اخیر شروع به بررسی طرحهای بدون رمزگذار کردهاند که یادگیری تصویر و متن را در یک ترانسفورماتور واحد متحد میکنند و آموزش و استنتاج کارآمدتری را امکانپذیر میسازند. این رویکردها همچنین به وظایفی مانند تقسیمبندی عبارات ارجاعی و درک سریع بصری گسترش یافتهاند و هدفشان پشتیبانی از استدلال و تعامل در سطح منطقه بدون نیاز به چندین جزء تخصصی است.
محققان ByteDance و WHU، Pixel-SAIL را ارائه میکنند، یک چارچوب ترانسفورماتور واحد که برای وظایف چندوجهی در سطح پیکسل طراحی شده است و به رمزگذارهای بینایی اضافی متکی نیست. این مدل سه نوآوری کلیدی را معرفی میکند: یک ماژول نمونهبرداری مجدد قابل یادگیری برای اصلاح ویژگیهای بصری، یک استراتژی تزریق سریع بصری که اعلانها را به نشانههای متنی ترسیم میکند، و یک روش تقطیر متخصص بصری برای افزایش کیفیت ماسک. Pixel-SAIL بر روی ترکیبی از تقسیمبندی ارجاعی، پاسخگویی به پرسشهای بصری و مجموعهدادههای سریع بصری آموزش داده میشود. این مدل از مدلهای بزرگتر، مانند GLaMM (7B) و OMG-LLaVA (7B)، در پنج معیار، از جمله PerBench پیشنهادی جدید، عملکرد بهتری دارد، در حالی که معماری به طور قابل توجهی سادهتری را حفظ میکند.
Pixel-SAIL، یک مدل ترانسفورماتور واحد ساده و در عین حال مؤثر برای وظایف دیداری-زبانی با دانهبندی دقیق، نیاز به رمزگذارهای بینایی جداگانه را از بین میبرد. آنها ابتدا یک پایه MLLM بدون رمزگذار ساده طراحی میکنند و محدودیتهای آن را در کیفیت تقسیمبندی و درک سریع بصری شناسایی میکنند. برای غلبه بر این محدودیتها، Pixel-SAIL موارد زیر را معرفی میکند: (1) یک ماژول نمونهبرداری مجدد قابل یادگیری برای بازیابی ویژگیهای با وضوح بالا، (2) یک تکنیک تزریق سریع بصری که ادغام زودهنگام با نشانههای بینایی را امکانپذیر میسازد، و (3) یک استراتژی تقطیر ویژگی متراکم با استفاده از مدلهای متخصص مانند Mask2Former و SAM2. آنها همچنین PerBench را معرفی میکنند، یک معیار جدید که به ارزیابی عنواننویسی شی، درک سریع بصری و تقسیمبندی V-T RES در 1500 مثال حاشیهنویسیشده میپردازد.
این آزمایش، مدل Pixel-SAIL را بر روی معیارهای مختلف با استفاده از معماریهای SOLO و EVEv2 اصلاحشده ارزیابی میکند و اثربخشی آن را در وظایف تقسیمبندی و سریع بصری نشان میدهد. Pixel-SAIL به طور قابل توجهی از سایر مدلها، از جمله متخصصان تقسیمبندی، با امتیازهای cIoU بالاتر در مجموعهدادههایی مانند RefCOCO و gRefCOCO، عملکرد بهتری دارد. افزایش مقیاس اندازه مدل از 0.5B به 3B منجر به بهبود بیشتر میشود. مطالعات ابلیشن نشان میدهد که گنجاندن مکانیسمهای سریع بصری، مقیاسبندی دادهها و استراتژیهای تقطیر، عملکرد را افزایش میدهد. تجزیه و تحلیل تجسم نشان میدهد که ویژگیهای تصویر و ماسک Pixel-SAIL متراکمتر و متنوعتر هستند و در نتیجه نتایج تقسیمبندی بهبود مییابد.
در نتیجه، Pixel-SAIL، یک MLLM سادهشده برای وظایف مبتنی بر پیکسل، بدون نیاز به اجزای اضافی مانند رمزگذارهای بینایی یا مدلهای تقسیمبندی، به عملکرد قوی دست مییابد. این مدل سه نوآوری کلیدی را شامل میشود: یک ماژول نمونهبرداری مجدد قابل یادگیری، یک استراتژی رمزگذاری سریع بصری و تقطیر متخصص بصری برای استخراج ویژگیهای بهبودیافته. Pixel-SAIL بر روی چهار معیار تقسیمبندی ارجاعی و یک معیار جدید و چالشبرانگیز، PerBench، که شامل وظایفی مانند توصیف شی، پرسش و پاسخ مبتنی بر سریع بصری و تقسیمبندی ارجاعی است، ارزیابی میشود. نتایج نشان میدهد که Pixel-SAIL به همان خوبی یا بهتر از مدلهای موجود، با معماری سادهتر، عمل میکند.
مقاله Paper را بررسی کنید. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به 90k+ زیرمجموعه ML ما بپیوندید.