آیا هنوز به خطوط لوله پیچیده دیداری-زبانی نیاز داریم؟ محققان ByteDance و WHU مدل Pixel-SAIL را معرفی می‌کنند - یک مدل ترانسفورماتور واحد برای درک سطح پیکسل که از MLLMهای 7B بهتر عمل می‌کند

مدل‌های زبان بزرگ چندوجهی (MLLM) اخیراً در رسیدگی به درک بصری دقیق در سطح پیکسل پیشرفت کرده‌اند و به این ترتیب کاربردهای خود را در وظایفی مانند ویرایش و تقسیم‌بندی دقیق مبتنی بر منطقه گسترش داده‌اند. با وجود اثربخشی، بیشتر رویکردهای موجود به شدت به معماری‌های پیچیده متشکل از اجزای جداگانه مانند رمزگذارهای بینایی (به عنوان مثال، CLIP)، شبکه‌های تقسیم‌بندی و ماژول‌های ادغام یا رمزگشایی اضافی متکی هستند. این اتکا به سیستم‌های مدولار، پیچیدگی سیستم را افزایش می‌دهد و مقیاس‌پذیری را محدود می‌کند، به ویژه هنگام انطباق با وظایف جدید. با الهام از معماری‌های یکپارچه که به طور مشترک ویژگی‌های بصری و متنی را با استفاده از یک ترانسفورماتور واحد یاد می‌گیرند، تلاش‌های اخیر طرح‌های ساده‌تری را بررسی کرده‌اند که از اجزای خارجی اجتناب می‌کنند و در عین حال عملکرد قوی را در وظایفی که نیاز به مبنای بصری دقیق و تعامل زبانی دارند، امکان‌پذیر می‌سازند.

از لحاظ تاریخی، مدل‌های دیداری-زبانی از رویکردهای یادگیری متضاد، مانند CLIP و ALIGN، به سمت مدل‌های بزرگ‌مقیاس که به وظایف بازپایان، از جمله پاسخگویی به پرسش‌های بصری و تشخیص نوری کاراکترها رسیدگی می‌کنند، تکامل یافته‌اند. این مدل‌ها معمولاً ویژگی‌های دیداری و زبانی را با تزریق زبان به ترانسفورماتورهای بصری یا با افزودن شبکه‌های تقسیم‌بندی به مدل‌های زبان بزرگ، ادغام می‌کنند. با این حال، چنین روش‌هایی اغلب به مهندسی پیچیده نیاز دارند و به عملکرد زیرماژول‌های منفرد وابسته هستند. تحقیقات اخیر شروع به بررسی طرح‌های بدون رمزگذار کرده‌اند که یادگیری تصویر و متن را در یک ترانسفورماتور واحد متحد می‌کنند و آموزش و استنتاج کارآمدتری را امکان‌پذیر می‌سازند. این رویکردها همچنین به وظایفی مانند تقسیم‌بندی عبارات ارجاعی و درک سریع بصری گسترش یافته‌اند و هدفشان پشتیبانی از استدلال و تعامل در سطح منطقه بدون نیاز به چندین جزء تخصصی است.

محققان ByteDance و WHU، Pixel-SAIL را ارائه می‌کنند، یک چارچوب ترانسفورماتور واحد که برای وظایف چندوجهی در سطح پیکسل طراحی شده است و به رمزگذارهای بینایی اضافی متکی نیست. این مدل سه نوآوری کلیدی را معرفی می‌کند: یک ماژول نمونه‌برداری مجدد قابل یادگیری برای اصلاح ویژگی‌های بصری، یک استراتژی تزریق سریع بصری که اعلان‌ها را به نشانه‌های متنی ترسیم می‌کند، و یک روش تقطیر متخصص بصری برای افزایش کیفیت ماسک. Pixel-SAIL بر روی ترکیبی از تقسیم‌بندی ارجاعی، پاسخگویی به پرسش‌های بصری و مجموعه‌داده‌های سریع بصری آموزش داده می‌شود. این مدل از مدل‌های بزرگ‌تر، مانند GLaMM (7B) و OMG-LLaVA (7B)، در پنج معیار، از جمله PerBench پیشنهادی جدید، عملکرد بهتری دارد، در حالی که معماری به طور قابل توجهی ساده‌تری را حفظ می‌کند.

Pixel-SAIL، یک مدل ترانسفورماتور واحد ساده و در عین حال مؤثر برای وظایف دیداری-زبانی با دانه‌بندی دقیق، نیاز به رمزگذارهای بینایی جداگانه را از بین می‌برد. آنها ابتدا یک پایه MLLM بدون رمزگذار ساده طراحی می‌کنند و محدودیت‌های آن را در کیفیت تقسیم‌بندی و درک سریع بصری شناسایی می‌کنند. برای غلبه بر این محدودیت‌ها، Pixel-SAIL موارد زیر را معرفی می‌کند: (1) یک ماژول نمونه‌برداری مجدد قابل یادگیری برای بازیابی ویژگی‌های با وضوح بالا، (2) یک تکنیک تزریق سریع بصری که ادغام زودهنگام با نشانه‌های بینایی را امکان‌پذیر می‌سازد، و (3) یک استراتژی تقطیر ویژگی متراکم با استفاده از مدل‌های متخصص مانند Mask2Former و SAM2. آنها همچنین PerBench را معرفی می‌کنند، یک معیار جدید که به ارزیابی عنوان‌نویسی شی، درک سریع بصری و تقسیم‌بندی V-T RES در 1500 مثال حاشیه‌نویسی‌شده می‌پردازد.

این آزمایش، مدل Pixel-SAIL را بر روی معیارهای مختلف با استفاده از معماری‌های SOLO و EVEv2 اصلاح‌شده ارزیابی می‌کند و اثربخشی آن را در وظایف تقسیم‌بندی و سریع بصری نشان می‌دهد. Pixel-SAIL به طور قابل توجهی از سایر مدل‌ها، از جمله متخصصان تقسیم‌بندی، با امتیازهای cIoU بالاتر در مجموعه‌داده‌هایی مانند RefCOCO و gRefCOCO، عملکرد بهتری دارد. افزایش مقیاس اندازه مدل از 0.5B به 3B منجر به بهبود بیشتر می‌شود. مطالعات ابلیشن نشان می‌دهد که گنجاندن مکانیسم‌های سریع بصری، مقیاس‌بندی داده‌ها و استراتژی‌های تقطیر، عملکرد را افزایش می‌دهد. تجزیه و تحلیل تجسم نشان می‌دهد که ویژگی‌های تصویر و ماسک Pixel-SAIL متراکم‌تر و متنوع‌تر هستند و در نتیجه نتایج تقسیم‌بندی بهبود می‌یابد.

تصویرسازی نتایج Pixel-SAIL

در نتیجه، Pixel-SAIL، یک MLLM ساده‌شده برای وظایف مبتنی بر پیکسل، بدون نیاز به اجزای اضافی مانند رمزگذارهای بینایی یا مدل‌های تقسیم‌بندی، به عملکرد قوی دست می‌یابد. این مدل سه نوآوری کلیدی را شامل می‌شود: یک ماژول نمونه‌برداری مجدد قابل یادگیری، یک استراتژی رمزگذاری سریع بصری و تقطیر متخصص بصری برای استخراج ویژگی‌های بهبودیافته. Pixel-SAIL بر روی چهار معیار تقسیم‌بندی ارجاعی و یک معیار جدید و چالش‌برانگیز، PerBench، که شامل وظایفی مانند توصیف شی، پرسش و پاسخ مبتنی بر سریع بصری و تقسیم‌بندی ارجاعی است، ارزیابی می‌شود. نتایج نشان می‌دهد که Pixel-SAIL به همان خوبی یا بهتر از مدل‌های موجود، با معماری ساده‌تر، عمل می‌کند.


مقاله Paper را بررسی کنید. همچنین، فراموش نکنید که ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید که به 90k+ زیرمجموعه ML ما بپیوندید.

🔥 [ثبت‌نام کنید] کنفرانس مجازی miniCON در مورد هوش مصنوعی فعال: ثبت‌نام رایگان + گواهی حضور + رویداد کوتاه 4 ساعته (21 مه، 9 صبح تا 1 بعد از ظهر به وقت PST) + کارگاه عملی