Vision-R1: تعریف مجدد یادگیری تقویتی برای مدل‌های بزرگ دیداری-زبانی

مدل‌های بزرگ دیداری-زبانی (LVLMs) در سال‌های اخیر پیشرفت‌های قابل توجهی داشته‌اند، با این حال چندین محدودیت کلیدی همچنان پابرجاست. یکی از چالش‌های عمده، همسو کردن مؤثر این مدل‌ها با انتظارات انسانی است، به‌ویژه برای وظایفی که شامل اطلاعات بصری دقیق و جزئی می‌شوند. به‌طور سنتی، LVLMها یک پارادایم آموزشی دو مرحله‌ای را طی می‌کنند: پیش‌آموزش و به دنبال آن تنظیم دقیق نظارت‌شده (supervised fine-tuning). با این حال، تنظیم دقیق نظارت‌شده به تنهایی نمی‌تواند به‌طور کامل بر محدودیت‌هایی مانند کمبود و هزینه بالای مرتبط با تولید مجموعه‌داده‌های ترجیحی در مقیاس بزرگ و با حاشیه‌نویسی انسانی غلبه کند. علاوه بر این، روش‌های متداول یادگیری تقویتی (reinforcement learning) به مدل‌های پاداش پرهزینه‌ای نیاز دارند که ممکن است به‌طور کامل ماهیت ظریف و ذهنی بازخورد انسانی را درک نکنند.

تیمی از پژوهشگران چینی Vision-R1 را پیشنهاد می‌کنند: یک الگوریتم یادگیری تقویتی جدید شبیه R1 با هدایت بینایی برای LVLMها که به مدل‌ها با بازخورد قطعی بینایی پاداش می‌دهد. Vision-R1 از داده‌های آموزشی مدیریت‌شده استفاده می‌کند و در نتیجه وابستگی به مدل‌های پاداش تخصصی و مجموعه‌داده‌های ترجیحی دست‌ساز را از بین می‌برد. محور اصلی این روش یک تابع پاداش مبتنی بر معیار (criterion-driven reward function) است که ارزیابی‌های جامعی از تکمیل‌های مدل بر اساس معیارهای وظیفه بصری خاص ارائه می‌دهد. علاوه بر این، یک استراتژی پالایش تدریجی قواعد به کار گرفته شده است که به‌صورت پویا معیارهای پاداش را در طول فرآیند آموزش تنظیم می‌کند. این رویکرد بهبود مداوم عملکرد را تضمین می‌کند، به‌طور مؤثر مسائل مربوط به هک پاداش (reward hacking) را کاهش می‌دهد و مکان‌یابی دقیق‌تر اشیاء را ترویج می‌کند.

الگوریتم Vision-R1 شامل چندین نوآوری فنی حیاتی است. اولاً، تابع پاداش مبتنی بر معیار شامل پاداش‌های با فرمت دوگانه، پاداش‌های بازیابی (recall rewards) و پاداش‌های دقت (precision rewards) است. پاداش‌های با فرمت دوگانه تضمین می‌کنند که خروجی‌ها به‌طور دقیق به محدودیت‌های قالب و محتوا پایبند باشند که برای وظایف قابل اعتماد تشخیص اشیاء ضروری است. پاداش بازیابی بر ظرفیت مدل برای شناسایی تمام نمونه‌های مرتبط تأکید دارد که برای اجتناب از حذف موارد در پیش‌بینی‌ها حیاتی است. پاداش دقت، پیش‌بینی‌های باکیفیت کادر مرزی (bounding box) را با محاسبه میانگین اشتراک بر روی اجتماع (Intersection over Union - IoU) پیش‌بینی‌های معتبر تشویق می‌کند. علاوه بر این، استراتژی پالایش تدریجی قواعد از اصول یادگیری برنامه‌درسی (curriculum learning) الهام گرفته شده است و به‌تدریج دشواری آموزش را از طریق پیشرفت مرحله‌ای و سیاست‌های تمایز افزایش می‌دهد و در نتیجه یادگیری قوی و تعمیم‌یافته را تقویت می‌کند.

آزمایش‌های انجام‌شده با استفاده از دو LVLM پیشرفته، Griffon-G-7B و Qwen2.5-VL-7B، قابلیت‌های قوی Vision-R1 را نشان می‌دهند. نتایج بر روی مجموعه‌داده‌های درون‌دامنه (in-domain) مانند MSCOCO و ODINW-13 بهبودهای عملکرد قابل توجهی را نشان می‌دهد. به‌طور خاص، Vision-R1 نمرات mAP مدل Griffon-G-7B را به‌طور متوسط ۲.۵٪ در وظایف مختلف بهبود می‌بخشد. چشمگیرتر اینکه، Vision-R1 عملکرد Qwen2.5-VL-7B را به‌طور قابل توجهی افزایش می‌دهد، بهبود ۸.۹٪ در وظایف تشخیص اشیاء COCO را نشان می‌دهد و به نمرات برتری نسبت به همتای بزرگتر خود با ۷۲ میلیارد پارامتر دست می‌یابد. در وظایف مکان‌یابی چالش‌برانگیز خارج از دامنه (out-of-domain)، Vision-R1 به‌طور مداوم از تنظیم دقیق نظارت‌شده (SFT) بهتر عمل می‌کند و قابلیت‌های تعمیم قوی و استحکام خود را در سناریوهای پیچیده نشان می‌دهد.

در نتیجه، Vision-R1 یک رویکرد نوآورانه یادگیری تقویتی را معرفی می‌کند که برای LVLMها طراحی شده است و به‌طور مؤثر مسائل همسویی موجود را بدون نیاز به مجموعه‌داده‌های حاشیه‌نویسی شده پرهزینه یا مدل‌سازی پاداش پیچیده برطرف می‌کند. ساختار پاداش مبتنی بر معیار و استراتژی پالایش تدریجی قواعد آن نه تنها دقت و جامعیت وظایف مکان‌یابی اشیاء را افزایش می‌دهد، بلکه به‌طور قابل توجهی تعمیم به سناریوهای دیده‌نشده را نیز بهبود می‌بخشد. ادغام موفقیت‌آمیز Vision-R1 با معماری‌های LVLM معاصر، پتانسیل آن را برای خدمت به عنوان یک روش بنیادی برجسته می‌کند و به‌طور قابل توجهی وضعیت پیشرفته در درک دیداری-زبانی و استقرار عملی در کاربردهای دنیای واقعی را ارتقا می‌دهد.

مقاله و صفحه گیت‌هاب را بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید به انجمن ردیت یادگیری ماشین ما با بیش از ۸۵ هزار عضو بپیوندید.

درباره نویسنده

ثنا حسن، کارآموز مشاوره در Marktechpost و دانشجوی دو رشته‌ای در IIT Madras، علاقه‌مند به کاربرد فناوری و هوش مصنوعی برای پرداختن به چالش‌های دنیای واقعی است. او با علاقه شدید به حل مسائل عملی، دیدگاهی تازه به تقاطع هوش مصنوعی و راه‌حل‌های زندگی واقعی می‌آورد.