مدلهای بزرگ دیداری-زبانی (LVLMs) در سالهای اخیر پیشرفتهای قابل توجهی داشتهاند، با این حال چندین محدودیت کلیدی همچنان پابرجاست. یکی از چالشهای عمده، همسو کردن مؤثر این مدلها با انتظارات انسانی است، بهویژه برای وظایفی که شامل اطلاعات بصری دقیق و جزئی میشوند. بهطور سنتی، LVLMها یک پارادایم آموزشی دو مرحلهای را طی میکنند: پیشآموزش و به دنبال آن تنظیم دقیق نظارتشده (supervised fine-tuning). با این حال، تنظیم دقیق نظارتشده به تنهایی نمیتواند بهطور کامل بر محدودیتهایی مانند کمبود و هزینه بالای مرتبط با تولید مجموعهدادههای ترجیحی در مقیاس بزرگ و با حاشیهنویسی انسانی غلبه کند. علاوه بر این، روشهای متداول یادگیری تقویتی (reinforcement learning) به مدلهای پاداش پرهزینهای نیاز دارند که ممکن است بهطور کامل ماهیت ظریف و ذهنی بازخورد انسانی را درک نکنند.
تیمی از پژوهشگران چینی Vision-R1 را پیشنهاد میکنند: یک الگوریتم یادگیری تقویتی جدید شبیه R1 با هدایت بینایی برای LVLMها که به مدلها با بازخورد قطعی بینایی پاداش میدهد. Vision-R1 از دادههای آموزشی مدیریتشده استفاده میکند و در نتیجه وابستگی به مدلهای پاداش تخصصی و مجموعهدادههای ترجیحی دستساز را از بین میبرد. محور اصلی این روش یک تابع پاداش مبتنی بر معیار (criterion-driven reward function) است که ارزیابیهای جامعی از تکمیلهای مدل بر اساس معیارهای وظیفه بصری خاص ارائه میدهد. علاوه بر این، یک استراتژی پالایش تدریجی قواعد به کار گرفته شده است که بهصورت پویا معیارهای پاداش را در طول فرآیند آموزش تنظیم میکند. این رویکرد بهبود مداوم عملکرد را تضمین میکند، بهطور مؤثر مسائل مربوط به هک پاداش (reward hacking) را کاهش میدهد و مکانیابی دقیقتر اشیاء را ترویج میکند.
الگوریتم Vision-R1 شامل چندین نوآوری فنی حیاتی است. اولاً، تابع پاداش مبتنی بر معیار شامل پاداشهای با فرمت دوگانه، پاداشهای بازیابی (recall rewards) و پاداشهای دقت (precision rewards) است. پاداشهای با فرمت دوگانه تضمین میکنند که خروجیها بهطور دقیق به محدودیتهای قالب و محتوا پایبند باشند که برای وظایف قابل اعتماد تشخیص اشیاء ضروری است. پاداش بازیابی بر ظرفیت مدل برای شناسایی تمام نمونههای مرتبط تأکید دارد که برای اجتناب از حذف موارد در پیشبینیها حیاتی است. پاداش دقت، پیشبینیهای باکیفیت کادر مرزی (bounding box) را با محاسبه میانگین اشتراک بر روی اجتماع (Intersection over Union - IoU) پیشبینیهای معتبر تشویق میکند. علاوه بر این، استراتژی پالایش تدریجی قواعد از اصول یادگیری برنامهدرسی (curriculum learning) الهام گرفته شده است و بهتدریج دشواری آموزش را از طریق پیشرفت مرحلهای و سیاستهای تمایز افزایش میدهد و در نتیجه یادگیری قوی و تعمیمیافته را تقویت میکند.
آزمایشهای انجامشده با استفاده از دو LVLM پیشرفته، Griffon-G-7B و Qwen2.5-VL-7B، قابلیتهای قوی Vision-R1 را نشان میدهند. نتایج بر روی مجموعهدادههای دروندامنه (in-domain) مانند MSCOCO و ODINW-13 بهبودهای عملکرد قابل توجهی را نشان میدهد. بهطور خاص، Vision-R1 نمرات mAP مدل Griffon-G-7B را بهطور متوسط ۲.۵٪ در وظایف مختلف بهبود میبخشد. چشمگیرتر اینکه، Vision-R1 عملکرد Qwen2.5-VL-7B را بهطور قابل توجهی افزایش میدهد، بهبود ۸.۹٪ در وظایف تشخیص اشیاء COCO را نشان میدهد و به نمرات برتری نسبت به همتای بزرگتر خود با ۷۲ میلیارد پارامتر دست مییابد. در وظایف مکانیابی چالشبرانگیز خارج از دامنه (out-of-domain)، Vision-R1 بهطور مداوم از تنظیم دقیق نظارتشده (SFT) بهتر عمل میکند و قابلیتهای تعمیم قوی و استحکام خود را در سناریوهای پیچیده نشان میدهد.
در نتیجه، Vision-R1 یک رویکرد نوآورانه یادگیری تقویتی را معرفی میکند که برای LVLMها طراحی شده است و بهطور مؤثر مسائل همسویی موجود را بدون نیاز به مجموعهدادههای حاشیهنویسی شده پرهزینه یا مدلسازی پاداش پیچیده برطرف میکند. ساختار پاداش مبتنی بر معیار و استراتژی پالایش تدریجی قواعد آن نه تنها دقت و جامعیت وظایف مکانیابی اشیاء را افزایش میدهد، بلکه بهطور قابل توجهی تعمیم به سناریوهای دیدهنشده را نیز بهبود میبخشد. ادغام موفقیتآمیز Vision-R1 با معماریهای LVLM معاصر، پتانسیل آن را برای خدمت به عنوان یک روش بنیادی برجسته میکند و بهطور قابل توجهی وضعیت پیشرفته در درک دیداری-زبانی و استقرار عملی در کاربردهای دنیای واقعی را ارتقا میدهد.
مقاله و صفحه گیتهاب را بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید به انجمن ردیت یادگیری ماشین ما با بیش از ۸۵ هزار عضو بپیوندید.
درباره نویسنده
ثنا حسن، کارآموز مشاوره در Marktechpost و دانشجوی دو رشتهای در IIT Madras، علاقهمند به کاربرد فناوری و هوش مصنوعی برای پرداختن به چالشهای دنیای واقعی است. او با علاقه شدید به حل مسائل عملی، دیدگاهی تازه به تقاطع هوش مصنوعی و راهحلهای زندگی واقعی میآورد.