مدلهای بزرگ زبان-بینایی (LVLM) مدلهای زبان بزرگ را با قابلیتهای پردازش تصویر ترکیب میکنند و به آنها امکان تفسیر تصاویر و تولید پاسخهای متنی منسجم را میدهند. در حالی که این مدلها در تشخیص اشیاء بصری و پاسخ به درخواستها عالی عمل میکنند، اغلب در مواجهه با مسائلی که نیازمند استدلال چند مرحلهای هستند، دچار مشکل میشوند. وظایف زبان-بینایی مانند درک نمودارها، حل مسائل ریاضی بصری یا تفسیر دیاگرامها به چیزی بیش از تشخیص نیاز دارند؛ آنها به توانایی دنبال کردن مراحل منطقی بر اساس نشانههای بصری نیازمندند. علیرغم پیشرفتها در معماری مدلها، سیستمهای فعلی به طور مداوم در تولید پاسخهای دقیق و قابل تفسیر در چنین سناریوهای پیچیدهای با چالش مواجه هستند.
یک محدودیت عمده در مدلهای زبان-بینایی فعلی، ناتوانی آنها در انجام استدلال پیچیدهای است که شامل چندین مرحله استنتاج منطقی میشود، به ویژه هنگام تفسیر تصاویر در کنار پرسشهای متنی. این مدلها اغلب نمیتوانند به صورت درونی استدلال خود را تأیید یا تصحیح کنند، که منجر به خروجیهای نادرست یا سطحی میشود. همچنین، زنجیرههای استدلالی که این مدلها دنبال میکنند معمولاً شفاف یا قابل تأیید نیستند، که اطمینان از استحکام نتایج آنها را دشوار میسازد. چالش اصلی در پر کردن این شکاف استدلالی نهفته است؛ شکافی که مدلهای فقط متنی شروع به رفع مؤثر آن از طریق تکنیکهای یادگیری تقویتی کردهاند، اما مدلهای زبان-بینایی هنوز به طور کامل از آن بهره نبردهاند.
پیش از این مطالعه، تلاشها برای تقویت استدلال در چنین سیستمهایی عمدتاً بر تنظیم دقیق استاندارد (fine-tuning) یا تکنیکهای ایجاد اعلان (prompting) متکی بود. اگرچه این رویکردها در وظایف پایه مفید بودند، اما اغلب منجر به خروجیهای پرطول و تفصیل یا تکراری با عمق محدود میشدند. مدلهای زبان-بینایی مانند Qwen2.5-VL-7B به دلیل تواناییهایشان در دنبال کردن دستورالعملهای بصری امیدوارکننده بودند، اما فاقد استدلال چند مرحلهای قابل مقایسه با همتایان فقط متنی خود، مانند DeepSeek-R1، بودند. حتی زمانی که با پرسشهای ساختاریافته مواجه میشدند، این مدلها در بازاندیشی بر خروجیهای خود یا اعتبارسنجی مراحل استدلال میانی با مشکل روبرو بودند. این یک گلوگاه مهم بود، به ویژه برای موارد استفادهای که نیازمند تصمیمگیری ساختاریافته هستند، مانند ابزارهای حل مسئله بصری یا پشتیبانی آموزشی.
محققان دانشگاه کالیفرنیا، لس آنجلس (UCLA)، مدلی به نام OpenVLThinker-7B را معرفی کردند. این مدل از طریق یک روش آموزشی نوین توسعه یافته است که تنظیم دقیق نظارتشده (SFT) و یادگیری تقویتی (RL) را در یک حلقه تکراری ترکیب میکند. این فرآیند با تولید زیرنویس برای تصاویر با استفاده از Qwen2.5-VL-3B و تغذیه آنها به نسخهای تقطیر شده از DeepSeek-R1 برای تولید زنجیرههای استدلال ساختاریافته آغاز شد. این خروجیها دادههای آموزشی برای دور اول SFT را تشکیل دادند و مدل را در یادگیری ساختارهای استدلال پایه راهنمایی کردند. پس از آن، یک مرحله یادگیری تقویتی با استفاده از بهینهسازی خطمشی نسبی گروهی (GRPO) برای بهبود استدلال مدل بر اساس بازخورد پاداش اعمال شد. این ترکیب به مدل امکان داد تا به تدریج خود را بهبود بخشد و از خروجیهای پالایش شده هر تکرار به عنوان دادههای آموزشی جدید برای چرخه بعدی استفاده کند.
این روش شامل گردآوری دقیق دادهها و چندین مرحله آموزشی بود. در تکرار اول، از ۲۵٬۰۰۰ نمونه برای SFT استفاده شد که از مجموعه دادههایی مانند FigureQA، Geometry3K، TabMWP و VizWiz گرفته شده بودند. این نمونهها فیلتر شدند تا بازتابهای بیش از حد پرطول و تفصیل یا تکراری حذف شوند و کیفیت آموزش بهبود یابد. سپس GRPO بر روی یک مجموعه داده کوچکتر و دشوارتر شامل ۵٬۰۰۰ نمونه اعمال شد. این امر منجر به افزایش عملکرد از دقت ۶۲.۵٪ به ۶۵.۶٪ در معیار MathVista شد. در تکرار دوم، ۵٬۰۰۰ نمونه با کیفیت بالا دیگر برای SFT استفاده شد که دقت را به ۶۶.۱٪ افزایش داد. دور دوم GRPO عملکرد را به ۶۹.۴٪ رساند. در طول این مراحل، مدل بر روی چندین معیار از جمله MathVista، MathVerse و MathVision ارزیابی شد و در هر تکرار بهبود عملکرد ثابتی را نشان داد.
از نظر کمی، OpenVLThinker-7B به طور قابل توجهی از مدل پایه خود، Qwen2.5-VL-7B، بهتر عمل کرد. در MathVista، به دقت ۷۰.۲٪ رسید در حالی که مدل پایه ۵۰.۲٪ بود. در MathVerse، بهبود از ۴۶.۸٪ به ۶۸.۵٪ بود. دقت آزمون کامل MathVision از ۲۴.۰٪ به ۲۹.۶٪ افزایش یافت و MathVision testmini از ۲۵.۳٪ به ۳۰.۴٪ بهبود یافت. این بهبودها نشان میدهد که مدل یاد گرفته است الگوهای استدلالی را دنبال کند و به وظایف چندوجهی دیده نشده بهتر تعمیم یابد. هر تکرار آموزش به دستاوردهای قابل اندازهگیری کمک کرد و قدرت ترکیب تنظیم دقیق با یادگیری مبتنی بر پاداش در یک ساختار حلقهای را به نمایش گذاشت.
هسته اصلی قدرت این مدل در ساختار تکراری آن نهفته است. به جای تکیه صرف بر مجموعه دادههای عظیم، بر کیفیت و ساختار تمرکز دارد. هر چرخه SFT و RL ظرفیت مدل را برای درک رابطه بین تصاویر، پرسشها و پاسخها بهبود میبخشد. رفتارهای خود-تأییدی و تصحیح، که در ابتدا در LVLMهای استاندارد وجود نداشتند، به عنوان محصول جانبی یادگیری تقویتی با سیگنالهای پاداش قابل تأیید پدیدار شدند. این امر به OpenVLThinker-7B اجازه داد تا ردپاهای استدلالی تولید کند که از نظر منطقی سازگار و قابل تفسیر بودند. حتی بهبودهای جزئی، مانند کاهش بازتابهای تکراری یا افزایش دقت با زنجیرههای استدلال کوتاهتر، به دستاوردهای کلی عملکرد آن کمک کردند.
برخی نکات کلیدی از این تحقیق:
- محققان UCLA مدل OpenVLThinker-7B را با استفاده از رویکرد ترکیبی SFT و RL، با شروع از مدل پایه Qwen2.5-VL-7B توسعه دادند.
- از چرخههای آموزشی تکراری شامل تولید زیرنویس، تقطیر استدلال، و تناوب بین SFT و یادگیری تقویتی GRPO استفاده شد.
- SFT اولیه از ۲۵٬۰۰۰ نمونه فیلتر شده استفاده کرد، در حالی که مراحل RL از مجموعههای کوچکتر شامل ۵٬۰۰۰ نمونه دشوارتر از مجموعه دادههایی مانند Geometry3K و SuperCLEVR استفاده کردند.
- در MathVista، دقت از ۵۰.۲٪ (مدل پایه) به ۷۰.۲٪ بهبود یافت. دقت MathVerse از ۴۶.۸٪ به ۶۸.۵٪ جهش کرد و سایر مجموعه دادهها نیز شاهد پیشرفتهای قابل توجهی بودند.
- GRPO با پاداش دادن به پاسخهای صحیح، کاهش پرگویی و بهبود سازگاری منطقی، رفتارهای استدلالی را به طور مؤثری پالایش کرد.
- هر تکرار آموزش منجر به افزایش تدریجی عملکرد شد و اثربخشی استراتژی خود-بهبودی را تأیید کرد.
- این تحقیق مسیری عملی برای وارد کردن استدلال چند مرحلهای به سبک R1 به مدلهای چندوجهی ایجاد میکند که برای کاربردهای آموزشی، تحلیل بصری و فناوریهای کمکی مفید است.
مقاله، مدل در Hugging Face و صفحه گیتهاب را بررسی کنید. تمام اعتبار این تحقیق متعلق به محققان این پروژه است. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید به سابردیت یادگیری ماشین با بیش از ۸۵ هزار عضو ما بپیوندید.