محققان UCLA مدل OpenVLThinker-7B را منتشر کردند: مدلی مبتنی بر یادگیری تقویتی برای بهبود استدلال بصری پیچیده و حل مسئله گام به گام در سیستم‌های چندوجهی

مدل‌های بزرگ زبان-بینایی (LVLM) مدل‌های زبان بزرگ را با قابلیت‌های پردازش تصویر ترکیب می‌کنند و به آن‌ها امکان تفسیر تصاویر و تولید پاسخ‌های متنی منسجم را می‌دهند. در حالی که این مدل‌ها در تشخیص اشیاء بصری و پاسخ به درخواست‌ها عالی عمل می‌کنند، اغلب در مواجهه با مسائلی که نیازمند استدلال چند مرحله‌ای هستند، دچار مشکل می‌شوند. وظایف زبان-بینایی مانند درک نمودارها، حل مسائل ریاضی بصری یا تفسیر دیاگرام‌ها به چیزی بیش از تشخیص نیاز دارند؛ آن‌ها به توانایی دنبال کردن مراحل منطقی بر اساس نشانه‌های بصری نیازمندند. علی‌رغم پیشرفت‌ها در معماری مدل‌ها، سیستم‌های فعلی به طور مداوم در تولید پاسخ‌های دقیق و قابل تفسیر در چنین سناریوهای پیچیده‌ای با چالش مواجه هستند.

یک محدودیت عمده در مدل‌های زبان-بینایی فعلی، ناتوانی آن‌ها در انجام استدلال پیچیده‌ای است که شامل چندین مرحله استنتاج منطقی می‌شود، به ویژه هنگام تفسیر تصاویر در کنار پرسش‌های متنی. این مدل‌ها اغلب نمی‌توانند به صورت درونی استدلال خود را تأیید یا تصحیح کنند، که منجر به خروجی‌های نادرست یا سطحی می‌شود. همچنین، زنجیره‌های استدلالی که این مدل‌ها دنبال می‌کنند معمولاً شفاف یا قابل تأیید نیستند، که اطمینان از استحکام نتایج آن‌ها را دشوار می‌سازد. چالش اصلی در پر کردن این شکاف استدلالی نهفته است؛ شکافی که مدل‌های فقط متنی شروع به رفع مؤثر آن از طریق تکنیک‌های یادگیری تقویتی کرده‌اند، اما مدل‌های زبان-بینایی هنوز به طور کامل از آن بهره نبرده‌اند.

پیش از این مطالعه، تلاش‌ها برای تقویت استدلال در چنین سیستم‌هایی عمدتاً بر تنظیم دقیق استاندارد (fine-tuning) یا تکنیک‌های ایجاد اعلان (prompting) متکی بود. اگرچه این رویکردها در وظایف پایه مفید بودند، اما اغلب منجر به خروجی‌های پرطول و تفصیل یا تکراری با عمق محدود می‌شدند. مدل‌های زبان-بینایی مانند Qwen2.5-VL-7B به دلیل توانایی‌هایشان در دنبال کردن دستورالعمل‌های بصری امیدوارکننده بودند، اما فاقد استدلال چند مرحله‌ای قابل مقایسه با همتایان فقط متنی خود، مانند DeepSeek-R1، بودند. حتی زمانی که با پرسش‌های ساختاریافته مواجه می‌شدند، این مدل‌ها در بازاندیشی بر خروجی‌های خود یا اعتبارسنجی مراحل استدلال میانی با مشکل روبرو بودند. این یک گلوگاه مهم بود، به ویژه برای موارد استفاده‌ای که نیازمند تصمیم‌گیری ساختاریافته هستند، مانند ابزارهای حل مسئله بصری یا پشتیبانی آموزشی.

محققان دانشگاه کالیفرنیا، لس آنجلس (UCLA)، مدلی به نام OpenVLThinker-7B را معرفی کردند. این مدل از طریق یک روش آموزشی نوین توسعه یافته است که تنظیم دقیق نظارت‌شده (SFT) و یادگیری تقویتی (RL) را در یک حلقه تکراری ترکیب می‌کند. این فرآیند با تولید زیرنویس برای تصاویر با استفاده از Qwen2.5-VL-3B و تغذیه آن‌ها به نسخه‌ای تقطیر شده از DeepSeek-R1 برای تولید زنجیره‌های استدلال ساختاریافته آغاز شد. این خروجی‌ها داده‌های آموزشی برای دور اول SFT را تشکیل دادند و مدل را در یادگیری ساختارهای استدلال پایه راهنمایی کردند. پس از آن، یک مرحله یادگیری تقویتی با استفاده از بهینه‌سازی خط‌مشی نسبی گروهی (GRPO) برای بهبود استدلال مدل بر اساس بازخورد پاداش اعمال شد. این ترکیب به مدل امکان داد تا به تدریج خود را بهبود بخشد و از خروجی‌های پالایش شده هر تکرار به عنوان داده‌های آموزشی جدید برای چرخه بعدی استفاده کند.

این روش شامل گردآوری دقیق داده‌ها و چندین مرحله آموزشی بود. در تکرار اول، از ۲۵٬۰۰۰ نمونه برای SFT استفاده شد که از مجموعه داده‌هایی مانند FigureQA، Geometry3K، TabMWP و VizWiz گرفته شده بودند. این نمونه‌ها فیلتر شدند تا بازتاب‌های بیش از حد پرطول و تفصیل یا تکراری حذف شوند و کیفیت آموزش بهبود یابد. سپس GRPO بر روی یک مجموعه داده کوچکتر و دشوارتر شامل ۵٬۰۰۰ نمونه اعمال شد. این امر منجر به افزایش عملکرد از دقت ۶۲.۵٪ به ۶۵.۶٪ در معیار MathVista شد. در تکرار دوم، ۵٬۰۰۰ نمونه با کیفیت بالا دیگر برای SFT استفاده شد که دقت را به ۶۶.۱٪ افزایش داد. دور دوم GRPO عملکرد را به ۶۹.۴٪ رساند. در طول این مراحل، مدل بر روی چندین معیار از جمله MathVista، MathVerse و MathVision ارزیابی شد و در هر تکرار بهبود عملکرد ثابتی را نشان داد.

از نظر کمی، OpenVLThinker-7B به طور قابل توجهی از مدل پایه خود، Qwen2.5-VL-7B، بهتر عمل کرد. در MathVista، به دقت ۷۰.۲٪ رسید در حالی که مدل پایه ۵۰.۲٪ بود. در MathVerse، بهبود از ۴۶.۸٪ به ۶۸.۵٪ بود. دقت آزمون کامل MathVision از ۲۴.۰٪ به ۲۹.۶٪ افزایش یافت و MathVision testmini از ۲۵.۳٪ به ۳۰.۴٪ بهبود یافت. این بهبودها نشان می‌دهد که مدل یاد گرفته است الگوهای استدلالی را دنبال کند و به وظایف چندوجهی دیده نشده بهتر تعمیم یابد. هر تکرار آموزش به دستاوردهای قابل اندازه‌گیری کمک کرد و قدرت ترکیب تنظیم دقیق با یادگیری مبتنی بر پاداش در یک ساختار حلقه‌ای را به نمایش گذاشت.

معماری OpenVLThinker-7B
نمای کلی معماری و جریان داده در مدل OpenVLThinker-7B.

هسته اصلی قدرت این مدل در ساختار تکراری آن نهفته است. به جای تکیه صرف بر مجموعه داده‌های عظیم، بر کیفیت و ساختار تمرکز دارد. هر چرخه SFT و RL ظرفیت مدل را برای درک رابطه بین تصاویر، پرسش‌ها و پاسخ‌ها بهبود می‌بخشد. رفتارهای خود-تأییدی و تصحیح، که در ابتدا در LVLMهای استاندارد وجود نداشتند، به عنوان محصول جانبی یادگیری تقویتی با سیگنال‌های پاداش قابل تأیید پدیدار شدند. این امر به OpenVLThinker-7B اجازه داد تا ردپاهای استدلالی تولید کند که از نظر منطقی سازگار و قابل تفسیر بودند. حتی بهبودهای جزئی، مانند کاهش بازتاب‌های تکراری یا افزایش دقت با زنجیره‌های استدلال کوتاه‌تر، به دستاوردهای کلی عملکرد آن کمک کردند.

فرآیند آموزش OpenVLThinker-7B
شرح مراحل فرآیند آموزش تکراری شامل SFT و RL (GRPO).

برخی نکات کلیدی از این تحقیق: 

  • محققان UCLA مدل OpenVLThinker-7B را با استفاده از رویکرد ترکیبی SFT و RL، با شروع از مدل پایه Qwen2.5-VL-7B توسعه دادند.
  • از چرخه‌های آموزشی تکراری شامل تولید زیرنویس، تقطیر استدلال، و تناوب بین SFT و یادگیری تقویتی GRPO استفاده شد.
  • SFT اولیه از ۲۵٬۰۰۰ نمونه فیلتر شده استفاده کرد، در حالی که مراحل RL از مجموعه‌های کوچکتر شامل ۵٬۰۰۰ نمونه دشوارتر از مجموعه داده‌هایی مانند Geometry3K و SuperCLEVR استفاده کردند.
  • در MathVista، دقت از ۵۰.۲٪ (مدل پایه) به ۷۰.۲٪ بهبود یافت. دقت MathVerse از ۴۶.۸٪ به ۶۸.۵٪ جهش کرد و سایر مجموعه داده‌ها نیز شاهد پیشرفت‌های قابل توجهی بودند.
  • GRPO با پاداش دادن به پاسخ‌های صحیح، کاهش پرگویی و بهبود سازگاری منطقی، رفتارهای استدلالی را به طور مؤثری پالایش کرد.
  • هر تکرار آموزش منجر به افزایش تدریجی عملکرد شد و اثربخشی استراتژی خود-بهبودی را تأیید کرد.
  • این تحقیق مسیری عملی برای وارد کردن استدلال چند مرحله‌ای به سبک R1 به مدل‌های چندوجهی ایجاد می‌کند که برای کاربردهای آموزشی، تحلیل بصری و فناوری‌های کمکی مفید است.

مقاله، مدل در Hugging Face و صفحه گیت‌هاب را بررسی کنید. تمام اعتبار این تحقیق متعلق به محققان این پروژه است. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید به ساب‌ردیت یادگیری ماشین با بیش از ۸۵ هزار عضو ما بپیوندید.