مدلهای زبان بزرگ بصری (VLMs) مدرن در انجام وظایفی که نیازمند استدلال بصری پیچیده هستند، با مشکل مواجه میشوند. در این وظایف، درک یک تصویر به تنهایی کافی نیست و به تفسیر عمیقتری نیاز است. در حالی که پیشرفتهای اخیر در مدلهای زبان بزرگ (LLMs) استدلال مبتنی بر متن را به طور قابل توجهی بهبود بخشیده است، پیشرفت مشابهی در حوزه بصری هنوز محدود است. مدلهای زبان بزرگ بصری موجود اغلب زمانی که نیاز است نشانههای بصری و متنی را برای استنتاج منطقی ترکیب کنند، با شکست مواجه میشوند که این موضوع یک شکاف حیاتی در تواناییهای آنها را نشان میدهد. این محدودیت به ویژه در وظایفی که نیازمند استدلال گام به گام هستند، مشهود است؛ در این وظایف، صرفاً تشخیص اشیاء در یک تصویر بدون درک اساسی از روابط و اطلاعات زمینهای کافی نیست.
تحقیقات قبلی در زمینه هوش مصنوعی چندوجهی عمدتاً بر تشخیص اشیاء، شرح تصاویر و پاسخ به پرسشها متمرکز بوده و به بررسی استدلال مرتبه بالاتر کمتر پرداخته است. برخی از مطالعات تلاش کردهاند تا مدلهای زبان بزرگ بصری را با استفاده از الگوهای زنجیره فکری یا ساختارهای استدلالی صریح بهبود بخشند. با این حال، این رویکردها یا محدود به دادههای متنی هستند یا در وظایف بصری متنوع تعمیم نمییابند. علاوه بر این، بیشتر تلاشهای متنباز در این زمینه توسعه نیافته باقی ماندهاند و پیشرفت استدلال بصری فراتر از وظایف تشخیص ساده را دشوار میکنند. رفع این شکافها برای توسعه مدلهای زبان بزرگ بصری به منظور انجام استدلال پیچیده بر روی تصاویر دنیای واقعی بسیار مهم است.
محققان گروندلایت به بررسی آموزش مدلهای زبان بزرگ بصری برای استدلال بصری با استفاده از یادگیری تقویتی پرداختند و از GRPO برای افزایش کارایی استفاده کردند. در حالی که کارهای قبلی، مانند تحقیقات Deepseek و استدلال پیشرفته در مدلهای زبان، کار کمی برای گسترش این تکنیکها به مدلهای زبان بزرگ بصری انجام داده بودند، آنها یک وظیفه حل رمزنگاری را طراحی کردند که نیازمند پردازش بصری و متنی بود تا رویکرد خود را نشان دهند. این مدل پیامهای رمزگذاریشده را با استفاده از یک تصویر رمزگشای تصادفی تولیدشده رمزگشایی میکند و با یک مدل پارامتر 3B به دقت 96٪ دست مییابد. تجزیه و تحلیل توجه تأیید میکند که مدل به طور فعال با ورودی بصری درگیر میشود و توانایی آن در تمرکز بر مناطق رمزگشای مربوطه در حین حل وظیفه را برجسته میکند.
آموزش مدلهای زبان بزرگ بصری با GRPO چالشهای متعددی را به همراه دارد، به ویژه در نشانهگذاری و طراحی پاداش. از آنجایی که مدلها متن را به عنوان نشانه پردازش میکنند نه به عنوان کاراکترهای جداگانه، وظایفی که نیازمند استدلال دقیق در سطح کاراکتر هستند، میتوانند مشکلساز باشند. برای کاهش این مشکل، محققان پیامها را با فاصلههای بین حروف فرمتبندی کردند تا رمزگشایی را ساده کنند. طراحی پاداش یکی دیگر از جنبههای مهم بود، زیرا مدلهای یادگیری تقویتی برای یادگیری مؤثر به بازخورد ساختاریافته نیاز دارند. سه نوع پاداش استفاده شد: یک پاداش فرمت که سازگاری در خروجی را تضمین میکند، یک پاداش رمزگشایی که تبدیلهای معنادار متن درهم را تشویق میکند و یک پاداش صحت که دقت را اصلاح میکند. با متعادل کردن دقیق این پاداشها، محققان از میانبرهای یادگیری ناخواسته جلوگیری کردند و اطمینان حاصل کردند که مدل واقعاً در حل رمزنگاری بهبود یافته است.
GRPO، که یادگیری را با مقایسه چندین خروجی به جای تکیه بر محاسبه گرادیان مستقیم بهینه میکند، مزایایی در تثبیت آموزش ارائه میدهد. با تولید پاسخهای مختلف در هر پرس و ارزیابی آنها نسبت به یکدیگر، این رویکرد امکان منحنیهای یادگیری هموارتری را فراهم میکند. این تحقیق همچنین پتانسیل مدلهای زبان بزرگ بصری در وظایف مبتنی بر استدلال را برجسته کرد، اما هزینههای محاسباتی بالای مرتبط با مدلهای بصری پیچیده را تصدیق کرد. تکنیکهایی مانند افزایش انتخابی مدل برای رفع نگرانیهای مربوط به کارایی پیشنهاد شد، به طوری که مدلهای گرانقیمت فقط برای موارد مبهم استفاده میشوند. علاوه بر این، ادغام مدلهای از پیش آموزشدیده برای تشخیص اشیاء، تقسیمبندی و تخمین عمق برای افزایش استدلال بدون افزایش قابل توجه سربار محاسباتی پیشنهاد شد. این رویکرد مبتنی بر ابزار یک جایگزین مقیاسپذیر برای آموزش مدلهای سرتاسری عظیم ارائه میدهد و بر کارایی بدون به خطر انداختن دقت تأکید میکند.
در نتیجه، تیم گروندلایت گامهای مهمی در بهبود مدلهای زبان بزرگ بصری با ادغام تکنیکهای یادگیری تقویتی، به ویژه GRPO، برداشته است. رویکرد آنها بر روی یک وظیفه حل رمزنگاری آزمایش شد، جایی که مدل دقت چشمگیری از خود نشان داد. این پیشرفت پتانسیل ترکیب دادههای بصری و متنی را برای بهبود عملکرد مدل زبان بزرگ بصری برجسته میکند. گروندلایت با متنباز کردن روششناسی و ابزارهای خود، قصد دارد جامعه گستردهتری را قادر سازد تا قابلیتهای استدلال بصری را در سیستمهای هوش مصنوعی بیشتر توسعه دهند.
جزئیات فنی، صفحه GitHub و نسخه ی نمایشی را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به 80k + ML SubReddit ما بپیوندید.
درباره نویسنده: سانا حسن
سانا حسن، یک کارآموز مشاور در Marktechpost و دانشجوی دو رشتهای در IIT Madras، علاقه زیادی به استفاده از فناوری و هوش مصنوعی برای مقابله با چالشهای دنیای واقعی دارد. او با علاقه فراوان به حل مشکلات عملی، دیدگاه جدیدی را به تقاطع هوش مصنوعی و راه حلهای زندگی واقعی میآورد.