تیم تحقیقاتی گروندلایت یک چارچوب هوش مصنوعی متن‌باز منتشر کرد که ساخت عوامل استدلال بصری را آسان می‌کند (با GRPO)

مدل‌های زبان بزرگ بصری (VLMs) مدرن در انجام وظایفی که نیازمند استدلال بصری پیچیده هستند، با مشکل مواجه می‌شوند. در این وظایف، درک یک تصویر به تنهایی کافی نیست و به تفسیر عمیق‌تری نیاز است. در حالی که پیشرفت‌های اخیر در مدل‌های زبان بزرگ (LLMs) استدلال مبتنی بر متن را به طور قابل توجهی بهبود بخشیده است، پیشرفت مشابهی در حوزه بصری هنوز محدود است. مدل‌های زبان بزرگ بصری موجود اغلب زمانی که نیاز است نشانه‌های بصری و متنی را برای استنتاج منطقی ترکیب کنند، با شکست مواجه می‌شوند که این موضوع یک شکاف حیاتی در توانایی‌های آن‌ها را نشان می‌دهد. این محدودیت به ویژه در وظایفی که نیازمند استدلال گام به گام هستند، مشهود است؛ در این وظایف، صرفاً تشخیص اشیاء در یک تصویر بدون درک اساسی از روابط و اطلاعات زمینه‌ای کافی نیست.

تحقیقات قبلی در زمینه هوش مصنوعی چندوجهی عمدتاً بر تشخیص اشیاء، شرح تصاویر و پاسخ به پرسش‌ها متمرکز بوده و به بررسی استدلال مرتبه بالاتر کمتر پرداخته است. برخی از مطالعات تلاش کرده‌اند تا مدل‌های زبان بزرگ بصری را با استفاده از الگوهای زنجیره فکری یا ساختارهای استدلالی صریح بهبود بخشند. با این حال، این رویکردها یا محدود به داده‌های متنی هستند یا در وظایف بصری متنوع تعمیم نمی‌یابند. علاوه بر این، بیشتر تلاش‌های متن‌باز در این زمینه توسعه نیافته باقی مانده‌اند و پیشرفت استدلال بصری فراتر از وظایف تشخیص ساده را دشوار می‌کنند. رفع این شکاف‌ها برای توسعه مدل‌های زبان بزرگ بصری به منظور انجام استدلال پیچیده بر روی تصاویر دنیای واقعی بسیار مهم است.

محققان گروندلایت به بررسی آموزش مدل‌های زبان بزرگ بصری برای استدلال بصری با استفاده از یادگیری تقویتی پرداختند و از GRPO برای افزایش کارایی استفاده کردند. در حالی که کارهای قبلی، مانند تحقیقات Deepseek و استدلال پیشرفته در مدل‌های زبان، کار کمی برای گسترش این تکنیک‌ها به مدل‌های زبان بزرگ بصری انجام داده بودند، آن‌ها یک وظیفه حل رمزنگاری را طراحی کردند که نیازمند پردازش بصری و متنی بود تا رویکرد خود را نشان دهند. این مدل پیام‌های رمزگذاری‌شده را با استفاده از یک تصویر رمزگشای تصادفی تولیدشده رمزگشایی می‌کند و با یک مدل پارامتر 3B به دقت 96٪ دست می‌یابد. تجزیه و تحلیل توجه تأیید می‌کند که مدل به طور فعال با ورودی بصری درگیر می‌شود و توانایی آن در تمرکز بر مناطق رمزگشای مربوطه در حین حل وظیفه را برجسته می‌کند.

آموزش مدل‌های زبان بزرگ بصری با GRPO چالش‌های متعددی را به همراه دارد، به ویژه در نشانه‌گذاری و طراحی پاداش. از آنجایی که مدل‌ها متن را به عنوان نشانه پردازش می‌کنند نه به عنوان کاراکترهای جداگانه، وظایفی که نیازمند استدلال دقیق در سطح کاراکتر هستند، می‌توانند مشکل‌ساز باشند. برای کاهش این مشکل، محققان پیام‌ها را با فاصله‌های بین حروف فرمت‌بندی کردند تا رمزگشایی را ساده کنند. طراحی پاداش یکی دیگر از جنبه‌های مهم بود، زیرا مدل‌های یادگیری تقویتی برای یادگیری مؤثر به بازخورد ساختاریافته نیاز دارند. سه نوع پاداش استفاده شد: یک پاداش فرمت که سازگاری در خروجی را تضمین می‌کند، یک پاداش رمزگشایی که تبدیل‌های معنادار متن درهم را تشویق می‌کند و یک پاداش صحت که دقت را اصلاح می‌کند. با متعادل کردن دقیق این پاداش‌ها، محققان از میانبرهای یادگیری ناخواسته جلوگیری کردند و اطمینان حاصل کردند که مدل واقعاً در حل رمزنگاری بهبود یافته است.

GRPO، که یادگیری را با مقایسه چندین خروجی به جای تکیه بر محاسبه گرادیان مستقیم بهینه می‌کند، مزایایی در تثبیت آموزش ارائه می‌دهد. با تولید پاسخ‌های مختلف در هر پرس و ارزیابی آن‌ها نسبت به یکدیگر، این رویکرد امکان منحنی‌های یادگیری هموارتری را فراهم می‌کند. این تحقیق همچنین پتانسیل مدل‌های زبان بزرگ بصری در وظایف مبتنی بر استدلال را برجسته کرد، اما هزینه‌های محاسباتی بالای مرتبط با مدل‌های بصری پیچیده را تصدیق کرد. تکنیک‌هایی مانند افزایش انتخابی مدل برای رفع نگرانی‌های مربوط به کارایی پیشنهاد شد، به طوری که مدل‌های گران‌قیمت فقط برای موارد مبهم استفاده می‌شوند. علاوه بر این، ادغام مدل‌های از پیش آموزش‌دیده برای تشخیص اشیاء، تقسیم‌بندی و تخمین عمق برای افزایش استدلال بدون افزایش قابل توجه سربار محاسباتی پیشنهاد شد. این رویکرد مبتنی بر ابزار یک جایگزین مقیاس‌پذیر برای آموزش مدل‌های سرتاسری عظیم ارائه می‌دهد و بر کارایی بدون به خطر انداختن دقت تأکید می‌کند.

در نتیجه، تیم گروندلایت گام‌های مهمی در بهبود مدل‌های زبان بزرگ بصری با ادغام تکنیک‌های یادگیری تقویتی، به ویژه GRPO، برداشته است. رویکرد آن‌ها بر روی یک وظیفه حل رمزنگاری آزمایش شد، جایی که مدل دقت چشمگیری از خود نشان داد. این پیشرفت پتانسیل ترکیب داده‌های بصری و متنی را برای بهبود عملکرد مدل زبان بزرگ بصری برجسته می‌کند. گروندلایت با متن‌باز کردن روش‌شناسی و ابزارهای خود، قصد دارد جامعه گسترده‌تری را قادر سازد تا قابلیت‌های استدلال بصری را در سیستم‌های هوش مصنوعی بیشتر توسعه دهند.


جزئیات فنی، صفحه GitHub و نسخه ی نمایشی را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به 80k + ML SubReddit ما بپیوندید.

درباره نویسنده: سانا حسن

سانا حسن

سانا حسن، یک کارآموز مشاور در Marktechpost و دانشجوی دو رشته‌ای در IIT Madras، علاقه زیادی به استفاده از فناوری و هوش مصنوعی برای مقابله با چالش‌های دنیای واقعی دارد. او با علاقه فراوان به حل مشکلات عملی، دیدگاه جدیدی را به تقاطع هوش مصنوعی و راه حل‌های زندگی واقعی می‌آورد.