مقاله هوش مصنوعی R1-Onevision را معرفی می‌کند: یک مدل فرمالیزاسیون بین‌وجهی برای پیشرفت استدلال چندوجهی و تفسیر بصری ساختاریافته

نمودار مدل
نمودار مدل R1-Onevision

استدلال چندوجهی یک حوزه در حال تکامل است که داده‌های بصری و متنی را برای افزایش هوش ماشین ادغام می‌کند. مدل‌های سنتی هوش مصنوعی در پردازش متن یا تصاویر برتری دارند، اما اغلب هنگام نیاز به استدلال در هر دو قالب، دچار مشکل می‌شوند. تجزیه و تحلیل نمودارها، گراف‌ها، نمادهای ریاضی و الگوهای بصری پیچیده در کنار توصیف‌های متنی برای کاربردها در آموزش، حل مسئله علمی و تصمیم‌گیری مستقل بسیار مهم است. با وجود پیشرفت در مدل‌های زبانی، محدودیت‌های آنها در استدلال چندوجهی یک چالش مهم باقی مانده است. توسعه سیستم‌های هوش مصنوعی که بتوانند شکاف بین ادراک و استدلال را پر کنند، یک تمرکز کلیدی برای محققانی است که هدفشان بهبود تفسیر منطقی ورودی‌های داده‌های ترکیبی است.

یک مسئله اصلی در استدلال چندوجهی، ناتوانی مدل‌های هوش مصنوعی موجود در انجام استنتاج ساختاریافته و منطقی هنگام تجزیه و تحلیل تصاویر است. در حالی که مدل‌های زبانی بزرگ قابلیت‌های استدلال قوی را در زمینه‌های متنی نشان می‌دهند، اما در استخراج نتیجه‌گیری از اطلاعات بصری به طور دقیق ناکام هستند. این نقص در کارهایی که نیاز به ترکیبی از ادراک و استدلال گام به گام دارند، مانند حل مسائل ریاضی بصری، تفسیر نمودارها یا درک شماتیک‌های علمی، مشهود است. مدل‌های فعلی اغلب معنای عمیق‌تر زمینه‌ای تصاویر را نادیده می‌گیرند یا به جای تجزیه و تحلیل منطقی دقیق، به تشخیص سطحی الگوها تکیه می‌کنند. بدون یک روش قوی برای ادغام سیستماتیک داده‌های تصویر و متن، این مدل‌ها همچنان در کارهای مبتنی بر استدلال عملکرد پایینی دارند.

تکنیک‌های متعددی برای بهبود استدلال چندوجهی پیشنهاد شده‌اند، اما محدودیت‌های قابل توجهی از خود نشان می‌دهند. برخی از مدل‌ها از الگوهای فکری از پیش تعریف‌شده استفاده می‌کنند که سعی در ساختاربندی استدلال در یک قالب سفت و سخت دارند و انعطاف‌پذیری در حل مسئله را محدود می‌کنند. برخی دیگر به تقلید مستقیم از پاسخ‌های حاشیه‌نویسی‌شده توسط انسان تکیه می‌کنند، که آنها را قادر می‌سازد پاسخ‌های قانع‌کننده‌ای تولید کنند، اما نمی‌توانند فراتر از مثال‌های آشنا تعمیم دهند. این رویکردها هنگام مواجهه با مسائل جدید که نیاز به استدلال تطبیقی دارند، ناکام می‌شوند. علاوه بر این، عدم وجود معیارهای جامع برای ارزیابی قابلیت‌های استدلال چندوجهی مانع از ارزیابی دقیق عملکرد می‌شود و تعیین اثربخشی واقعی مدل‌های هوش مصنوعی جدید را دشوار می‌کند.

روش‌شناسی R1-Onevision
روش‌شناسی R1-Onevision

برای رسیدگی به این مسائل، محققان دانشگاه ژجیانگ، شرکت Tencent و دانشگاه رنمین چین، R1-Onevision را معرفی کردند. این مدل برای پر کردن شکاف بین ادراک بصری و استدلال ساختاریافته با اجرای یک تکنیک فرمالیزاسیون بین‌وجهی طراحی شده است. به جای تکیه صرف بر استخراج ویژگی‌های مبتنی بر تصویر، این مدل محتوای بصری را به بازنمایی‌های متنی ساختاریافته تبدیل می‌کند و به آن اجازه می‌دهد تصاویر را با همان عمق داده‌های متنی پردازش کند. این رویکرد مدل را قادر می‌سازد تا استنتاج منطقی گام به گام را انجام دهد و به طور قابل توجهی توانایی آن را در تجزیه و تحلیل اطلاعات بصری پیچیده بهبود می‌بخشد. محققان قصد دارند با ادغام مسیرهای استدلال ساختاریافته، دقت تصمیم‌گیری مدل را در کارهای مختلف افزایش دهند.

روش‌شناسی پشت R1-Onevision شامل یک فرآیند چند مرحله‌ای است که قابلیت‌های استدلال را در سطوح مختلف تقویت می‌کند. یک خط لوله استدلال بین‌وجهی در ابتدا توصیف‌های ساختاریافته را از تصاویر استخراج می‌کند و آنها را به بازنمایی‌های متنی دقیق تبدیل می‌کند. این امر مدل را قادر می‌سازد تا استدلال مبتنی بر زبان را بر روی داده‌های بصری انجام دهد. مجموعه داده‌های توسعه‌یافته برای آموزش، به نام R1-Onevision-Bench، شامل مسائل استدلال بصری متنوعی از موضوعاتی مانند ریاضیات، فیزیک و استنتاج مبتنی بر منطق است. محققان از تنظیم دقیق نظارت‌شده (SFT) برای ایجاد الگوهای تفکر ساختاریافته در مدل استفاده کردند. یادگیری تقویتی (RL) برای بهبود بیشتر عملکرد گنجانده شد و به مدل اجازه داد تا استدلال خود را از طریق آموزش تکراری بر روی مسائل پیچیده‌تر اصلاح کند. این ترکیب از تبدیل داده‌های ساختاریافته، آموزش نظارت‌شده و بهینه‌سازی تقویتی تضمین می‌کند که مدل یک فرآیند حل مسئله قابل اعتمادتر را توسعه می‌دهد.

ارزیابی‌های تجربی نشان می‌دهد که R1-Onevision به نتایج برتری نسبت به مدل‌های چندوجهی پیشرو، از جمله GPT-4o و Qwen2.5-VL دست می‌یابد. در معیار MathVision، به دقت 29.9٪ دست یافت و از چندین جایگزین منبع باز پیشی گرفت. هنگامی که بر روی MathVerse آزمایش شد، به دقت 46.4٪ برای مسائل استاندارد و 40.0٪ برای چالش‌های فقط دیداری دست یافت. علاوه بر این، در معیار MathVista، R1-Onevision با 4.1٪ از پیشینیان خود بهتر عمل کرد و اثربخشی خود را در استدلال بصری ساختاریافته نشان داد. این مدل همچنین تعمیم قوی را در شرایط آزمایشی متنوع نشان داد، که نشان می‌دهد ادغام فرمالیزاسیون بین‌وجهی به طور قابل توجهی دقت حل مسئله را بهبود می‌بخشد. این نتایج تأثیر مسیرهای استدلال ساختاریافته را در هوش مصنوعی چندوجهی برجسته می‌کند و یک مزیت آشکار نسبت به رویکردهای قبلی ارائه می‌دهد.

معرفی R1-Onevision نشان‌دهنده یک پیشرفت قابل توجه در استدلال چندوجهی است. با رسیدگی به چالش‌های کلیدی در ادغام بصری-متنی، محققان مدلی را توسعه داده‌اند که قادر به استدلال در انواع مسائل متنوع با دقت بالاتر است. استفاده از فرمالیزاسیون بین‌وجهی نه تنها استنتاج منطقی را افزایش می‌دهد، بلکه پایه‌ای را برای توسعه‌های آینده در حل مسئله مبتنی بر هوش مصنوعی می‌گذارد. همانطور که هوش مصنوعی به تکامل خود ادامه می‌دهد، مدل‌هایی مانند R1-Onevision اهمیت استدلال ساختاریافته را در بهبود هوش ماشین نشان می‌دهند.


مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، ما را در توییتر دنبال کنید: توییتر و فراموش نکنید که به انجمن 80k+ ML SubReddit ما بپیوندید: 80k+ ML SubReddit.