استدلال چندوجهی یک حوزه در حال تکامل است که دادههای بصری و متنی را برای افزایش هوش ماشین ادغام میکند. مدلهای سنتی هوش مصنوعی در پردازش متن یا تصاویر برتری دارند، اما اغلب هنگام نیاز به استدلال در هر دو قالب، دچار مشکل میشوند. تجزیه و تحلیل نمودارها، گرافها، نمادهای ریاضی و الگوهای بصری پیچیده در کنار توصیفهای متنی برای کاربردها در آموزش، حل مسئله علمی و تصمیمگیری مستقل بسیار مهم است. با وجود پیشرفت در مدلهای زبانی، محدودیتهای آنها در استدلال چندوجهی یک چالش مهم باقی مانده است. توسعه سیستمهای هوش مصنوعی که بتوانند شکاف بین ادراک و استدلال را پر کنند، یک تمرکز کلیدی برای محققانی است که هدفشان بهبود تفسیر منطقی ورودیهای دادههای ترکیبی است.
یک مسئله اصلی در استدلال چندوجهی، ناتوانی مدلهای هوش مصنوعی موجود در انجام استنتاج ساختاریافته و منطقی هنگام تجزیه و تحلیل تصاویر است. در حالی که مدلهای زبانی بزرگ قابلیتهای استدلال قوی را در زمینههای متنی نشان میدهند، اما در استخراج نتیجهگیری از اطلاعات بصری به طور دقیق ناکام هستند. این نقص در کارهایی که نیاز به ترکیبی از ادراک و استدلال گام به گام دارند، مانند حل مسائل ریاضی بصری، تفسیر نمودارها یا درک شماتیکهای علمی، مشهود است. مدلهای فعلی اغلب معنای عمیقتر زمینهای تصاویر را نادیده میگیرند یا به جای تجزیه و تحلیل منطقی دقیق، به تشخیص سطحی الگوها تکیه میکنند. بدون یک روش قوی برای ادغام سیستماتیک دادههای تصویر و متن، این مدلها همچنان در کارهای مبتنی بر استدلال عملکرد پایینی دارند.
تکنیکهای متعددی برای بهبود استدلال چندوجهی پیشنهاد شدهاند، اما محدودیتهای قابل توجهی از خود نشان میدهند. برخی از مدلها از الگوهای فکری از پیش تعریفشده استفاده میکنند که سعی در ساختاربندی استدلال در یک قالب سفت و سخت دارند و انعطافپذیری در حل مسئله را محدود میکنند. برخی دیگر به تقلید مستقیم از پاسخهای حاشیهنویسیشده توسط انسان تکیه میکنند، که آنها را قادر میسازد پاسخهای قانعکنندهای تولید کنند، اما نمیتوانند فراتر از مثالهای آشنا تعمیم دهند. این رویکردها هنگام مواجهه با مسائل جدید که نیاز به استدلال تطبیقی دارند، ناکام میشوند. علاوه بر این، عدم وجود معیارهای جامع برای ارزیابی قابلیتهای استدلال چندوجهی مانع از ارزیابی دقیق عملکرد میشود و تعیین اثربخشی واقعی مدلهای هوش مصنوعی جدید را دشوار میکند.
برای رسیدگی به این مسائل، محققان دانشگاه ژجیانگ، شرکت Tencent و دانشگاه رنمین چین، R1-Onevision را معرفی کردند. این مدل برای پر کردن شکاف بین ادراک بصری و استدلال ساختاریافته با اجرای یک تکنیک فرمالیزاسیون بینوجهی طراحی شده است. به جای تکیه صرف بر استخراج ویژگیهای مبتنی بر تصویر، این مدل محتوای بصری را به بازنماییهای متنی ساختاریافته تبدیل میکند و به آن اجازه میدهد تصاویر را با همان عمق دادههای متنی پردازش کند. این رویکرد مدل را قادر میسازد تا استنتاج منطقی گام به گام را انجام دهد و به طور قابل توجهی توانایی آن را در تجزیه و تحلیل اطلاعات بصری پیچیده بهبود میبخشد. محققان قصد دارند با ادغام مسیرهای استدلال ساختاریافته، دقت تصمیمگیری مدل را در کارهای مختلف افزایش دهند.
روششناسی پشت R1-Onevision شامل یک فرآیند چند مرحلهای است که قابلیتهای استدلال را در سطوح مختلف تقویت میکند. یک خط لوله استدلال بینوجهی در ابتدا توصیفهای ساختاریافته را از تصاویر استخراج میکند و آنها را به بازنماییهای متنی دقیق تبدیل میکند. این امر مدل را قادر میسازد تا استدلال مبتنی بر زبان را بر روی دادههای بصری انجام دهد. مجموعه دادههای توسعهیافته برای آموزش، به نام R1-Onevision-Bench، شامل مسائل استدلال بصری متنوعی از موضوعاتی مانند ریاضیات، فیزیک و استنتاج مبتنی بر منطق است. محققان از تنظیم دقیق نظارتشده (SFT) برای ایجاد الگوهای تفکر ساختاریافته در مدل استفاده کردند. یادگیری تقویتی (RL) برای بهبود بیشتر عملکرد گنجانده شد و به مدل اجازه داد تا استدلال خود را از طریق آموزش تکراری بر روی مسائل پیچیدهتر اصلاح کند. این ترکیب از تبدیل دادههای ساختاریافته، آموزش نظارتشده و بهینهسازی تقویتی تضمین میکند که مدل یک فرآیند حل مسئله قابل اعتمادتر را توسعه میدهد.
ارزیابیهای تجربی نشان میدهد که R1-Onevision به نتایج برتری نسبت به مدلهای چندوجهی پیشرو، از جمله GPT-4o و Qwen2.5-VL دست مییابد. در معیار MathVision، به دقت 29.9٪ دست یافت و از چندین جایگزین منبع باز پیشی گرفت. هنگامی که بر روی MathVerse آزمایش شد، به دقت 46.4٪ برای مسائل استاندارد و 40.0٪ برای چالشهای فقط دیداری دست یافت. علاوه بر این، در معیار MathVista، R1-Onevision با 4.1٪ از پیشینیان خود بهتر عمل کرد و اثربخشی خود را در استدلال بصری ساختاریافته نشان داد. این مدل همچنین تعمیم قوی را در شرایط آزمایشی متنوع نشان داد، که نشان میدهد ادغام فرمالیزاسیون بینوجهی به طور قابل توجهی دقت حل مسئله را بهبود میبخشد. این نتایج تأثیر مسیرهای استدلال ساختاریافته را در هوش مصنوعی چندوجهی برجسته میکند و یک مزیت آشکار نسبت به رویکردهای قبلی ارائه میدهد.
معرفی R1-Onevision نشاندهنده یک پیشرفت قابل توجه در استدلال چندوجهی است. با رسیدگی به چالشهای کلیدی در ادغام بصری-متنی، محققان مدلی را توسعه دادهاند که قادر به استدلال در انواع مسائل متنوع با دقت بالاتر است. استفاده از فرمالیزاسیون بینوجهی نه تنها استنتاج منطقی را افزایش میدهد، بلکه پایهای را برای توسعههای آینده در حل مسئله مبتنی بر هوش مصنوعی میگذارد. همانطور که هوش مصنوعی به تکامل خود ادامه میدهد، مدلهایی مانند R1-Onevision اهمیت استدلال ساختاریافته را در بهبود هوش ماشین نشان میدهند.
مقاله را بررسی کنید: مقاله. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، ما را در توییتر دنبال کنید: توییتر و فراموش نکنید که به انجمن 80k+ ML SubReddit ما بپیوندید: 80k+ ML SubReddit.