هوش مصنوعی چندوجهی (Multimodal AI) ماشینها را قادر میسازد تا قالبهای ورودی مختلف مانند تصاویر، متون، ویدیوها و اسناد پیچیده را پردازش و استدلال کنند. این حوزه به دلیل ناتوانی مدلهای زبانی سنتی در مواجهه با دادههای بصری یا تفسیر متنی که در انواع ورودیهای مختلف گسترده شده است، با افزایش علاقه مواجه شده است. دنیای واقعی ذاتاً چندوجهی است، بنابراین سیستمهایی که هدفشان کمک به وظایف در زمان واقعی، تجزیه و تحلیل رابطهای کاربری، درک مطالب آکادمیک یا تفسیر صحنههای پیچیده است، به هوشی فراتر از استدلال متنی نیاز دارند. مدلهای جدیدتری در حال توسعه هستند تا به طور همزمان نشانههای زبانی و بصری را رمزگشایی کنند تا وظایف را با آگاهی متنی بهبود یافته، عمق استدلال و سازگاری با اشکال مختلف ورودی داده انجام دهند.
محدودیتی که امروزه در سیستمهای چندوجهی وجود دارد، ناتوانی آنها در پردازش کارآمد متون طولانی و تعمیم در ساختارهای ورودی با وضوح بالا یا متنوع بدون به خطر انداختن عملکرد است. بسیاری از مدلهای متنباز ورودی را به چند هزار توکن محدود میکنند یا برای حفظ عملکرد در مقیاس، منابع محاسباتی زیادی را طلب میکنند. این محدودیتها منجر به مدلهایی میشوند که ممکن است در بنچمارکهای استاندارد عملکرد خوبی داشته باشند، اما با برنامههای کاربردی دنیای واقعی که شامل ورودیهای پیچیده و چند تصویری، گفتگوهای طولانی یا وظایف آکادمیک مانند تجزیه و تحلیل اسناد مبتنی بر OCR و حل مسائل ریاضی هستند، دست و پنجه نرم میکنند. همچنین، شکافی در توانایی استدلال، بهویژه تفکر دوربرد، وجود دارد که مانع از آن میشود که سیستمهای کنونی از عهده وظایفی برآیند که نیازمند منطق گام به گام یا همترازی عمیق متنی بین روشهای مختلف داده هستند.
ابزارهای قبلی تلاش کردهاند تا این چالشها را برطرف کنند، اما اغلب در مقیاسپذیری یا انعطافپذیری با مشکل مواجه شدهاند. سری Qwen2.5-VL و مدلهای Gemma-3، با وجود معماریهای متراکمشان، فاقد پشتیبانی داخلی برای استدلال از طریق زنجیرههای فکری طولانیتر هستند. مدلهایی مانند DeepSeek-VL2 و Aria استراتژیهای mixture-of-experts (MoE) را اتخاذ کردند، اما رمزگذارهای دید ثابت داشتند که توانایی آنها را برای انطباق با وضوحها و اشکال مختلف ورودی بصری محدود میکرد. همچنین، این مدلها معمولاً تنها از پنجرههای متنی کوتاه (4K توکن در DeepSeek-VL2) پشتیبانی میکردند و در OCR پیچیده یا سناریوهای چند تصویری موفقیت محدودی داشتند. به این ترتیب، اکثر سیستمهای موجود نتوانستند مصرف کم منابع را با توانایی مقابله با وظایفی که شامل متن طولانی و دادههای بصری متنوع است، متعادل کنند.
پژوهشگران در Moonshot AI مدل جدید بینایی-زبانی Kimi-VL را معرفی کردند که از معماری MoE استفاده میکند. این سیستم تنها 2.8 میلیارد پارامتر را در رمزگشای خود فعال میکند که به طور قابل توجهی سبکتر از بسیاری از رقبا است، در حالی که قابلیتهای چندوجهی قدرتمندی را حفظ میکند. دو مدل منتشر شده بر اساس این معماری در Hugging Face عبارتند از: Kimi-VL-A3B-Thinking و Kimi-VL-A3B-Instruct. این مدل یک رمزگذار بصری با وضوح اصلی به نام MoonViT را در خود جای داده است و از پنجرههای متنی تا 128K توکن پشتیبانی میکند. این مدل دارای سه جزء یکپارچه است: رمزگذار MoonViT، یک پروژکتور MLP برای انتقال ویژگیهای بصری به جاسازیهای زبانی، و رمزگشای Moonlight MoE. پژوهشگران همچنین یک نسخه پیشرفتهتر به نام Kimi-VL-Thinking را به طور خاص برای وظایف استدلال دوربرد از طریق تنظیم دقیق تحت نظارت زنجیره فکری و یادگیری تقویتی توسعه دادند. در مجموع، هدف این مدلها تعریف مجدد معیارهای کارایی در استدلال بینایی-زبانی است.
نوآوری معماری در Kimi-VL در قابلیت انطباق و توانایی پردازش آن نهفته است. MoonViT تصاویر با وضوح بالا را در شکل اصلی خود پردازش میکند و نیاز به تکهتکه کردن تصاویر فرعی را از بین میبرد. برای اطمینان از سازگاری فضایی در وضوحهای مختلف تصویر، این مدل از جاسازیهای موقعیتی مطلق درونیابی شده همراه با جاسازیهای موقعیتی چرخشی دو بعدی در ارتفاع و عرض استفاده میکند. این انتخابهای طراحی به MoonViT اجازه میدهد تا جزئیات دقیق را حتی در ورودیهای تصویر در مقیاس بزرگ حفظ کند. خروجیهای رمزگذار دید از طریق یک MLP دو لایه عبور داده میشوند که از عملیات shuffle پیکسل برای نمونهبرداری فضایی و تبدیل ویژگیها به جاسازیهای سازگار با LLM استفاده میکند. در سمت زبان، رمزگشای MoE با پارامتر فعال 2.8B از 16B پارامتر کل پشتیبانی میکند و به طور یکپارچه با نمایشهای بصری ادغام میشود و آموزش و استنتاج بسیار کارآمد را در انواع ورودیهای مختلف امکانپذیر میکند. کل فرآیند آموزش از یک بهینهساز Muon بهبود یافته با کاهش وزن و بهینهسازی حافظه مبتنی بر ZeRO-1 برای مدیریت تعداد پارامترهای بزرگ استفاده کرد.
ترکیب دادههای آموزشی نشاندهنده تمرکز بر یادگیری چندوجهی متنوع است. این تیم با شروع با 2.0T توکن برای آموزش ViT با استفاده از جفتهای تصویر-عنوان، 0.1T دیگر برای همتراز کردن رمزگذار با رمزگشا اضافه کرد. پیشآموزش مشترک 1.4T توکن مصرف کرد، و پس از آن 0.6T در خنکسازی و 0.3T در فعالسازی بافت طولانی، در مجموع 4.4T توکن. این مراحل شامل مجموعههای داده بصری آکادمیک، نمونههای OCR، دادههای ویدیویی طولانی و جفتهای پرسش و پاسخ مصنوعی ریاضی و مبتنی بر کد بود. برای یادگیری بافت طولانی، مدل به طور پیوسته آموزش داده شد تا توالیهایی از 8K تا 128K توکن را با استفاده از جاسازیهای RoPE گسترشیافته از فرکانس پایه 50000 به 800000 مدیریت کند. این امر به مدل اجازه داد تا دقت یادآوری توکن 100٪ را تا 64K توکن حفظ کند، و با افت جزئی به 87.0٪ در 128K، همچنان از اکثر گزینههای جایگزین بهتر عمل کند.
Kimi-VL نتایج قوی در طیف وسیعی از معیارها نشان داد. در LongVideoBench، امتیاز 64.5 را کسب کرد. در MMLongBench-Doc، به 35.1 رسید؛ و در معیار InfoVQA، با 83.2 پیشتاز بود. در ScreenSpot-Pro، که درک صفحههای UI را آزمایش میکند، امتیاز 34.5 را کسب کرد. نوع Kimi-VL-Thinking در معیارهای استدلالمحور مانند MMMU (61.7)، MathVision (36.8) و MathVista (71.3) برتری داشت. برای وظایف عامل مانند OSWorld، این مدل با عملکرد مدلهای بزرگتر مانند GPT-4o مطابقت داشت یا از آن فراتر رفت، در حالی که پارامترهای بسیار کمتری را فعال میکرد. طراحی فشرده و قابلیتهای استدلال قوی آن، آن را به یک نامزد پیشرو در میان راهحلهای چندوجهی متنباز تبدیل کرده است.
برخی از نکات کلیدی از تحقیقات در مورد Kimi-VL:
- Kimi-VL تنها 2.8B پارامتر را در طول استنتاج فعال میکند و از کارایی بدون فدا کردن قابلیت اطمینان حاصل میکند.
- MoonViT، رمزگذار دید آن، به طور بومی تصاویر با وضوح بالا را پردازش میکند و وضوح را در وظایفی مانند OCR و تفسیر UI بهبود میبخشد.
- این مدل از حداکثر 128K توکن بافت پشتیبانی میکند و به 100٪ یادآوری تا 64K و 87.0٪ دقت در 128K در وظایف متن/ویدیو دست مییابد.
- Kimi-VL-Thinking امتیاز 61.7 را در MMMU، 36.8 را در MathVision و 71.3 را در MathVista کسب میکند که از بسیاری از VLMهای بزرگتر بهتر عمل میکند.
- این مدل امتیاز 83.2 را در InfoVQA و 34.5 را در وظایف بصری در ScreenSpot-Pro کسب کرد که دقت آن را در ارزیابیهای مبتنی بر ادراک نشان میدهد.
- پیشآموزش کلی شامل 4.4T توکن در متن، ویدیو، سند و دادههای چندوجهی مصنوعی بود.
- بهینهسازی با استفاده از یک بهینهساز Muon سفارشی با استراتژیهای کارآمد حافظه مانند ZeRO-1 انجام شد.
- آموزش مشترک از ادغام یکپارچه ویژگیهای بصری و زبانی ضمن حفظ قابلیتهای اصلی زبان اطمینان حاصل کرد.
مدل Instruct و مدل استدلال را بررسی کنید. تمام اعتبار این تحقیق به پژوهشگران این پروژه میرسد. همچنین، در توییتر ما را دنبال کنید و فراموش نکنید که به سابردیت 85k+ ML ما بپیوندید.