مدل متن، تصویر و ویدیوی Kimi-VL مون‌شات ای‌آی با پارامترهای محدود، عملکردی گسترده

یک مدل جدید هوش مصنوعی متن‌باز از استارتاپ چینی Moonshot AI، تصاویر، متن و ویدیوها را با بازدهی شگفت‌انگیزی پردازش می‌کند. Kimi-VL به دلیل توانایی خود در مدیریت اسناد طولانی، استدلال پیچیده و درک رابط کاربری متمایز است.

به گفته Moonshot AI، مدل Kimi-VL از معماری ترکیبی از متخصصان (mixture-of-experts) استفاده می‌کند و تنها بخشی از مدل را برای هر کار فعال می‌کند. Kimi-VL با تنها ۲.۸ میلیارد پارامتر فعال - بسیار کمتر از بسیاری از مدل‌های بزرگ - نتایجی مشابه سیستم‌های بسیار بزرگ‌تر در معیارهای مختلف ارائه می‌دهد.

این مدل دارای یک پنجره متنی حداکثر ۱۲۸۰۰۰ توکن است که برای پردازش یک کتاب کامل یا رونوشت ویدیویی طولانی کافی است. Moonshot AI گزارش می‌دهد که Kimi-VL به طور مداوم در تست‌هایی مانند LongVideoBench و MMLongBench-Doc امتیاز خوبی کسب می‌کند.

تحلیل تصویر سه گانه: مقایسه هوایی از مکان های شهری، خط افق تورنتو با مرکز راجرز، صحنه بازی سایبرپانک آینده نگر با نورپردازی نئون.
Kimi-VL توانایی تحلیل دیداری قوی در طیف وسیعی از سناریوها را نشان می‌دهد. | تصویر: Moonshot AI

قابلیت‌های پردازش تصویر Kimi-VL قابل توجه است. برخلاف برخی از سیستم‌ها، می‌تواند اسکرین‌شات‌های کامل یا گرافیک‌های پیچیده را بدون شکستن آنها به قطعات کوچک‌تر تجزیه و تحلیل کند. این مدل همچنین مسائل تصویر ریاضی و یادداشت‌های دست‌نویس را مدیریت می‌کند. در یک آزمایش، یک دست‌نوشته را تجزیه و تحلیل کرد، مراجعی به آلبرت اینشتین را شناسایی و ارتباط آنها را توضیح داد.

راهنمای دوازده مرحله ای برای فعال کردن ویژگی «عدم ردیابی» در گوگل کروم
این دستیار کاربران را گام به گام، از تنظیمات اولیه تا فعال کردن ویژگی‌های حفاظت از داده، راهنمایی می‌کند. | تصویر: Moonshot AI

این سیستم همچنین به عنوان یک دستیار نرم‌افزاری عمل می‌کند، رابط‌های کاربری گرافیکی را تفسیر می‌کند و وظایف دیجیتال را خودکار می‌کند. Moonshot AI ادعا می‌کند که در آزمایش‌هایی که مدل در منوهای مرورگر پیمایش می‌کرد یا تنظیمات را تغییر می‌داد، از بسیاری از سیستم‌های دیگر، از جمله GPT-4o، عملکرد بهتری داشت.

طراحی فشرده، نتایج رقابتی

در مقایسه با سایر مدل‌های متن‌باز مانند Qwen2.5-VL-7B و Gemma-3-12B-IT، به نظر می‌رسد Kimi-VL کارآمدتر است. به گفته Moonshot AI، این مدل در ۱۹ مورد از ۲۴ معیار پیشتاز است، با وجود اینکه با پارامترهای فعال بسیار کمتری اجرا می‌شود. گزارش شده است که در MMBench-EN و AI2D، امتیازهایی را که معمولاً از مدل‌های تجاری بزرگ‌تر دیده می‌شود، مطابقت می‌دهد یا شکست می‌دهد.

نمودار پراکندگی: مقایسه مدل های هوش مصنوعی بر اساس پارامترهای فعال شده و عملکرد MathVision، با پیشتازی Kimi-VL-Thinking در راندمان.
Kimi-VL-Thinking، با تنها ۲.۸ میلیارد پارامتر فعال، از مدل‌های بزرگ‌تر در معیار MathVision عملکرد بهتری دارد. | تصویر: Moonshot AI

این شرکت بیشتر این عملکرد را به رویکرد آموزشی خود نسبت می‌دهد. فراتر از تنظیم دقیق نظارت شده استاندارد، Kimi-VL از یادگیری تقویتی استفاده می‌کند. یک نسخه تخصصی به نام Kimi-VL-Thinking آموزش داده شد تا مراحل استدلال طولانی‌تری را طی کند و عملکرد را در وظایفی که نیاز به تفکر پیچیده‌تری دارند، مانند استدلال ریاضی، افزایش دهد.

نمودارهای میله ای متعدد عملکرد مدل های هوش مصنوعی مانند Kimi-VL-A3B و Qwen2.5-VL-7B را در تست های معیار مختلف مقایسه می کنند.
Kimi-VL-A3B در وظایف پردازش ویدیو و سند امتیاز بالایی کسب می‌کند. | تصویر: Moonshot AI

Kimi-VL بدون محدودیت نیست. اندازه فعلی آن عملکرد آن را در وظایف بسیار فشرده زبانی یا خاص محدود می‌کند، و همچنان با چالش‌های فنی در زمینه‌های بسیار طولانی، حتی با پنجره متنی گسترده‌تر، مواجه است.

Moonshot AI می‌گوید که قصد دارد نسخه‌های بزرگ‌تر مدل را توسعه دهد، داده‌های آموزشی بیشتری را بگنجاند و تنظیم دقیق را بهبود بخشد. هدف بلندمدت اعلام شده این شرکت ایجاد یک "سیستم قدرتمند و در عین حال کارآمد از نظر منابع" مناسب برای استفاده در دنیای واقعی در تحقیقات و صنعت است.

در اوایل سال جاری، Moonshot AI مدل Kimi k1.5 را منتشر کرد، یک مدل چندوجهی برای استدلال پیچیده که این شرکت ادعا می‌کند در معیارها در برابر GPT-4o حرفی برای گفتن دارد. Kimi k1.5 در رابط وب kimi.ai در دسترس است. نسخه آزمایشی Kimi-VL را می‌توان در Hugging Face یافت.