یک مدل جدید هوش مصنوعی متنباز از استارتاپ چینی Moonshot AI، تصاویر، متن و ویدیوها را با بازدهی شگفتانگیزی پردازش میکند. Kimi-VL به دلیل توانایی خود در مدیریت اسناد طولانی، استدلال پیچیده و درک رابط کاربری متمایز است.
به گفته Moonshot AI، مدل Kimi-VL از معماری ترکیبی از متخصصان (mixture-of-experts) استفاده میکند و تنها بخشی از مدل را برای هر کار فعال میکند. Kimi-VL با تنها ۲.۸ میلیارد پارامتر فعال - بسیار کمتر از بسیاری از مدلهای بزرگ - نتایجی مشابه سیستمهای بسیار بزرگتر در معیارهای مختلف ارائه میدهد.
این مدل دارای یک پنجره متنی حداکثر ۱۲۸۰۰۰ توکن است که برای پردازش یک کتاب کامل یا رونوشت ویدیویی طولانی کافی است. Moonshot AI گزارش میدهد که Kimi-VL به طور مداوم در تستهایی مانند LongVideoBench و MMLongBench-Doc امتیاز خوبی کسب میکند.
قابلیتهای پردازش تصویر Kimi-VL قابل توجه است. برخلاف برخی از سیستمها، میتواند اسکرینشاتهای کامل یا گرافیکهای پیچیده را بدون شکستن آنها به قطعات کوچکتر تجزیه و تحلیل کند. این مدل همچنین مسائل تصویر ریاضی و یادداشتهای دستنویس را مدیریت میکند. در یک آزمایش، یک دستنوشته را تجزیه و تحلیل کرد، مراجعی به آلبرت اینشتین را شناسایی و ارتباط آنها را توضیح داد.
این سیستم همچنین به عنوان یک دستیار نرمافزاری عمل میکند، رابطهای کاربری گرافیکی را تفسیر میکند و وظایف دیجیتال را خودکار میکند. Moonshot AI ادعا میکند که در آزمایشهایی که مدل در منوهای مرورگر پیمایش میکرد یا تنظیمات را تغییر میداد، از بسیاری از سیستمهای دیگر، از جمله GPT-4o، عملکرد بهتری داشت.
طراحی فشرده، نتایج رقابتی
در مقایسه با سایر مدلهای متنباز مانند Qwen2.5-VL-7B و Gemma-3-12B-IT، به نظر میرسد Kimi-VL کارآمدتر است. به گفته Moonshot AI، این مدل در ۱۹ مورد از ۲۴ معیار پیشتاز است، با وجود اینکه با پارامترهای فعال بسیار کمتری اجرا میشود. گزارش شده است که در MMBench-EN و AI2D، امتیازهایی را که معمولاً از مدلهای تجاری بزرگتر دیده میشود، مطابقت میدهد یا شکست میدهد.
این شرکت بیشتر این عملکرد را به رویکرد آموزشی خود نسبت میدهد. فراتر از تنظیم دقیق نظارت شده استاندارد، Kimi-VL از یادگیری تقویتی استفاده میکند. یک نسخه تخصصی به نام Kimi-VL-Thinking آموزش داده شد تا مراحل استدلال طولانیتری را طی کند و عملکرد را در وظایفی که نیاز به تفکر پیچیدهتری دارند، مانند استدلال ریاضی، افزایش دهد.
Kimi-VL بدون محدودیت نیست. اندازه فعلی آن عملکرد آن را در وظایف بسیار فشرده زبانی یا خاص محدود میکند، و همچنان با چالشهای فنی در زمینههای بسیار طولانی، حتی با پنجره متنی گستردهتر، مواجه است.
Moonshot AI میگوید که قصد دارد نسخههای بزرگتر مدل را توسعه دهد، دادههای آموزشی بیشتری را بگنجاند و تنظیم دقیق را بهبود بخشد. هدف بلندمدت اعلام شده این شرکت ایجاد یک "سیستم قدرتمند و در عین حال کارآمد از نظر منابع" مناسب برای استفاده در دنیای واقعی در تحقیقات و صنعت است.
در اوایل سال جاری، Moonshot AI مدل Kimi k1.5 را منتشر کرد، یک مدل چندوجهی برای استدلال پیچیده که این شرکت ادعا میکند در معیارها در برابر GPT-4o حرفی برای گفتن دارد. Kimi k1.5 در رابط وب kimi.ai در دسترس است. نسخه آزمایشی Kimi-VL را میتوان در Hugging Face یافت.