انتشار Kimi-VL توسط Moonsight AI: مجموعه‌ای فشرده و قدرتمند از مدل‌های بینایی-زبانی

Singlestore-April-29-2024-10-AM
معماری Kimi-VL
معماری Kimi-VL
ترکیب داده‌های آموزشی Kimi-VL
ترکیب داده‌های آموزشی Kimi-VL
نتایج بنچمارک Kimi-VL
نتایج بنچمارک Kimi-VL

هوش مصنوعی چندوجهی (Multimodal AI) ماشین‌ها را قادر می‌سازد تا قالب‌های ورودی مختلف مانند تصاویر، متون، ویدیوها و اسناد پیچیده را پردازش و استدلال کنند. این حوزه به دلیل ناتوانی مدل‌های زبانی سنتی در مواجهه با داده‌های بصری یا تفسیر متنی که در انواع ورودی‌های مختلف گسترده شده است، با افزایش علاقه مواجه شده است. دنیای واقعی ذاتاً چندوجهی است، بنابراین سیستم‌هایی که هدفشان کمک به وظایف در زمان واقعی، تجزیه و تحلیل رابط‌های کاربری، درک مطالب آکادمیک یا تفسیر صحنه‌های پیچیده است، به هوشی فراتر از استدلال متنی نیاز دارند. مدل‌های جدیدتری در حال توسعه هستند تا به طور همزمان نشانه‌های زبانی و بصری را رمزگشایی کنند تا وظایف را با آگاهی متنی بهبود یافته، عمق استدلال و سازگاری با اشکال مختلف ورودی داده انجام دهند.

محدودیتی که امروزه در سیستم‌های چندوجهی وجود دارد، ناتوانی آنها در پردازش کارآمد متون طولانی و تعمیم در ساختارهای ورودی با وضوح بالا یا متنوع بدون به خطر انداختن عملکرد است. بسیاری از مدل‌های متن‌باز ورودی را به چند هزار توکن محدود می‌کنند یا برای حفظ عملکرد در مقیاس، منابع محاسباتی زیادی را طلب می‌کنند. این محدودیت‌ها منجر به مدل‌هایی می‌شوند که ممکن است در بنچمارک‌های استاندارد عملکرد خوبی داشته باشند، اما با برنامه‌های کاربردی دنیای واقعی که شامل ورودی‌های پیچیده و چند تصویری، گفتگوهای طولانی یا وظایف آکادمیک مانند تجزیه و تحلیل اسناد مبتنی بر OCR و حل مسائل ریاضی هستند، دست و پنجه نرم می‌کنند. همچنین، شکافی در توانایی استدلال، به‌ویژه تفکر دوربرد، وجود دارد که مانع از آن می‌شود که سیستم‌های کنونی از عهده وظایفی برآیند که نیازمند منطق گام به گام یا هم‌ترازی عمیق متنی بین روش‌های مختلف داده هستند.

ابزارهای قبلی تلاش کرده‌اند تا این چالش‌ها را برطرف کنند، اما اغلب در مقیاس‌پذیری یا انعطاف‌پذیری با مشکل مواجه شده‌اند. سری Qwen2.5-VL و مدل‌های Gemma-3، با وجود معماری‌های متراکم‌شان، فاقد پشتیبانی داخلی برای استدلال از طریق زنجیره‌های فکری طولانی‌تر هستند. مدل‌هایی مانند DeepSeek-VL2 و Aria استراتژی‌های mixture-of-experts (MoE) را اتخاذ کردند، اما رمزگذارهای دید ثابت داشتند که توانایی آنها را برای انطباق با وضوح‌ها و اشکال مختلف ورودی بصری محدود می‌کرد. همچنین، این مدل‌ها معمولاً تنها از پنجره‌های متنی کوتاه (4K توکن در DeepSeek-VL2) پشتیبانی می‌کردند و در OCR پیچیده یا سناریوهای چند تصویری موفقیت محدودی داشتند. به این ترتیب، اکثر سیستم‌های موجود نتوانستند مصرف کم منابع را با توانایی مقابله با وظایفی که شامل متن طولانی و داده‌های بصری متنوع است، متعادل کنند.

پژوهشگران در Moonshot AI مدل جدید بینایی-زبانی Kimi-VL را معرفی کردند که از معماری MoE استفاده می‌کند. این سیستم تنها 2.8 میلیارد پارامتر را در رمزگشای خود فعال می‌کند که به طور قابل توجهی سبک‌تر از بسیاری از رقبا است، در حالی که قابلیت‌های چندوجهی قدرتمندی را حفظ می‌کند. دو مدل منتشر شده بر اساس این معماری در Hugging Face عبارتند از: Kimi-VL-A3B-Thinking و Kimi-VL-A3B-Instruct. این مدل یک رمزگذار بصری با وضوح اصلی به نام MoonViT را در خود جای داده است و از پنجره‌های متنی تا 128K توکن پشتیبانی می‌کند. این مدل دارای سه جزء یکپارچه است: رمزگذار MoonViT، یک پروژکتور MLP برای انتقال ویژگی‌های بصری به جاسازی‌های زبانی، و رمزگشای Moonlight MoE. پژوهشگران همچنین یک نسخه پیشرفته‌تر به نام Kimi-VL-Thinking را به طور خاص برای وظایف استدلال دوربرد از طریق تنظیم دقیق تحت نظارت زنجیره فکری و یادگیری تقویتی توسعه دادند. در مجموع، هدف این مدل‌ها تعریف مجدد معیارهای کارایی در استدلال بینایی-زبانی است.

نوآوری معماری در Kimi-VL در قابلیت انطباق و توانایی پردازش آن نهفته است. MoonViT تصاویر با وضوح بالا را در شکل اصلی خود پردازش می‌کند و نیاز به تکه‌تکه کردن تصاویر فرعی را از بین می‌برد. برای اطمینان از سازگاری فضایی در وضوح‌های مختلف تصویر، این مدل از جاسازی‌های موقعیتی مطلق درون‌یابی شده همراه با جاسازی‌های موقعیتی چرخشی دو بعدی در ارتفاع و عرض استفاده می‌کند. این انتخاب‌های طراحی به MoonViT اجازه می‌دهد تا جزئیات دقیق را حتی در ورودی‌های تصویر در مقیاس بزرگ حفظ کند. خروجی‌های رمزگذار دید از طریق یک MLP دو لایه عبور داده می‌شوند که از عملیات shuffle پیکسل برای نمونه‌برداری فضایی و تبدیل ویژگی‌ها به جاسازی‌های سازگار با LLM استفاده می‌کند. در سمت زبان، رمزگشای MoE با پارامتر فعال 2.8B از 16B پارامتر کل پشتیبانی می‌کند و به طور یکپارچه با نمایش‌های بصری ادغام می‌شود و آموزش و استنتاج بسیار کارآمد را در انواع ورودی‌های مختلف امکان‌پذیر می‌کند. کل فرآیند آموزش از یک بهینه‌ساز Muon بهبود یافته با کاهش وزن و بهینه‌سازی حافظه مبتنی بر ZeRO-1 برای مدیریت تعداد پارامترهای بزرگ استفاده کرد.

ترکیب داده‌های آموزشی نشان‌دهنده تمرکز بر یادگیری چندوجهی متنوع است. این تیم با شروع با 2.0T توکن برای آموزش ViT با استفاده از جفت‌های تصویر-عنوان، 0.1T دیگر برای هم‌تراز کردن رمزگذار با رمزگشا اضافه کرد. پیش‌آموزش مشترک 1.4T توکن مصرف کرد، و پس از آن 0.6T در خنک‌سازی و 0.3T در فعال‌سازی بافت طولانی، در مجموع 4.4T توکن. این مراحل شامل مجموعه‌های داده بصری آکادمیک، نمونه‌های OCR، داده‌های ویدیویی طولانی و جفت‌های پرسش و پاسخ مصنوعی ریاضی و مبتنی بر کد بود. برای یادگیری بافت طولانی، مدل به طور پیوسته آموزش داده شد تا توالی‌هایی از 8K تا 128K توکن را با استفاده از جاسازی‌های RoPE گسترش‌یافته از فرکانس پایه 50000 به 800000 مدیریت کند. این امر به مدل اجازه داد تا دقت یادآوری توکن 100٪ را تا 64K توکن حفظ کند، و با افت جزئی به 87.0٪ در 128K، همچنان از اکثر گزینه‌های جایگزین بهتر عمل کند.

Kimi-VL نتایج قوی در طیف وسیعی از معیارها نشان داد. در LongVideoBench، امتیاز 64.5 را کسب کرد. در MMLongBench-Doc، به 35.1 رسید؛ و در معیار InfoVQA، با 83.2 پیشتاز بود. در ScreenSpot-Pro، که درک صفحه‌های UI را آزمایش می‌کند، امتیاز 34.5 را کسب کرد. نوع Kimi-VL-Thinking در معیارهای استدلال‌محور مانند MMMU (61.7)، MathVision (36.8) و MathVista (71.3) برتری داشت. برای وظایف عامل مانند OSWorld، این مدل با عملکرد مدل‌های بزرگ‌تر مانند GPT-4o مطابقت داشت یا از آن فراتر رفت، در حالی که پارامترهای بسیار کمتری را فعال می‌کرد. طراحی فشرده و قابلیت‌های استدلال قوی آن، آن را به یک نامزد پیشرو در میان راه‌حل‌های چندوجهی متن‌باز تبدیل کرده است.

برخی از نکات کلیدی از تحقیقات در مورد Kimi-VL:

  • Kimi-VL تنها 2.8B پارامتر را در طول استنتاج فعال می‌کند و از کارایی بدون فدا کردن قابلیت اطمینان حاصل می‌کند.
  • MoonViT، رمزگذار دید آن، به طور بومی تصاویر با وضوح بالا را پردازش می‌کند و وضوح را در وظایفی مانند OCR و تفسیر UI بهبود می‌بخشد.
  • این مدل از حداکثر 128K توکن بافت پشتیبانی می‌کند و به 100٪ یادآوری تا 64K و 87.0٪ دقت در 128K در وظایف متن/ویدیو دست می‌یابد.
  • Kimi-VL-Thinking امتیاز 61.7 را در MMMU، 36.8 را در MathVision و 71.3 را در MathVista کسب می‌کند که از بسیاری از VLMهای بزرگ‌تر بهتر عمل می‌کند.
  • این مدل امتیاز 83.2 را در InfoVQA و 34.5 را در وظایف بصری در ScreenSpot-Pro کسب کرد که دقت آن را در ارزیابی‌های مبتنی بر ادراک نشان می‌دهد.
  • پیش‌آموزش کلی شامل 4.4T توکن در متن، ویدیو، سند و داده‌های چندوجهی مصنوعی بود.
  • بهینه‌سازی با استفاده از یک بهینه‌ساز Muon سفارشی با استراتژی‌های کارآمد حافظه مانند ZeRO-1 انجام شد.
  • آموزش مشترک از ادغام یکپارچه ویژگی‌های بصری و زبانی ضمن حفظ قابلیت‌های اصلی زبان اطمینان حاصل کرد.

مدل Instruct و مدل استدلال را بررسی کنید. تمام اعتبار این تحقیق به پژوهشگران این پروژه می‌رسد. همچنین، در توییتر ما را دنبال کنید و فراموش نکنید که به ساب‌ردیت 85k+ ML ما بپیوندید.