مدلهای زبان بزرگ چندوجهی (Multimodal Large Language Models - MLLMs) پیشرفتهایی در یکپارچهسازی حالتهای بصری و متنی ایجاد کردهاند و امکان پیشرفت در وظایفی مانند تولید زیرنویس تصویر، پاسخگویی به سوالات بصری و تفسیر اسناد را فراهم کردهاند. با این حال، تکرار و توسعه بیشتر این مدلها اغلب به دلیل عدم شفافیت با مانع مواجه میشود. بسیاری از پیشرفتهترین MLLMها اجزای کلیدی، از جمله کد آموزش، روشهای پالایش دادهها و مجموعهدادههای پیشآموزش را منتشر نمیکنند. علاوه بر این، منابع محاسباتی قابل توجه مورد نیاز برای آموزش این مدلها یک مانع بزرگ ایجاد میکند، بهویژه برای محققان دانشگاهی با زیرساختهای محدود. این عدم دسترسی، تکرارپذیری را مختل کرده و انتشار تکنیکهای جدید در جامعه تحقیقاتی را کند میکند.
پژوهشگرانی از دانشگاه کالیفرنیا سانتا باربارا، بایتدنس و انویدیا، Open-Qwen2VL را معرفی میکنند؛ یک مدل زبان بزرگ چندوجهی با ۲ میلیارد پارامتر که بر روی ۲۹ میلیون جفت تصویر-متن با استفاده از تقریباً ۲۲۰ ساعت پردازنده گرافیکی A100-40G پیشآموزشدادهشده است. Open-Qwen2VL که با همکاری محققان دانشگاه کالیفرنیا سانتا باربارا، بایتدنس و انویدیا ریسرچ توسعه یافته است، برای رفع محدودیتهای تکرارپذیری و منابع در تحقیقات MLLM طراحی شده است. این پروژه مجموعه کاملی از منابع متنباز را ارائه میدهد، از جمله پایگاه کد آموزش، اسکریپتهای فیلتر کردن دادهها، دادههای پیشآموزش با فرمت WebDataset و چکپوینتهای مدل پایه و مدل تنظیمشده با دستورالعمل. هدف از این انتشار جامع، پشتیبانی از آزمایش شفاف و توسعه روشها در حوزه یادگیری چندوجهی است.
Open-Qwen2VL بر اساس ستون فقرات مدل زبان بزرگ Qwen2.5-1.5B-Instruct، همراه با یک رمزگذار بصری SigLIP-SO-400M ساخته شده است. یک پروژکتور بصری با میانگینگیری تجمعی تطبیقی (Adaptive Average-Pooling Visual Projector)، تعداد توکنهای بصری را در طول پیشآموزش از ۷۲۹ به ۱۴۴ کاهش میدهد که کارایی محاسباتی را بهبود میبخشد. تعداد توکنها در مرحله تنظیم دقیق نظارتشده (supervised fine-tuning - SFT) دوباره به ۷۲۹ افزایش مییابد. این استراتژی وضوح پایین به بالا، قابلیتهای درک تصویر را حفظ کرده و در عین حال مصرف منابع را بهینه میکند.
برای افزایش بیشتر کارایی آموزش، Open-Qwen2VL از بستهبندی توالی چندوجهی (multimodal sequence packing) استفاده میکند که امکان الحاق چندین جفت تصویر-متن را در توالیهایی با حدود ۴۰۹۶ توکن فراهم میکند، در نتیجه پدینگ (padding) و سربار محاسباتی را به حداقل میرساند. پارامترهای رمزگذار بصری در طول پیشآموزش برای صرفهجویی در منابع ثابت باقی میمانند و به صورت اختیاری در طول SFT برای بهبود عملکرد در وظایف پاییندستی از حالت ثابت خارج میشوند.
Open-Qwen2VL تنها با ۰.۳۶٪ از تعداد توکنهای استفاده شده در Qwen2-VL آموزش داده شده است، اما عملکرد قابل مقایسه یا برتری را در چندین معیار نشان میدهد. این مدل در MMBench امتیاز ۸۰.۹ را کسب کرده و در SEEDBench (۷۲.۵)، MMStar (۴۹.۷) و MathVista (۵۳.۱) عملکرد رقابتی دارد. مطالعات ابلیشن (Ablation studies) نشان میدهد که ادغام یک زیرمجموعه کوچک (۵ میلیون نمونه) از جفتهای تصویر-متن با کیفیت بالا که با استفاده از تکنیکهای مبتنی بر MLM فیلتر شدهاند، میتواند منجر به بهبود قابلتوجهی در عملکرد شود، که اهمیت کیفیت دادهها بر حجم آنها را برجسته میکند.
علاوه بر این، Open-Qwen2VL قابلیتهای یادگیری چندوجهی درونمتنی با نمونههای کم (few-shot) قویای را نشان میدهد. هنگامی که بر روی مجموعه دادههایی مانند GQA و TextVQA ارزیابی میشود، این مدل افزایش دقت ۳٪ تا ۱۲٪ را در سناریوهای 0-shot تا 8-shot نشان میدهد. عملکرد تنظیم دقیق با اندازه مجموعه داده تنظیم با دستورالعمل به طور قابل پیشبینی مقیاس مییابد، به طوری که افزایش عملکرد در حدود ۸ میلیون مثال از مجموعه داده MAmmoTH-VL-10M به حالت پایدار میرسد.
Open-Qwen2VL یک خط لوله تکرارپذیر و با منابع کارآمد برای آموزش مدلهای زبان بزرگ چندوجهی معرفی میکند. با پرداختن سیستماتیک به محدودیتهای مدلهای قبلی از نظر باز بودن و نیازمندیهای محاسباتی، امکان مشارکت گستردهتر در تحقیقات MLLM را فراهم میکند. انتخابهای طراحی این مدل—از جمله مدیریت کارآمد توکنهای بصری، بستهبندی توالی چندوجهی و انتخاب دقیق دادهها—مسیر قابل قبولی را برای موسسات دانشگاهی که قصد مشارکت در این زمینه را دارند، نشان میدهد. Open-Qwen2VL یک خط پایه تکرارپذیر ایجاد کرده و پایهای برای کارهای آینده بر روی مدلهای زبان بزرگ چندوجهی مقیاسپذیر و با عملکرد بالا در محیطهای محاسباتی محدود فراهم میکند.