معرفی Open-Qwen2VL: یک مدل زبان بزرگ چندوجهی کاملاً باز و با کارایی محاسباتی بالا

مدل‌های زبان بزرگ چندوجهی (Multimodal Large Language Models - MLLMs) پیشرفت‌هایی در یکپارچه‌سازی حالت‌های بصری و متنی ایجاد کرده‌اند و امکان پیشرفت در وظایفی مانند تولید زیرنویس تصویر، پاسخگویی به سوالات بصری و تفسیر اسناد را فراهم کرده‌اند. با این حال، تکرار و توسعه بیشتر این مدل‌ها اغلب به دلیل عدم شفافیت با مانع مواجه می‌شود. بسیاری از پیشرفته‌ترین MLLMها اجزای کلیدی، از جمله کد آموزش، روش‌های پالایش داده‌ها و مجموعه‌داده‌های پیش‌آموزش را منتشر نمی‌کنند. علاوه بر این، منابع محاسباتی قابل توجه مورد نیاز برای آموزش این مدل‌ها یک مانع بزرگ ایجاد می‌کند، به‌ویژه برای محققان دانشگاهی با زیرساخت‌های محدود. این عدم دسترسی، تکرارپذیری را مختل کرده و انتشار تکنیک‌های جدید در جامعه تحقیقاتی را کند می‌کند.

پژوهشگرانی از دانشگاه کالیفرنیا سانتا باربارا، بایت‌دنس و انویدیا، Open-Qwen2VL را معرفی می‌کنند؛ یک مدل زبان بزرگ چندوجهی با ۲ میلیارد پارامتر که بر روی ۲۹ میلیون جفت تصویر-متن با استفاده از تقریباً ۲۲۰ ساعت پردازنده گرافیکی A100-40G پیش‌آموزش‌داده‌شده است. Open-Qwen2VL که با همکاری محققان دانشگاه کالیفرنیا سانتا باربارا، بایت‌دنس و انویدیا ریسرچ توسعه یافته است، برای رفع محدودیت‌های تکرارپذیری و منابع در تحقیقات MLLM طراحی شده است. این پروژه مجموعه کاملی از منابع متن‌باز را ارائه می‌دهد، از جمله پایگاه کد آموزش، اسکریپت‌های فیلتر کردن داده‌ها، داده‌های پیش‌آموزش با فرمت WebDataset و چک‌پوینت‌های مدل پایه و مدل تنظیم‌شده با دستورالعمل. هدف از این انتشار جامع، پشتیبانی از آزمایش شفاف و توسعه روش‌ها در حوزه یادگیری چندوجهی است.

معماری Open-Qwen2VL
معماری Open-Qwen2VL

Open-Qwen2VL بر اساس ستون فقرات مدل زبان بزرگ Qwen2.5-1.5B-Instruct، همراه با یک رمزگذار بصری SigLIP-SO-400M ساخته شده است. یک پروژکتور بصری با میانگین‌گیری تجمعی تطبیقی (Adaptive Average-Pooling Visual Projector)، تعداد توکن‌های بصری را در طول پیش‌آموزش از ۷۲۹ به ۱۴۴ کاهش می‌دهد که کارایی محاسباتی را بهبود می‌بخشد. تعداد توکن‌ها در مرحله تنظیم دقیق نظارت‌شده (supervised fine-tuning - SFT) دوباره به ۷۲۹ افزایش می‌یابد. این استراتژی وضوح پایین به بالا، قابلیت‌های درک تصویر را حفظ کرده و در عین حال مصرف منابع را بهینه می‌کند.

برای افزایش بیشتر کارایی آموزش، Open-Qwen2VL از بسته‌بندی توالی چندوجهی (multimodal sequence packing) استفاده می‌کند که امکان الحاق چندین جفت تصویر-متن را در توالی‌هایی با حدود ۴۰۹۶ توکن فراهم می‌کند، در نتیجه پدینگ (padding) و سربار محاسباتی را به حداقل می‌رساند. پارامترهای رمزگذار بصری در طول پیش‌آموزش برای صرفه‌جویی در منابع ثابت باقی می‌مانند و به صورت اختیاری در طول SFT برای بهبود عملکرد در وظایف پایین‌دستی از حالت ثابت خارج می‌شوند.

مقایسه عملکرد Open-Qwen2VL
مقایسه عملکرد

Open-Qwen2VL تنها با ۰.۳۶٪ از تعداد توکن‌های استفاده شده در Qwen2-VL آموزش داده شده است، اما عملکرد قابل مقایسه یا برتری را در چندین معیار نشان می‌دهد. این مدل در MMBench امتیاز ۸۰.۹ را کسب کرده و در SEEDBench (۷۲.۵)، MMStar (۴۹.۷) و MathVista (۵۳.۱) عملکرد رقابتی دارد. مطالعات ابلیشن (Ablation studies) نشان می‌دهد که ادغام یک زیرمجموعه کوچک (۵ میلیون نمونه) از جفت‌های تصویر-متن با کیفیت بالا که با استفاده از تکنیک‌های مبتنی بر MLM فیلتر شده‌اند، می‌تواند منجر به بهبود قابل‌توجهی در عملکرد شود، که اهمیت کیفیت داده‌ها بر حجم آن‌ها را برجسته می‌کند.

علاوه بر این، Open-Qwen2VL قابلیت‌های یادگیری چندوجهی درون‌متنی با نمونه‌های کم (few-shot) قوی‌ای را نشان می‌دهد. هنگامی که بر روی مجموعه داده‌هایی مانند GQA و TextVQA ارزیابی می‌شود، این مدل افزایش دقت ۳٪ تا ۱۲٪ را در سناریوهای 0-shot تا 8-shot نشان می‌دهد. عملکرد تنظیم دقیق با اندازه مجموعه داده تنظیم با دستورالعمل به طور قابل پیش‌بینی مقیاس می‌یابد، به طوری که افزایش عملکرد در حدود ۸ میلیون مثال از مجموعه داده MAmmoTH-VL-10M به حالت پایدار می‌رسد.

Open-Qwen2VL یک خط لوله تکرارپذیر و با منابع کارآمد برای آموزش مدل‌های زبان بزرگ چندوجهی معرفی می‌کند. با پرداختن سیستماتیک به محدودیت‌های مدل‌های قبلی از نظر باز بودن و نیازمندی‌های محاسباتی، امکان مشارکت گسترده‌تر در تحقیقات MLLM را فراهم می‌کند. انتخاب‌های طراحی این مدل—از جمله مدیریت کارآمد توکن‌های بصری، بسته‌بندی توالی چندوجهی و انتخاب دقیق داده‌ها—مسیر قابل قبولی را برای موسسات دانشگاهی که قصد مشارکت در این زمینه را دارند، نشان می‌دهد. Open-Qwen2VL یک خط پایه تکرارپذیر ایجاد کرده و پایه‌ای برای کارهای آینده بر روی مدل‌های زبان بزرگ چندوجهی مقیاس‌پذیر و با عملکرد بالا در محیط‌های محاسباتی محدود فراهم می‌کند.


مقاله، مدل، داده‌ها و کد را بررسی کنید. تمام اعتبار این تحقیق متعلق به پژوهشگران این پروژه است. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت یادگیری ماشین ما با بیش از ۸۵ هزار عضو بپیوندید.