فاین‌ویژن: داده‌های باز تمام آن چیزی است که نیاز دارید

یک مجموعه داده باز جدید برای آموزش مدل‌های زبان-بینایی (VLM) داده‌محور

امروز، ما فاین‌ویژن (FineVision) را منتشر می‌کنیم، یک مجموعه داده چندوجهی جدید با ۲۴ میلیون نمونه. ما فاین‌ویژن را با گردآوری بیش از ۲۰۰ مجموعه داده شامل ۱۷ میلیون تصویر، ۸۹ میلیون چرخش پرسش و پاسخ و ۱۰ میلیارد توکن پاسخ، در مجموع ۵ ترابایت داده با کیفیت بالا، ایجاد کردیم. علاوه بر این، ما تمام مجموعه‌های داده را به طور گسترده پردازش کردیم تا فرمت آن‌ها را یکپارچه کنیم، آن‌ها را از موارد تکراری و داده‌های ضعیف پاکسازی کنیم و تمام چرخش‌ها را با استفاده از VLMهای ۳۲ میلیاردی در ۴ معیار کیفی با نمره‌ای از ۱ تا ۵ رتبه‌بندی کردیم تا امکان ساخت و مطالعه ترکیبات آموزشی مجزا فراهم شود.

برای اینکه همه بتوانند مدل‌های زبان-بینایی (VLM) باز پیشرفته را بسازند، ما مطالعات حذف گسترده‌ای روی فاین‌ویژن انجام دادیم و آن را با جایگزین‌های عمومی موجود مقایسه کردیم. مدل‌هایی که روی فاین‌ویژن آموزش دیده‌اند، به لطف مقیاس و تنوع داده‌های فاین‌ویژن، در عملکرد در ۱۱ معیار ارزیابی رایج نسبت به هر خط مبنایی پیشرو هستند.

برای استفاده از مجموعه داده، کافیست آن را با دستور زیر بارگذاری کنید:

پایتون

from datasets import load_dataset, get_dataset_config_names

# Get all subset names and load the first one
available_subsets = get_dataset_config_names('HuggingFaceM4/FineVision')
ds = load_dataset(
  'HuggingFaceM4/FineVision',
  name=available_subsets[0],
  split='train', streaming=True,
)

# Inspect the first sample
ds[0]

چرا این مجموعه داده؟

با وجود اینکه مدل‌های زبان-بینایی با وزن باز (open-weight) روز به روز قدرتمندتر می‌شوند، دسترسی به داده‌های آموزشی مورد استفاده برای این مدل‌ها عقب مانده است. این داده‌ها اغلب اختصاصی و برای جامعه گسترده‌تر غیرقابل دسترسی هستند. پروژه‌هایی مانند The Cauldron، LLaVa و Cambrian قصد دارند چنین مجموعه‌های داده‌ای را ارائه دهند، اما به سرعت توسط سرعت این حوزه و ظهور کاربردهای جدید برای VLMها، مانند وظایف عاملی، از میدان خارج می‌شوند. ما برای فاین‌ویژن قصد داشتیم منابع داده موجود را ترکیب و یکپارچه کنیم تا یک مجموعه داده بزرگ و با کیفیت بالا ایجاد کنیم. به عنوان اولین گام، ما نیاز به گردآوری و استانداردسازی مجموعه‌های داده داشتیم.

چگونه فاین‌ویژن را ساختیم؟

فاین‌ویژن یک اقدام عظیم در زمینه سازماندهی داده بود. ما با جمع‌آوری مجموعه‌های داده عمومی موجود شروع کردیم و دسته‌های کمتر نمایندگی‌شده را تقویت کردیم. سپس تمام مجموعه‌های داده را برای یافتن داده‌های تکراری داخلی و آلودگی معیار ارزیابی بررسی کردیم. این داده‌ها پس از پاکسازی و رتبه‌بندی، به ترکیب نهایی اضافه می‌شوند.

گردآوری داده

ما به صورت دستی بیش از ۲۰۰ مجموعه داده تصویر-متن را از منابع عمومی مختلف جمع‌آوری کرده و آن‌ها را برای یکپارچه‌سازی فرمت‌شان پردازش کردیم. علاوه بر این، برخی از مجموعه‌های داده به شکل چت ارائه نشده بودند، بنابراین آن‌ها را به جفت‌های پرسش و پاسخ تبدیل کردیم. در برخی موارد، این کار تا تولید مصنوعی پرسش برای تمام نمونه‌ها پیش رفت. در نهایت، به حوزه‌های کمتر نمایندگی‌شده، مانند داده‌های مربوط به رابط کاربری گرافیکی (GUI)، پرداختیم. برای پر کردن این شکاف، یک مجموعه داده جدید ایجاد و اضافه کردیم که از مجموعه‌های داده GUI موجود، پس از اعمال نرمال‌سازی چت و یکپارچه‌سازی فضای عملیاتی، برای تبدیل فرمت‌های خاص آن‌ها به یک فضای عملیاتی GUI عمومی‌تر، گردآوری شده بود.

پاکسازی

پس از جمع‌آوری تمام زیرمجموعه‌های داده، هر چرخش پاکسازی می‌شود. ما تمام چرخش‌های جداگانه را که طول پرسش و پاسخ ترکیبی آن‌ها از ۸۱۹۲ توکن تجاوز می‌کرد، حذف کردیم. تصاویر بزرگ را تغییر اندازه دادیم تا بلندترین ضلع آن‌ها ۲۰۴۸ پیکسل باشد و نسبت تصویر حفظ شود، و نمونه‌هایی را که دارای تصاویر خراب بودند حذف کردیم.

رتبه‌بندی

در نهایت، ما هر چرخش را در مجموعه داده خود در ۴ محور رتبه‌بندی کردیم. برای این کار، از یک پایپ‌لاین LLM و VLM به عنوان داور (با استفاده از Qwen3-32B و Qwen2.5VL-32B-Instruct) استفاده کردیم تا هر چرخش را در مقیاس ۱ تا ۵ در این ۴ دسته رتبه‌بندی کنیم:

  • کیفیت قالب‌بندی متن: کیفیت پاسخ از نظر زبانی و ساختاری چگونه است؟ (پرسش و پاسخ)
  • ارتباط پرسش و پاسخ: آیا پاسخ به درستی به پرسش جواب می‌دهد؟ (پرسش و پاسخ)
  • وابستگی بصری: پرسش چقدر برای پاسخ‌گویی به اطلاعات بصری وابسته است؟ (فقط پرسش)
  • تطابق تصویر با پرسش: تصویر چقدر در پاسخ‌گویی به پرسش موثر است؟ (تصویر و پرسش)

مجموعه داده پایه فاین‌ویژن

ما زیرمجموعه‌های فاین‌ویژن را به ۹ دسته تقسیم می‌کنیم: شرح‌نویسی و دانش، نمودار و جدول، VQA عمومی، ارجاع و شمارش، ریاضیات، OCR ساده، پرسش و پاسخ OCR، علم و فقط متن (شکل ۱).

روش‌های متعددی برای شمارش داده‌ها در یک مجموعه داده چندوجهی وجود دارد. رایج‌ترین آن‌ها تعداد نمونه‌ها و تعداد تصاویر است. علاوه بر این، یک نمونه واحد می‌تواند شامل چندین جفت پرسش/پاسخ به شکل یک گفتگوی چند مرحله‌ای باشد. به طور مشابه با مجموعه‌های داده فقط متنی، تعداد توکن‌های پاسخ نیز جالب است، زیرا این‌ها توکن‌هایی هستند که مدل واقعاً بر اساس آن‌ها آموزش می‌بیند. ما تمام این ویژگی‌ها را برای فاین‌ویژن شمارش کردیم و به ۱۷.۳ میلیون تصویر، ۲۴.۳ میلیون نمونه، ۸۸.۹ میلیون چرخش و ۹.۵ میلیارد توکن پاسخ رسیدیم. بر اساس این ۴ توزیع، ترکیبات مختلفی ممکن است. در کنار رتبه‌بندی‌های ارائه‌شده، جامعه را تشویق می‌کنیم تا ترکیبات خاص خود را ایجاد کرده و با داده‌ها آزمایش کنند. به عنوان مثال، دسته‌های بزرگ را می‌توان کاهش نمونه داد، در حالی که داده‌های با کیفیت بالا را می‌توان افزایش نمونه داد. پس از جمع‌آوری و پردازش داده‌ها، چندین آزمایش و مطالعه حذف را برای ارائه توصیه‌های عملی در مورد نحوه آموزش VLM‌های کوچک و داده‌محور انجام می‌دهیم.

تصویر گراف توزیع دسته‌ها در فاین‌ویژن بر اساس توکن‌های پاسخ، تعداد نمونه‌ها، چرخش‌ها و تصاویر.
شکل ۱: توزیع دسته‌ها در فاین‌ویژن بر اساس توکن‌های پاسخ، تعداد نمونه‌ها، چرخش‌ها و تصاویر. در حالی که توزیع‌ها با معیارهای مختلف کمی متفاوت هستند، فاین‌ویژن یک ترکیب پایه خوب را ارائه می‌دهد، به ویژه با توجه به تعداد تصاویر در دسته‌های فردی. نمونه‌های مربوط به نمودار و جدول معمولاً به خوبی برای گفتگوهای چند مرحله‌ای مناسب هستند، زیرا چندین پرسش مشابه را می‌توان برای یک نمودار پرسید. نمونه‌های مربوط به پرسش و پاسخ OCR اغلب دارای توکن‌های پاسخ زیادی هستند، زیرا هدف آن‌ها درک دقیق اسناد است که به ندرت با یک جمله کوتاه پاسخ داده می‌شوند.

تنظیمات آزمایشی

برای اطمینان از مقایسه عادلانه بین پیکربندی‌های مختلف، ما از یک تنظیم و ارزیابی یکسان برای تمام مطالعات حذف خود استفاده می‌کنیم. این امر ما را قادر می‌سازد تا فاین‌ویژن را با سایر مجموعه‌های داده عمومی موجود مقایسه کرده و با پیکربندی‌های داخلی مجموعه داده‌های مختلف آزمایش کنیم.

معماری مدل: نانو VLM

برای تمام مطالعات حذف و آزمایش‌ها، یک VLM با ۴۶۰ میلیون پارامتر را آموزش می‌دهیم، زیرا این مدل تعادل خوبی بین زمان آموزش و عملکرد مدل فراهم می‌کند. ما از چارچوب آموزشی سبک‌وزن nanoVLM با SmolLM2-360M-Instruct به عنوان ستون فقرات متنی و SigLIP2-Base-512 به عنوان رمزگذار بینایی استفاده می‌کنیم. ما یک برنامه آموزشی کلاسیک ۲ مرحله‌ای را آزمایش کردیم که در مرحله اول عمدتاً فرافکنی مدالیته برای هم‌ترازی جاسازی‌های زبان و تصویر آموزش داده می‌شود و در مرحله دوم کل مدل آموزش می‌بیند. جالب اینکه، ما هیچ مزیت قابل توجهی از این مرحله اول اضافی در مقایسه با آموزش مستقیم کل مدل در اندازه و مدت زمان آموزش خود مشاهده نکردیم، بنابراین برای اکثر مطالعات حذف، به آموزش تک مرحله‌ای بسنده کردیم.

مجموعه داده‌های مرجع

ما از سه جایگزین منبع باز مشابه به عنوان خطوط مبنا برای مقایسه مجموعه داده خود استفاده می‌کنیم: The Cauldron، LLaVA-OneVision و Cambrian-7M.

ارزیابی‌ها

ما از lmms-eval در طول آموزش برای ارزیابی مطالعات حذف خود به روشی قابل تکرار استفاده می‌کنیم. ما روی مجموعه‌ای متنوع از ۱۱ معیار ارزیابی می‌کنیم: AI2D، ChartQA، DocVQA، InfoVQA، MME، MMMU، MMStar، OCRBench، ScienceQA، TextVQA و SEED-Bench. از آنجا که این معیارها موضوعات مختلفی را پوشش می‌دهند و نتایج را در مقیاس‌های متفاوتی تولید می‌کنند، به عنوان مثال AI2D دقت تطابق دقیق را (۰-۱) برمی‌گرداند، اما MME یک امتیاز پیوسته (۰-۲۸۰۰) را برمی‌گرداند، جمع‌آوری آن‌ها آسان نیست. در مطالعات حذف ما، عملکرد نسبی بین پیکربندی‌های مختلف اهمیت دارد، بنابراین برای ارائه یک معیار خلاصه قوی، رتبه هر مدل را در مقایسه با سایرین در هر معیار ارزیابی و در هر مرحله آموزشی تعیین کرده و میانگین آن را روی تمام معیارها محاسبه می‌کنیم. به این ترتیب، می‌توانیم قضاوت کنیم که پیکربندی‌های مختلف در طول آموزش در کجا قرار می‌گیرند. برای حفظ حس تفاوت مطلق بین مدل‌ها، میانگینی از تمام معیارها را نیز ارائه می‌دهیم و MME را با نرمال‌سازی آن بین ۰ و ۱ در نظر می‌گیریم.

پیکربندی آموزش

هر یک از مطالعات حذف ما مدل ۴۶۰ میلیونی را با حداکثر اندازه تصویر ۱۵۳۶x۱۵۳۶ پیکسل (بدون تغییر اندازه تصاویر کوچکتر) و حداکثر طول توکن ورودی ۴۰۹۶ آموزش می‌دهد. این منجر به حداکثر اندازه دسته ۲ برای یک H100 واحد می‌شود که با ۸ مرحله انباشت گرادیان روی هر یک از ۳۲ GPU برای اندازه دسته مؤثر ۵۱۲ تنظیم می‌کنیم. در تمام پیکربندی‌های تک مرحله‌ای، ما برای ۲۰ هزار گام روی ۳۲ H100 برای تقریباً ۲۰ ساعت آموزش می‌دهیم و تمام ۱۱ معیار را هر ۱ هزار گام ارزیابی می‌کنیم. اگر خلاف آن مشخص نشده باشد، "خط مبنا" در مطالعات حذف داخلی مجموعه داده ما به یک اجرای آموزشی روی کل مجموعه داده فیلترنشده و بدون تغییر اشاره دارد. در این پیکربندی، یک دوره کامل از مجموعه داده فاین‌ویژن فیلترنشده ۱۲ هزار گام طول می‌کشد.

آزمایش‌ها

در حالی که می‌توان به بسیاری از پرسش‌های جالب تحقیق کرد، ما عمدتاً بر جنبه‌های آموزش که تحت تأثیر داده‌ها هستند، تمرکز می‌کنیم. قبل از اینکه به جزئیات داخلی فاین‌ویژن بپردازیم، اجازه دهید نگاهی به عملکرد ما در برابر خطوط مبنا بیندازیم.

فاین‌ویژن در مقایسه با سایر مجموعه‌های داده باز چگونه است؟

در اینجا اولین روند جالب را می‌بینیم: VLMها هنوز از آموزش بر روی مجموعه داده‌های بزرگتر و متنوع‌تر از آنچه تا به امروز در دسترس بود، بهره می‌برند. فاین‌ویژن در چند هزار گام آموزشی اول پیشتاز نیست، بالاخره شامل وظایف جدیدی مانند اشاره و مرور عاملی است، بنابراین در ابتدا نباید بهتر باشد. اما پس از مشاهده داده‌های متنوع کافی، فاین‌ویژن به وضوح بهترین عملکرد را در طیف وسیعی از معیارها نشان می‌دهد که در میانگین رتبه‌بندی آن دیده می‌شود (شکل ۲). یک دوره آموزشی فاین‌ویژن در تنظیمات ما ۱۲ هزار گام آموزشی طول می‌کشد، بنابراین ما در این مطالعات حذف نزدیک به ۲ دوره آموزش می‌دهیم. با نگاهی به میانگین معیار، می‌توانیم ببینیم که مدل‌ها در نقاط مختلفی اشباع می‌شوند: ۱۸ هزار گام برای Cambrian، ۱۲ هزار گام برای LLaVa و ۷ هزار گام برای The Cauldron. به طور خاص، در ۱۱ معیار مختلف، فاین‌ویژن به طور متوسط ۴۰.۷% بهبود نسبت به The Cauldron، ۱۲.۱% نسبت به Cambrian و ۴۶.۳% نسبت به LLaVa دست می‌یابد که این ارقام در مقایسه با نسخه‌های بدون تکرار مجموعه‌های داده به ترتیب ۵۱.۳%، ۱۸.۶% و ۵۸.۰% افزایش می‌یابد. علاوه بر این، فاین‌ویژن شامل داده‌هایی برای وظایفی مانند مرور عاملی، شمارش و اشاره است که بخشی از سایر خطوط مبنا نیستند.

تصویر گراف میانگین رتبه مدل‌های آموزش‌دیده بر روی مجموعه‌های داده منبع باز مختلف.
شکل ۲: میانگین رتبه مدل‌های آموزش‌دیده بر روی مجموعه‌های داده منبع باز مختلف. فاین‌ویژن هم بالاترین میانگین رتبه و هم بالاترین میانگین در بین معیارها را نشان می‌دهد.

چه میزان داده آزمایشی در مجموعه‌های داده در دسترس عموم وجود دارد؟

ما نشت داده را با یافتن تصاویر از مجموعه‌های آزمایشی که در مجموعه داده ظاهر می‌شوند، بررسی کردیم. برای این کار، یک پایپ‌لاین حذف موارد تکراری تصویر ساختیم. از این پایپ‌لاین برای مقایسه تمام تصاویر در فاین‌ویژن با تمام تصاویر ۶۶ معیار ارزیابی تصویر-متن از چارچوب lmms-eval استفاده کردیم.

برای مقایسه، تصاویر را با استفاده از توصیفگر SSCD جاسازی کرده و شباهت کسینوسی بین یک تصویر داده شده در فاین‌ویژن و تمام تصاویر از جاسازی‌های مجموعه آزمایشی را محاسبه می‌کنیم. هر زمان که یک نمونه دارای شباهت بالاتر از آستانه ۰.۹۵ باشد، فرض می‌شود که تکراری است.

در حالی که آزمایش‌های ما با آستانه‌های مختلف نشان می‌دهد که این روش هنوز موارد مثبت کاذب بیشتری نسبت به منفی کاذب شناسایی می‌کند، با توجه به مقیاس داده‌هایی که داریم، ترجیح دادیم جانب احتیاط را رعایت کنیم.

در زیر یک نمونه از تکراری شناسایی شده صحیح ("عکس")، یک مثبت کاذب با امتیاز شباهت بالای ۰.۹۵ ("نمودار") و یک منفی کاذب با امتیاز شباهت زیر ۰.۹۵ ("نقاشی") آورده شده است (شکل ۳).

ما پایپ‌لاین حذف موارد تکراری را اینجا و همچنین جاسازی‌های از پیش محاسبه شده مجموعه آزمایشی را اینجا به صورت منبع باز منتشر می‌کنیم.

تصویر گراف نمونه‌هایی از نتایج حذف موارد تکراری.
شکل ۳: نمونه‌هایی از نتایج حذف موارد تکراری.

ما این روش حذف موارد تکراری را روی تمام خطوط مبنا تکرار کردیم تا میزان آلودگی آن‌ها را تحلیل کنیم. دریافتیم که تمام خطوط مبنا بین ۲ تا ۳ درصد تصاویر از معیارهای آزمایشی را شامل می‌شوند، و حذف آن‌ها منجر به افت عملکرد ۲.۴ تا ۲.۸ درصدی می‌شود. جالب اینکه، برای برخی معیارها تفاوت ناچیز است، در حالی که سایر معیارها به طور قابل توجهی آسیب می‌بینند. به عنوان مثال، پس از حذف موارد تکراری، ScienceQA به طور متوسط ۱۴.۴۹% افت می‌کند در حالی که OCRBench تنها ۱.۰۸% افت دارد. این حذف موارد تکراری همچنین نشان می‌دهد که فاین‌ویژن کمترین مقدار نسبی داده‌های تکراری را با ۱% دارد و پس از حذف موارد تکراری نیز کمترین افت عملکرد را در تمام معیارها با تنها ۱.۴۵% تجربه می‌کند.

علاوه بر این، ما آزمایش کردیم که آیا حذف تمام نمونه‌های یافت شده از همه مجموعه‌های داده، نتیجه متفاوتی از شکل ۲ دارد یا خیر، اما همان توزیع را مشاهده می‌کنیم (شکل ۴).

تصویر گراف میانگین رتبه مدل‌های آموزش‌دیده بر روی مجموعه‌های داده منبع باز بدون تکرار.
شکل ۴: میانگین رتبه مدل‌های آموزش‌دیده بر روی مجموعه‌های داده منبع باز بدون تکرار. حتی پس از حذف تمام موارد تکراری از مجموعه داده، فاین‌ویژن بهترین عملکرد را نشان می‌دهد.

مجموعه‌های داده چقدر متنوع هستند؟

به طور مشابه با مقایسه اندازه، ما همچنین می‌خواستیم مجموعه‌های داده را از نظر تنوع ارزیابی کنیم. ارزیابی تنوع یک مجموعه داده یک زمینه مطالعاتی مجزا است که ما در اینجا به آن نمی‌پردازیم، بلکه از تکنیک‌های بینایی ماشین وام گرفته و از جاسازی‌های SSCD از پیش محاسبه شده به عنوان یک شاخص برای تنوع بصری استفاده می‌کنیم. برای اینکه به یک زیرنمونه از مجموعه داده در تخمین تنوع وابسته نباشیم، ماتریس کوواریانس تمام جاسازی‌ها را تحلیل می‌کنیم. از این ماتریس کوواریانس، می‌توانیم مقادیر ویژه را برای تحلیل محاسبه کنیم. ما رتبه مؤثر ماتریس کوواریانس را به دست می‌آوریم که نشان می‌دهد واریانس چقدر به طور یکنواخت در ابعاد توزیع شده است، و همچنین نسبت مشارکت را که نشان می‌دهد چند بعد به طور فعال به واریانس کلی کمک می‌کنند. برای به دست آوردن یک امتیاز تنوع واحد برای مجموعه‌های داده، رتبه مؤثر و نسبت مشارکت را با بعد جاسازی نرمال‌سازی کرده و میانگین هندسی آن‌ها را محاسبه می‌کنیم. مشاهده می‌کنیم که فاین‌ویژن نه تنها بزرگترین، بلکه متنوع‌ترین مجموعه داده نیز هست. علاوه بر این، به وضوح می‌توان دید که تصاویر بیشتر لزوماً به تنوع بیشتر منجر نمی‌شوند، زیرا LLaVa به طور قابل توجهی کمتر از The Cauldron متنوع است، حتی با تصاویر بیشتر.

آیا باید چندین پرسش برای یک تصویر را در یک گفتگوی چند مرحله‌ای ادغام کرد؟

از آنجا که آموزش یک VLM از ستون فقرات بینایی و زبانی از پیش آموزش‌دیده بهره می‌برد، مجموعه‌های داده معمولاً کاملاً بدون ساختار نیستند، بلکه از ساختار تصویر + پرسش و پاسخ پیروی می‌کنند. برخی کارها نشان داده‌اند که ادغام چندین پرسش برای یک تصویر در یک گفتگوی چند مرحله‌ای که تصویر فقط یک بار نشان داده می‌شود، عملکرد مدل را بهبود می‌بخشد، بودجه آموزشی را کاهش می‌دهد و ردپای حافظه مجموعه‌های داده را کمتر می‌کند. بنابراین، ما با حذف داخلی موارد تکراری از هر تصویر در مجموعه داده خود با استفاده از همان توصیفگرهای SSCD آزمایش می‌کنیم، خوشه‌های حاصل را به صورت دستی بررسی می‌کنیم و نمونه‌های مناسب را در یک گفتگوی چند مرحله‌ای ادغام می‌کنیم.

هنگام آموزش با همان بودجه آموزشی، متوجه می‌شویم که هر دو مدل عملکرد بسیار مشابهی دارند (شکل ۵). برخی معیارها یک تصویر/چندین چرخش را ترجیح می‌دهند، در حالی که برخی دیگر یک تصویر/یک چرخش را ترجیح می‌دهند. با توجه به این موضوع، ما تصمیم می‌گیریم که مجموعه داده را بدون ادغام چندین پرسش برای یک تصویر منتشر کنیم و پایپ‌لاین را به صورت منبع باز ارائه دهیم تا کاربران در صورت تمایل بتوانند آن را بیشتر بررسی کنند.

تصویر گراف میانگین رتبه‌بندی مدل‌های آموزش‌دیده با نمونه‌های تکراری داخلی / ادغام‌شده.
شکل ۵: میانگین رتبه‌بندی مدل‌های آموزش‌دیده با نمونه‌های تکراری داخلی / ادغام‌شده. هیچ مزیت واضحی در ادغام نمونه‌ها با توجه به عملکرد مدل دیده نمی‌شود.

آیا باید روی داده‌های چندزبانه آموزش دید اگر ستون فقرات زبانی شما چنین نبوده است؟

چند مجموعه داده چندزبانه در ترکیب ما وجود دارد، اما از آنجایی که ستون فقرات زبانی ما فقط روی داده‌های انگلیسی آموزش دیده است، ما با حذف تمام زیرمجموعه‌های چندزبانه، عمدتاً چینی، آزمایش کردیم. نتایج ما نشان می‌دهد که کمی مزیت در نگه داشتن داده‌های چندزبانه وجود دارد، حتی اگر آن‌ها بخشی از آموزش اولیه ستون فقرات زبانی نبوده باشند. ما معتقدیم این موضوع فرضیه ما را تقویت می‌کند که تنوع بیشتر در مجموعه داده به طور کلی برای آموزش VLM ترجیح داده می‌شود. در تنظیمات آموزشی ما با این پیکربندی، یک دوره روی کل مجموعه داده بدون تکرار معادل ~۱۲ هزار گام است، بنابراین مزیت زبان‌های ناشناخته تنها پس از اولین دوره کامل ظاهر می‌شود (شکل ۶).

تصویر گراف میانگین رتبه مدل‌های آموزش‌دیده با و بدون نمونه‌های چندزبانه.
شکل ۶: میانگین رتبه مدل‌های آموزش‌دیده با و بدون نمونه‌های چندزبانه. نگه داشتن نمونه‌ها در زبان‌های ناشناخته پس از اولین دوره، عملکرد را بهبود می‌بخشد.

چگونه می‌توانید کیفیت مجموعه داده را ارزیابی کنید؟

هدف معمول برای هر مجموعه داده، یعنی جمع‌آوری نمونه‌هایی با بالاترین کیفیت ممکن، در عمل یک تلاش انتزاعی است، به ویژه برای مجموعه‌های داده چندوجهی. علاوه بر این، مراحل آموزشی مختلف معمولاً الزامات کیفی و کمی متفاوتی دارند. در نهایت، تنظیم ترکیبات دسته‌های مختلف نیز به میزان داده‌ها با چه کیفیتی در دسترس است، بستگی دارد. برای مجموعه‌های داده تصویر-متن، ۳ روش ترکیبی مختلف برای ارزیابی یک نمونه وجود دارد: فقط متنی، فقط تصویری و تطابق تصویر-متن. پرسش همچنان باقی است که چگونه می‌توان کیفیت یک نمونه را به طور واقعی اندازه‌گیری کرد، به خصوص اگر مجبور باشید این کار را به ۳ روش مختلف انجام دهید. ما پیشنهاد می‌کنیم این کار را با استفاده از یک LLM و یک VLM به عنوان داور انجام دهیم.

برای تلاش برای کمی‌سازی کیفیت داده‌های آموزشی و تأثیری که بر عملکرد مدل دارد، ما مطالعات حذف گسترده‌ای روی رتبه‌بندی‌های تولید شده خود انجام می‌دهیم.

تصویر گراف میانگین رتبه مدل‌های آموزش‌دیده با نمونه‌هایی که تمام ۴ رتبه‌بندی آن‌ها بالاتر از یک آستانه مشخص است.
شکل ۷: میانگین رتبه مدل‌های آموزش‌دیده با نمونه‌هایی که تمام ۴ رتبه‌بندی آن‌ها بالاتر از یک آستانه مشخص است. نگه داشتن تمام نمونه‌ها منجر به بهترین عملکرد می‌شود.

جالب اینجاست که هم در صورت آموزش تنها بر روی چرخش‌هایی که هر یک از ۴ رتبه‌بندی زیر یک آستانه مشخص قرار دارند، و هم در صورت آموزش بر روی چرخش‌هایی که فقط یک رتبه‌بندی در یک زمان استفاده می‌شود، همان رفتار را مشاهده می‌کنیم. صرفاً آموزش بر روی متنوع‌ترین داده‌ها، یعنی آن‌هایی که شامل تمام نمونه‌ها هستند، در معیارها بهتر عمل می‌کند (شکل ۷) (شکل ۸). این می‌تواند معانی مختلفی داشته باشد. اولاً، می‌توانیم تقریباً همان توزیع را در رتبه‌ها در تمام فیلترها مشاهده کنیم: از بهترین به بدترین با افزایش در آستانه رتبه‌بندی. به عنوان مثال، رتبه‌بندی وابستگی بصری و تطابق تصویر هر دو دقیقاً منجر به همان توزیع رتبه‌ها می‌شوند که مطابق با ترتیب طبیعی گزینه‌ها، ۱ تا ۵ است. این می‌تواند نشان دهد که با یک مجموعه داده به اندازه کافی بزرگ که برای مدت زمان کافی آموزش داده می‌شود، حذف نمونه‌ها، حتی اگر کیفیت پایین داشته باشند، بیشتر از آموزش بر روی آن‌ها آسیب می‌زند.

علاوه بر این، مفهوم کیفیت در مجموعه‌های داده VLM ذاتاً ظریف است. برخلاف LLMها، جایی که پیش‌آموزش اغلب بر خزش‌های عظیم وب متکی است، آموزش یک VLM به مرحله تنظیم دقیق نظارت‌شده (SFT) نزدیک‌تر است. ما بر روی خزش‌های داده اینترنتی آموزش نمی‌دهیم، بلکه بر روی نمونه‌های جداگانه جفت‌های تصویر-پرسش و پاسخ آموزش می‌دهیم، و این نقاط داده معمولاً «گردآوری‌شده» هستند تا «جمع‌آوری‌شده». همچنین ما بر روی تریلیون‌ها توکن آموزش نمی‌دهیم، بلکه بر روی میلیاردها توکن آموزش می‌دهیم. این گردآوری داخلی از ابتدا سطح کیفی پایه‌ای را فراهم می‌کند. فاین‌ویژن از این الگو پیروی می‌کند: مجموعه‌های داده VLM پرکاربرد را همراه با چند مجموعه داده جدید در حوزه‌های کم‌منبع گرد هم می‌آورد. بنابراین، ممکن است ما در تلاش برای اندازه‌گیری و کمی‌سازی ظرافت‌های پر سروصدا در کیفیت جفت‌های تصویر-پرسش-پاسخ باشیم، به جای استفاده از این واقعیت که آن‌ها از قبل مجموعه‌های داده SFT گردآوری‌شده هستند به عنوان معیار کیفیت.

به طور جایگزین، در حالی که ما از مدل‌های منبع باز پیشرفته برای قضاوت نقاط داده خود استفاده کردیم، باز هم مجبور بودیم بین کیفیت مدل و هزینه به دلیل تلاش اولیه مورد نیاز برای رتبه‌بندی هر چرخش فاین‌ویژن مصالحه کنیم. مدل‌های انتخاب شده ممکن است به سادگی به اندازه کافی قدرتمند نباشند تا کیفیت نمونه‌ها را تشخیص داده و قضاوت کنند. اگرچه اولین پیشنهاد ما برای قضاوت کیفیت داده‌های چندوجهی به صورت هر چرخش، هیچ بهبودی در عملکرد مدل نداشت، ما معتقدیم که این هنوز یک جهت تحقیقاتی هیجان‌انگیز و مهم است و امیدواریم انتشار فاین‌ویژن جامعه را به توسعه تکنیک‌هایی برای این کار در مقیاس بزرگ تشویق کند.

تصویر گراف مقایسه در آستانه‌های مختلف برای هر چهار فیلتر به صورت جداگانه: قالب‌بندی، ارتباط، وابستگی بصری و تطابق تصویر-پرسش.
شکل ۸: مقایسه در آستانه‌های مختلف برای هر چهار فیلتر به صورت جداگانه: قالب‌بندی، ارتباط، وابستگی بصری و تطابق تصویر-پرسش. نگه داشتن تمام نمونه‌ها منجر به بهترین عملکرد متوسط می‌شود.

آیا باید در مراحل متعدد آموزش دید؟

رویه استاندارد آموزش یک VLM معمولاً حداقل دو مرحله را شامل می‌شود. ابتدا، تنها ماژول اتصال‌دهنده، و احتمالاً علاوه بر آن رمزگذار تصویر، آموزش داده می‌شود و سپس کل مدل در مرحله دوم آموزش می‌بیند. حتی برخی کارها یک مرحله ۲.۵ اضافی را معرفی کرده‌اند (۱۴۱)، که در آن کل مدل بر روی زیرمجموعه کوچکتری از داده‌های با کیفیت بالاتر آموزش داده می‌شود. برای بررسی این موضوع در مدل‌های کوچک، ما با آموزش تک مرحله‌ای، دو مرحله‌ای و سه مرحله‌ای آزمایش می‌کنیم.

۱ مرحله در مقابل ۲ مرحله

برای ارزیابی اینکه آیا پیش‌آموزش فرافکنی مدالیته و رمزگذار بینایی مزایایی برای عملکرد نهایی مدل فراهم می‌کند یا خیر، این آزمایش را با وضوح تصویر بالاتر ۲۰۴۸ پیکسل و آموزش به طور قابل توجهی طولانی‌تر انجام می‌دهیم. می‌توانیم ببینیم که حتی برای آموزش طولانی‌تر، تفاوت کلی در عملکرد مدل کاملاً کوچک است. معیارهای جداگانه، تفاوت‌هایی را نشان می‌دهند (ScienceQA در تنظیمات دو مرحله‌ای ۵% افت می‌کند اما OCRBench ۵% بهبود می‌یابد) (شکل ۹)، بنابراین تنظیمات بهتر به قابلیت‌های مدل مورد نظر بستگی دارد. این همچنین نشان می‌دهد که ارزیابی (و از این طریق آموزش صحیح) یک VLM وظایف ساده‌ای نیست، زیرا معیارهای موجود، شاخص‌های محدودی برای عملکرد زیربنایی مدل هستند.

تصویر گراف میانگین رتبه مدل آموزش‌دیده برای ۶۰ هزار گام در یک مرحله، و مدل آموزش‌دیده برای همان ۶۰ هزار گام بر روی پیش‌آموزش فرافکنی مدالیته و رمزگذار بینایی برای ۱۵ هزار گام.
شکل ۹: میانگین رتبه مدل آموزش‌دیده برای ۶۰ هزار گام در یک مرحله، و مدل آموزش‌دیده برای همان ۶۰ هزار گام بر روی پیش‌آموزش فرافکنی مدالیته و رمزگذار بینایی برای ۱۵ هزار گام. رویه پیش‌آموزش در این گراف نشان داده نشده است.

۲ مرحله در مقابل ۲.۵ مرحله

ما همچنین آزمایش می‌کنیم که آیا تقسیم مرحله دوم منجر به بهبود عملکرد می‌شود یا خیر.

ما خط مبنا را در نظر می‌گیریم و آموزش را برای ۲۰ هزار گام دیگر ادامه می‌دهیم، هم با زیرمجموعه‌های فیلتر نشده (>= ۱) و هم با زیرمجموعه‌های فیلتر شده فاین‌ویژن بر اساس رتبه‌بندی‌های ما.

تصویر گراف میانگین رتبه اگر یک مدل برای ۲۰ هزار گام اضافی بر روی آموزش فیلتر نشده برای ۲۰ هزار گام آموزش داده شود.
شکل ۱۰: میانگین رتبه اگر یک مدل برای ۲۰ هزار گام اضافی بر روی آموزش فیلتر نشده برای ۲۰ هزار گام آموزش داده شود. انتخاب زیرمجموعه‌ای از داده‌ها برای گام‌های نهایی آموزش با معیار کیفیت ما منجر به بهبود عملکرد نمی‌شود. در اینجا تنها ۲۰ هزار گام برای مرحله نهایی نشان داده شده است، ۲۰ هزار گام اول برای همه تغییرات یکسان است.

نتیجه‌گیری

ما فاین‌ویژن (FineVision) را معرفی می‌کنیم، یک مجموعه داده باز پیشرفته جدید برای آموزش VLMها، که هم بزرگتر و هم متنوع‌تر از مجموعه‌های داده منبع باز قبلی است. ما تحلیل گسترده‌ای در مورد اندازه، تنوع، آلودگی و آموزش مدل داده‌محور ارائه می‌دهیم و امیدواریم با این کار، هم تحقیقات بیشتر و هم جامعه را توانمند سازیم.