امروز، ما فاینویژن (FineVision) را منتشر میکنیم، یک مجموعه داده چندوجهی جدید با ۲۴ میلیون نمونه. ما فاینویژن را با گردآوری بیش از ۲۰۰ مجموعه داده شامل ۱۷ میلیون تصویر، ۸۹ میلیون چرخش پرسش و پاسخ و ۱۰ میلیارد توکن پاسخ، در مجموع ۵ ترابایت داده با کیفیت بالا، ایجاد کردیم. علاوه بر این، ما تمام مجموعههای داده را به طور گسترده پردازش کردیم تا فرمت آنها را یکپارچه کنیم، آنها را از موارد تکراری و دادههای ضعیف پاکسازی کنیم و تمام چرخشها را با استفاده از VLMهای ۳۲ میلیاردی در ۴ معیار کیفی با نمرهای از ۱ تا ۵ رتبهبندی کردیم تا امکان ساخت و مطالعه ترکیبات آموزشی مجزا فراهم شود.
برای اینکه همه بتوانند مدلهای زبان-بینایی (VLM) باز پیشرفته را بسازند، ما مطالعات حذف گستردهای روی فاینویژن انجام دادیم و آن را با جایگزینهای عمومی موجود مقایسه کردیم. مدلهایی که روی فاینویژن آموزش دیدهاند، به لطف مقیاس و تنوع دادههای فاینویژن، در عملکرد در ۱۱ معیار ارزیابی رایج نسبت به هر خط مبنایی پیشرو هستند.
برای استفاده از مجموعه داده، کافیست آن را با دستور زیر بارگذاری کنید:
پایتون
from datasets import load_dataset, get_dataset_config_names
# Get all subset names and load the first one
available_subsets = get_dataset_config_names('HuggingFaceM4/FineVision')
ds = load_dataset(
'HuggingFaceM4/FineVision',
name=available_subsets[0],
split='train', streaming=True,
)
# Inspect the first sample
ds[0]
چرا این مجموعه داده؟
با وجود اینکه مدلهای زبان-بینایی با وزن باز (open-weight) روز به روز قدرتمندتر میشوند، دسترسی به دادههای آموزشی مورد استفاده برای این مدلها عقب مانده است. این دادهها اغلب اختصاصی و برای جامعه گستردهتر غیرقابل دسترسی هستند. پروژههایی مانند The Cauldron، LLaVa و Cambrian قصد دارند چنین مجموعههای دادهای را ارائه دهند، اما به سرعت توسط سرعت این حوزه و ظهور کاربردهای جدید برای VLMها، مانند وظایف عاملی، از میدان خارج میشوند. ما برای فاینویژن قصد داشتیم منابع داده موجود را ترکیب و یکپارچه کنیم تا یک مجموعه داده بزرگ و با کیفیت بالا ایجاد کنیم. به عنوان اولین گام، ما نیاز به گردآوری و استانداردسازی مجموعههای داده داشتیم.
چگونه فاینویژن را ساختیم؟
فاینویژن یک اقدام عظیم در زمینه سازماندهی داده بود. ما با جمعآوری مجموعههای داده عمومی موجود شروع کردیم و دستههای کمتر نمایندگیشده را تقویت کردیم. سپس تمام مجموعههای داده را برای یافتن دادههای تکراری داخلی و آلودگی معیار ارزیابی بررسی کردیم. این دادهها پس از پاکسازی و رتبهبندی، به ترکیب نهایی اضافه میشوند.
گردآوری داده
ما به صورت دستی بیش از ۲۰۰ مجموعه داده تصویر-متن را از منابع عمومی مختلف جمعآوری کرده و آنها را برای یکپارچهسازی فرمتشان پردازش کردیم. علاوه بر این، برخی از مجموعههای داده به شکل چت ارائه نشده بودند، بنابراین آنها را به جفتهای پرسش و پاسخ تبدیل کردیم. در برخی موارد، این کار تا تولید مصنوعی پرسش برای تمام نمونهها پیش رفت. در نهایت، به حوزههای کمتر نمایندگیشده، مانند دادههای مربوط به رابط کاربری گرافیکی (GUI)، پرداختیم. برای پر کردن این شکاف، یک مجموعه داده جدید ایجاد و اضافه کردیم که از مجموعههای داده GUI موجود، پس از اعمال نرمالسازی چت و یکپارچهسازی فضای عملیاتی، برای تبدیل فرمتهای خاص آنها به یک فضای عملیاتی GUI عمومیتر، گردآوری شده بود.
پاکسازی
پس از جمعآوری تمام زیرمجموعههای داده، هر چرخش پاکسازی میشود. ما تمام چرخشهای جداگانه را که طول پرسش و پاسخ ترکیبی آنها از ۸۱۹۲ توکن تجاوز میکرد، حذف کردیم. تصاویر بزرگ را تغییر اندازه دادیم تا بلندترین ضلع آنها ۲۰۴۸ پیکسل باشد و نسبت تصویر حفظ شود، و نمونههایی را که دارای تصاویر خراب بودند حذف کردیم.
رتبهبندی
در نهایت، ما هر چرخش را در مجموعه داده خود در ۴ محور رتبهبندی کردیم. برای این کار، از یک پایپلاین LLM و VLM به عنوان داور (با استفاده از Qwen3-32B و Qwen2.5VL-32B-Instruct) استفاده کردیم تا هر چرخش را در مقیاس ۱ تا ۵ در این ۴ دسته رتبهبندی کنیم:
- کیفیت قالببندی متن: کیفیت پاسخ از نظر زبانی و ساختاری چگونه است؟ (پرسش و پاسخ)
- ارتباط پرسش و پاسخ: آیا پاسخ به درستی به پرسش جواب میدهد؟ (پرسش و پاسخ)
- وابستگی بصری: پرسش چقدر برای پاسخگویی به اطلاعات بصری وابسته است؟ (فقط پرسش)
- تطابق تصویر با پرسش: تصویر چقدر در پاسخگویی به پرسش موثر است؟ (تصویر و پرسش)
مجموعه داده پایه فاینویژن
ما زیرمجموعههای فاینویژن را به ۹ دسته تقسیم میکنیم: شرحنویسی و دانش، نمودار و جدول، VQA عمومی، ارجاع و شمارش، ریاضیات، OCR ساده، پرسش و پاسخ OCR، علم و فقط متن (شکل ۱).
روشهای متعددی برای شمارش دادهها در یک مجموعه داده چندوجهی وجود دارد. رایجترین آنها تعداد نمونهها و تعداد تصاویر است. علاوه بر این، یک نمونه واحد میتواند شامل چندین جفت پرسش/پاسخ به شکل یک گفتگوی چند مرحلهای باشد. به طور مشابه با مجموعههای داده فقط متنی، تعداد توکنهای پاسخ نیز جالب است، زیرا اینها توکنهایی هستند که مدل واقعاً بر اساس آنها آموزش میبیند. ما تمام این ویژگیها را برای فاینویژن شمارش کردیم و به ۱۷.۳ میلیون تصویر، ۲۴.۳ میلیون نمونه، ۸۸.۹ میلیون چرخش و ۹.۵ میلیارد توکن پاسخ رسیدیم. بر اساس این ۴ توزیع، ترکیبات مختلفی ممکن است. در کنار رتبهبندیهای ارائهشده، جامعه را تشویق میکنیم تا ترکیبات خاص خود را ایجاد کرده و با دادهها آزمایش کنند. به عنوان مثال، دستههای بزرگ را میتوان کاهش نمونه داد، در حالی که دادههای با کیفیت بالا را میتوان افزایش نمونه داد. پس از جمعآوری و پردازش دادهها، چندین آزمایش و مطالعه حذف را برای ارائه توصیههای عملی در مورد نحوه آموزش VLMهای کوچک و دادهمحور انجام میدهیم.
تنظیمات آزمایشی
برای اطمینان از مقایسه عادلانه بین پیکربندیهای مختلف، ما از یک تنظیم و ارزیابی یکسان برای تمام مطالعات حذف خود استفاده میکنیم. این امر ما را قادر میسازد تا فاینویژن را با سایر مجموعههای داده عمومی موجود مقایسه کرده و با پیکربندیهای داخلی مجموعه دادههای مختلف آزمایش کنیم.
معماری مدل: نانو VLM
برای تمام مطالعات حذف و آزمایشها، یک VLM با ۴۶۰ میلیون پارامتر را آموزش میدهیم، زیرا این مدل تعادل خوبی بین زمان آموزش و عملکرد مدل فراهم میکند. ما از چارچوب آموزشی سبکوزن nanoVLM با SmolLM2-360M-Instruct به عنوان ستون فقرات متنی و SigLIP2-Base-512 به عنوان رمزگذار بینایی استفاده میکنیم. ما یک برنامه آموزشی کلاسیک ۲ مرحلهای را آزمایش کردیم که در مرحله اول عمدتاً فرافکنی مدالیته برای همترازی جاسازیهای زبان و تصویر آموزش داده میشود و در مرحله دوم کل مدل آموزش میبیند. جالب اینکه، ما هیچ مزیت قابل توجهی از این مرحله اول اضافی در مقایسه با آموزش مستقیم کل مدل در اندازه و مدت زمان آموزش خود مشاهده نکردیم، بنابراین برای اکثر مطالعات حذف، به آموزش تک مرحلهای بسنده کردیم.
مجموعه دادههای مرجع
ما از سه جایگزین منبع باز مشابه به عنوان خطوط مبنا برای مقایسه مجموعه داده خود استفاده میکنیم: The Cauldron، LLaVA-OneVision و Cambrian-7M.
ارزیابیها
ما از lmms-eval در طول آموزش برای ارزیابی مطالعات حذف خود به روشی قابل تکرار استفاده میکنیم. ما روی مجموعهای متنوع از ۱۱ معیار ارزیابی میکنیم: AI2D، ChartQA، DocVQA، InfoVQA، MME، MMMU، MMStar، OCRBench، ScienceQA، TextVQA و SEED-Bench. از آنجا که این معیارها موضوعات مختلفی را پوشش میدهند و نتایج را در مقیاسهای متفاوتی تولید میکنند، به عنوان مثال AI2D دقت تطابق دقیق را (۰-۱) برمیگرداند، اما MME یک امتیاز پیوسته (۰-۲۸۰۰) را برمیگرداند، جمعآوری آنها آسان نیست. در مطالعات حذف ما، عملکرد نسبی بین پیکربندیهای مختلف اهمیت دارد، بنابراین برای ارائه یک معیار خلاصه قوی، رتبه هر مدل را در مقایسه با سایرین در هر معیار ارزیابی و در هر مرحله آموزشی تعیین کرده و میانگین آن را روی تمام معیارها محاسبه میکنیم. به این ترتیب، میتوانیم قضاوت کنیم که پیکربندیهای مختلف در طول آموزش در کجا قرار میگیرند. برای حفظ حس تفاوت مطلق بین مدلها، میانگینی از تمام معیارها را نیز ارائه میدهیم و MME را با نرمالسازی آن بین ۰ و ۱ در نظر میگیریم.
پیکربندی آموزش
هر یک از مطالعات حذف ما مدل ۴۶۰ میلیونی را با حداکثر اندازه تصویر ۱۵۳۶x۱۵۳۶ پیکسل (بدون تغییر اندازه تصاویر کوچکتر) و حداکثر طول توکن ورودی ۴۰۹۶ آموزش میدهد. این منجر به حداکثر اندازه دسته ۲ برای یک H100 واحد میشود که با ۸ مرحله انباشت گرادیان روی هر یک از ۳۲ GPU برای اندازه دسته مؤثر ۵۱۲ تنظیم میکنیم. در تمام پیکربندیهای تک مرحلهای، ما برای ۲۰ هزار گام روی ۳۲ H100 برای تقریباً ۲۰ ساعت آموزش میدهیم و تمام ۱۱ معیار را هر ۱ هزار گام ارزیابی میکنیم. اگر خلاف آن مشخص نشده باشد، "خط مبنا" در مطالعات حذف داخلی مجموعه داده ما به یک اجرای آموزشی روی کل مجموعه داده فیلترنشده و بدون تغییر اشاره دارد. در این پیکربندی، یک دوره کامل از مجموعه داده فاینویژن فیلترنشده ۱۲ هزار گام طول میکشد.
آزمایشها
در حالی که میتوان به بسیاری از پرسشهای جالب تحقیق کرد، ما عمدتاً بر جنبههای آموزش که تحت تأثیر دادهها هستند، تمرکز میکنیم. قبل از اینکه به جزئیات داخلی فاینویژن بپردازیم، اجازه دهید نگاهی به عملکرد ما در برابر خطوط مبنا بیندازیم.
فاینویژن در مقایسه با سایر مجموعههای داده باز چگونه است؟
در اینجا اولین روند جالب را میبینیم: VLMها هنوز از آموزش بر روی مجموعه دادههای بزرگتر و متنوعتر از آنچه تا به امروز در دسترس بود، بهره میبرند. فاینویژن در چند هزار گام آموزشی اول پیشتاز نیست، بالاخره شامل وظایف جدیدی مانند اشاره و مرور عاملی است، بنابراین در ابتدا نباید بهتر باشد. اما پس از مشاهده دادههای متنوع کافی، فاینویژن به وضوح بهترین عملکرد را در طیف وسیعی از معیارها نشان میدهد که در میانگین رتبهبندی آن دیده میشود (شکل ۲). یک دوره آموزشی فاینویژن در تنظیمات ما ۱۲ هزار گام آموزشی طول میکشد، بنابراین ما در این مطالعات حذف نزدیک به ۲ دوره آموزش میدهیم. با نگاهی به میانگین معیار، میتوانیم ببینیم که مدلها در نقاط مختلفی اشباع میشوند: ۱۸ هزار گام برای Cambrian، ۱۲ هزار گام برای LLaVa و ۷ هزار گام برای The Cauldron. به طور خاص، در ۱۱ معیار مختلف، فاینویژن به طور متوسط ۴۰.۷% بهبود نسبت به The Cauldron، ۱۲.۱% نسبت به Cambrian و ۴۶.۳% نسبت به LLaVa دست مییابد که این ارقام در مقایسه با نسخههای بدون تکرار مجموعههای داده به ترتیب ۵۱.۳%، ۱۸.۶% و ۵۸.۰% افزایش مییابد. علاوه بر این، فاینویژن شامل دادههایی برای وظایفی مانند مرور عاملی، شمارش و اشاره است که بخشی از سایر خطوط مبنا نیستند.
چه میزان داده آزمایشی در مجموعههای داده در دسترس عموم وجود دارد؟
ما نشت داده را با یافتن تصاویر از مجموعههای آزمایشی که در مجموعه داده ظاهر میشوند، بررسی کردیم. برای این کار، یک پایپلاین حذف موارد تکراری تصویر ساختیم. از این پایپلاین برای مقایسه تمام تصاویر در فاینویژن با تمام تصاویر ۶۶ معیار ارزیابی تصویر-متن از چارچوب lmms-eval استفاده کردیم.
برای مقایسه، تصاویر را با استفاده از توصیفگر SSCD جاسازی کرده و شباهت کسینوسی بین یک تصویر داده شده در فاینویژن و تمام تصاویر از جاسازیهای مجموعه آزمایشی را محاسبه میکنیم. هر زمان که یک نمونه دارای شباهت بالاتر از آستانه ۰.۹۵ باشد، فرض میشود که تکراری است.
در حالی که آزمایشهای ما با آستانههای مختلف نشان میدهد که این روش هنوز موارد مثبت کاذب بیشتری نسبت به منفی کاذب شناسایی میکند، با توجه به مقیاس دادههایی که داریم، ترجیح دادیم جانب احتیاط را رعایت کنیم.
در زیر یک نمونه از تکراری شناسایی شده صحیح ("عکس")، یک مثبت کاذب با امتیاز شباهت بالای ۰.۹۵ ("نمودار") و یک منفی کاذب با امتیاز شباهت زیر ۰.۹۵ ("نقاشی") آورده شده است (شکل ۳).
ما پایپلاین حذف موارد تکراری را اینجا و همچنین جاسازیهای از پیش محاسبه شده مجموعه آزمایشی را اینجا به صورت منبع باز منتشر میکنیم.
ما این روش حذف موارد تکراری را روی تمام خطوط مبنا تکرار کردیم تا میزان آلودگی آنها را تحلیل کنیم. دریافتیم که تمام خطوط مبنا بین ۲ تا ۳ درصد تصاویر از معیارهای آزمایشی را شامل میشوند، و حذف آنها منجر به افت عملکرد ۲.۴ تا ۲.۸ درصدی میشود. جالب اینکه، برای برخی معیارها تفاوت ناچیز است، در حالی که سایر معیارها به طور قابل توجهی آسیب میبینند. به عنوان مثال، پس از حذف موارد تکراری، ScienceQA به طور متوسط ۱۴.۴۹% افت میکند در حالی که OCRBench تنها ۱.۰۸% افت دارد. این حذف موارد تکراری همچنین نشان میدهد که فاینویژن کمترین مقدار نسبی دادههای تکراری را با ۱% دارد و پس از حذف موارد تکراری نیز کمترین افت عملکرد را در تمام معیارها با تنها ۱.۴۵% تجربه میکند.
مجموعههای داده چقدر متنوع هستند؟
به طور مشابه با مقایسه اندازه، ما همچنین میخواستیم مجموعههای داده را از نظر تنوع ارزیابی کنیم. ارزیابی تنوع یک مجموعه داده یک زمینه مطالعاتی مجزا است که ما در اینجا به آن نمیپردازیم، بلکه از تکنیکهای بینایی ماشین وام گرفته و از جاسازیهای SSCD از پیش محاسبه شده به عنوان یک شاخص برای تنوع بصری استفاده میکنیم. برای اینکه به یک زیرنمونه از مجموعه داده در تخمین تنوع وابسته نباشیم، ماتریس کوواریانس تمام جاسازیها را تحلیل میکنیم. از این ماتریس کوواریانس، میتوانیم مقادیر ویژه را برای تحلیل محاسبه کنیم. ما رتبه مؤثر ماتریس کوواریانس را به دست میآوریم که نشان میدهد واریانس چقدر به طور یکنواخت در ابعاد توزیع شده است، و همچنین نسبت مشارکت را که نشان میدهد چند بعد به طور فعال به واریانس کلی کمک میکنند. برای به دست آوردن یک امتیاز تنوع واحد برای مجموعههای داده، رتبه مؤثر و نسبت مشارکت را با بعد جاسازی نرمالسازی کرده و میانگین هندسی آنها را محاسبه میکنیم. مشاهده میکنیم که فاینویژن نه تنها بزرگترین، بلکه متنوعترین مجموعه داده نیز هست. علاوه بر این، به وضوح میتوان دید که تصاویر بیشتر لزوماً به تنوع بیشتر منجر نمیشوند، زیرا LLaVa به طور قابل توجهی کمتر از The Cauldron متنوع است، حتی با تصاویر بیشتر.
آیا باید چندین پرسش برای یک تصویر را در یک گفتگوی چند مرحلهای ادغام کرد؟
از آنجا که آموزش یک VLM از ستون فقرات بینایی و زبانی از پیش آموزشدیده بهره میبرد، مجموعههای داده معمولاً کاملاً بدون ساختار نیستند، بلکه از ساختار تصویر + پرسش و پاسخ پیروی میکنند. برخی کارها نشان دادهاند که ادغام چندین پرسش برای یک تصویر در یک گفتگوی چند مرحلهای که تصویر فقط یک بار نشان داده میشود، عملکرد مدل را بهبود میبخشد، بودجه آموزشی را کاهش میدهد و ردپای حافظه مجموعههای داده را کمتر میکند. بنابراین، ما با حذف داخلی موارد تکراری از هر تصویر در مجموعه داده خود با استفاده از همان توصیفگرهای SSCD آزمایش میکنیم، خوشههای حاصل را به صورت دستی بررسی میکنیم و نمونههای مناسب را در یک گفتگوی چند مرحلهای ادغام میکنیم.
هنگام آموزش با همان بودجه آموزشی، متوجه میشویم که هر دو مدل عملکرد بسیار مشابهی دارند (شکل ۵). برخی معیارها یک تصویر/چندین چرخش را ترجیح میدهند، در حالی که برخی دیگر یک تصویر/یک چرخش را ترجیح میدهند. با توجه به این موضوع، ما تصمیم میگیریم که مجموعه داده را بدون ادغام چندین پرسش برای یک تصویر منتشر کنیم و پایپلاین را به صورت منبع باز ارائه دهیم تا کاربران در صورت تمایل بتوانند آن را بیشتر بررسی کنند.
آیا باید روی دادههای چندزبانه آموزش دید اگر ستون فقرات زبانی شما چنین نبوده است؟
چند مجموعه داده چندزبانه در ترکیب ما وجود دارد، اما از آنجایی که ستون فقرات زبانی ما فقط روی دادههای انگلیسی آموزش دیده است، ما با حذف تمام زیرمجموعههای چندزبانه، عمدتاً چینی، آزمایش کردیم. نتایج ما نشان میدهد که کمی مزیت در نگه داشتن دادههای چندزبانه وجود دارد، حتی اگر آنها بخشی از آموزش اولیه ستون فقرات زبانی نبوده باشند. ما معتقدیم این موضوع فرضیه ما را تقویت میکند که تنوع بیشتر در مجموعه داده به طور کلی برای آموزش VLM ترجیح داده میشود. در تنظیمات آموزشی ما با این پیکربندی، یک دوره روی کل مجموعه داده بدون تکرار معادل ~۱۲ هزار گام است، بنابراین مزیت زبانهای ناشناخته تنها پس از اولین دوره کامل ظاهر میشود (شکل ۶).
چگونه میتوانید کیفیت مجموعه داده را ارزیابی کنید؟
هدف معمول برای هر مجموعه داده، یعنی جمعآوری نمونههایی با بالاترین کیفیت ممکن، در عمل یک تلاش انتزاعی است، به ویژه برای مجموعههای داده چندوجهی. علاوه بر این، مراحل آموزشی مختلف معمولاً الزامات کیفی و کمی متفاوتی دارند. در نهایت، تنظیم ترکیبات دستههای مختلف نیز به میزان دادهها با چه کیفیتی در دسترس است، بستگی دارد. برای مجموعههای داده تصویر-متن، ۳ روش ترکیبی مختلف برای ارزیابی یک نمونه وجود دارد: فقط متنی، فقط تصویری و تطابق تصویر-متن. پرسش همچنان باقی است که چگونه میتوان کیفیت یک نمونه را به طور واقعی اندازهگیری کرد، به خصوص اگر مجبور باشید این کار را به ۳ روش مختلف انجام دهید. ما پیشنهاد میکنیم این کار را با استفاده از یک LLM و یک VLM به عنوان داور انجام دهیم.
برای تلاش برای کمیسازی کیفیت دادههای آموزشی و تأثیری که بر عملکرد مدل دارد، ما مطالعات حذف گستردهای روی رتبهبندیهای تولید شده خود انجام میدهیم.
جالب اینجاست که هم در صورت آموزش تنها بر روی چرخشهایی که هر یک از ۴ رتبهبندی زیر یک آستانه مشخص قرار دارند، و هم در صورت آموزش بر روی چرخشهایی که فقط یک رتبهبندی در یک زمان استفاده میشود، همان رفتار را مشاهده میکنیم. صرفاً آموزش بر روی متنوعترین دادهها، یعنی آنهایی که شامل تمام نمونهها هستند، در معیارها بهتر عمل میکند (شکل ۷) (شکل ۸). این میتواند معانی مختلفی داشته باشد. اولاً، میتوانیم تقریباً همان توزیع را در رتبهها در تمام فیلترها مشاهده کنیم: از بهترین به بدترین با افزایش در آستانه رتبهبندی. به عنوان مثال، رتبهبندی وابستگی بصری و تطابق تصویر هر دو دقیقاً منجر به همان توزیع رتبهها میشوند که مطابق با ترتیب طبیعی گزینهها، ۱ تا ۵ است. این میتواند نشان دهد که با یک مجموعه داده به اندازه کافی بزرگ که برای مدت زمان کافی آموزش داده میشود، حذف نمونهها، حتی اگر کیفیت پایین داشته باشند، بیشتر از آموزش بر روی آنها آسیب میزند.
علاوه بر این، مفهوم کیفیت در مجموعههای داده VLM ذاتاً ظریف است. برخلاف LLMها، جایی که پیشآموزش اغلب بر خزشهای عظیم وب متکی است، آموزش یک VLM به مرحله تنظیم دقیق نظارتشده (SFT) نزدیکتر است. ما بر روی خزشهای داده اینترنتی آموزش نمیدهیم، بلکه بر روی نمونههای جداگانه جفتهای تصویر-پرسش و پاسخ آموزش میدهیم، و این نقاط داده معمولاً «گردآوریشده» هستند تا «جمعآوریشده». همچنین ما بر روی تریلیونها توکن آموزش نمیدهیم، بلکه بر روی میلیاردها توکن آموزش میدهیم. این گردآوری داخلی از ابتدا سطح کیفی پایهای را فراهم میکند. فاینویژن از این الگو پیروی میکند: مجموعههای داده VLM پرکاربرد را همراه با چند مجموعه داده جدید در حوزههای کممنبع گرد هم میآورد. بنابراین، ممکن است ما در تلاش برای اندازهگیری و کمیسازی ظرافتهای پر سروصدا در کیفیت جفتهای تصویر-پرسش-پاسخ باشیم، به جای استفاده از این واقعیت که آنها از قبل مجموعههای داده SFT گردآوریشده هستند به عنوان معیار کیفیت.
به طور جایگزین، در حالی که ما از مدلهای منبع باز پیشرفته برای قضاوت نقاط داده خود استفاده کردیم، باز هم مجبور بودیم بین کیفیت مدل و هزینه به دلیل تلاش اولیه مورد نیاز برای رتبهبندی هر چرخش فاینویژن مصالحه کنیم. مدلهای انتخاب شده ممکن است به سادگی به اندازه کافی قدرتمند نباشند تا کیفیت نمونهها را تشخیص داده و قضاوت کنند. اگرچه اولین پیشنهاد ما برای قضاوت کیفیت دادههای چندوجهی به صورت هر چرخش، هیچ بهبودی در عملکرد مدل نداشت، ما معتقدیم که این هنوز یک جهت تحقیقاتی هیجانانگیز و مهم است و امیدواریم انتشار فاینویژن جامعه را به توسعه تکنیکهایی برای این کار در مقیاس بزرگ تشویق کند.
آیا باید در مراحل متعدد آموزش دید؟
رویه استاندارد آموزش یک VLM معمولاً حداقل دو مرحله را شامل میشود. ابتدا، تنها ماژول اتصالدهنده، و احتمالاً علاوه بر آن رمزگذار تصویر، آموزش داده میشود و سپس کل مدل در مرحله دوم آموزش میبیند. حتی برخی کارها یک مرحله ۲.۵ اضافی را معرفی کردهاند (۱۴۱)، که در آن کل مدل بر روی زیرمجموعه کوچکتری از دادههای با کیفیت بالاتر آموزش داده میشود. برای بررسی این موضوع در مدلهای کوچک، ما با آموزش تک مرحلهای، دو مرحلهای و سه مرحلهای آزمایش میکنیم.
۱ مرحله در مقابل ۲ مرحله
برای ارزیابی اینکه آیا پیشآموزش فرافکنی مدالیته و رمزگذار بینایی مزایایی برای عملکرد نهایی مدل فراهم میکند یا خیر، این آزمایش را با وضوح تصویر بالاتر ۲۰۴۸ پیکسل و آموزش به طور قابل توجهی طولانیتر انجام میدهیم. میتوانیم ببینیم که حتی برای آموزش طولانیتر، تفاوت کلی در عملکرد مدل کاملاً کوچک است. معیارهای جداگانه، تفاوتهایی را نشان میدهند (ScienceQA در تنظیمات دو مرحلهای ۵% افت میکند اما OCRBench ۵% بهبود مییابد) (شکل ۹)، بنابراین تنظیمات بهتر به قابلیتهای مدل مورد نظر بستگی دارد. این همچنین نشان میدهد که ارزیابی (و از این طریق آموزش صحیح) یک VLM وظایف سادهای نیست، زیرا معیارهای موجود، شاخصهای محدودی برای عملکرد زیربنایی مدل هستند.
۲ مرحله در مقابل ۲.۵ مرحله
ما همچنین آزمایش میکنیم که آیا تقسیم مرحله دوم منجر به بهبود عملکرد میشود یا خیر.
ما خط مبنا را در نظر میگیریم و آموزش را برای ۲۰ هزار گام دیگر ادامه میدهیم، هم با زیرمجموعههای فیلتر نشده (>= ۱) و هم با زیرمجموعههای فیلتر شده فاینویژن بر اساس رتبهبندیهای ما.
نتیجهگیری
ما فاینویژن (FineVision) را معرفی میکنیم، یک مجموعه داده باز پیشرفته جدید برای آموزش VLMها، که هم بزرگتر و هم متنوعتر از مجموعههای داده منبع باز قبلی است. ما تحلیل گستردهای در مورد اندازه، تنوع، آلودگی و آموزش مدل دادهمحور ارائه میدهیم و امیدواریم با این کار، هم تحقیقات بیشتر و هم جامعه را توانمند سازیم.