مقاله هوش مصنوعی از Salesforce، VLM2VEC و MMEB را معرفی می‌کند: یک چارچوب مقایسه‌ای و معیار برای جاسازی‌های چندوجهی جهانی

تک فروشگاه-آوریل-29-2024-10-AM
تصویر مرتبط با مقاله

جاسازی‌های چندوجهی داده‌های دیداری و متنی را در یک فضای بازنمایی واحد ترکیب می‌کنند و سیستم‌ها را قادر می‌سازند تا تصاویر و زبان را به طور معناداری درک کرده و به هم مرتبط سازند. این جاسازی‌ها از وظایف گوناگونی از جمله پاسخگویی به سوالات تصویری، بازیابی، طبقه‌بندی و زمینه‌یابی پشتیبانی می‌کنند. این فناوری به ویژه برای مدل‌های هوش مصنوعی که محتوای دنیای واقعی را از طریق لنزهای دیداری و زبانی تفسیر می‌کنند، مانند تحلیل اسناد، دستیارهای دیجیتال یا موتورهای جستجوی بصری، مهم است.

یک چالش مهم، ناتوانی مدل‌های فعلی در تعمیم‌دهی موثر در میان وظایف و روش‌های مختلف بوده است. بیشتر مدل‌ها برای وظایف بسیار خاص آموزش داده می‌شوند یا هنگام اعمال بر روی مجموعه‌داده‌های ناآشنا، عملکرد ضعیفی دارند. علاوه بر این، بدون یک معیار گسترده و یکپارچه، ارزیابی عملکرد در میان وظایف چندوجهی ناسازگار و پراکنده می‌شود. این امر توانایی مدل‌ها را برای رسیدگی به انواع عملکردهای مورد نیاز در کاربردهای واقع‌گرایانه و بین‌دامنه‌ای، به ویژه هنگامی که توزیع‌های داده جدید معرفی می‌شوند، محدود می‌کند.

ابزارهای مختلفی مانند CLIP، BLIP و SigLIP برای تولید جاسازی‌های دیداری-متنی پیشنهاد شده‌اند. این مدل‌ها معمولاً از رمزگذارهای جداگانه برای تصاویر و متن استفاده می‌کنند و خروجی‌های آن‌ها را از طریق عملیات ساده مانند ادغام در سطح امتیاز ترکیب می‌کنند. در حالی که این رویکردها کارایی اولیه را ارائه می‌دهند، از استدلال بین‌وجهی محدود و توانایی تعمیم‌دهی رنج می‌برند. عملکرد آن‌ها در شرایط صفر-شات به دلیل استراتژی‌های ادغام سطحی و عدم رسیدگی به دستورالعمل‌های خاص وظیفه در طول آموزش، کاهش می‌یابد.

در یک همکاری بین محققان Salesforce Research و دانشگاه واترلو، یک مدل جدید به نام VLM2VEC به همراه یک معیار جامع به نام MMEB معرفی شد. MMEB شامل 36 مجموعه داده در چهار وظیفه اصلی است: طبقه‌بندی، پاسخگویی به سوالات تصویری، بازیابی و زمینه‌یابی بصری. این مجموعه داده‌ها را به 20 مورد برای آموزش و 16 مورد برای ارزیابی، از جمله وظایف خارج از توزیع، تقسیم می‌کند. چارچوب VLM2VEC به گونه‌ای طراحی شده است که هر مدل دیداری-زبانی را با استفاده از آموزش مقایسه‌ای به یک مدل جاسازی تبدیل کند. این به آن اجازه می‌دهد تا هر ترکیب ورودی از متن و تصاویر را در حین پیروی از دستورالعمل‌های وظیفه انجام دهد.

برای ساخت VLM2VEC، تیم تحقیقاتی از مدل‌های ستون فقرات مانند Phi-3.5-V و LLaVA-1.6 استفاده کرد. این روش با ساخت پرس و جوها و اهداف مبتنی بر دستورالعمل خاص وظیفه شروع می‌شود که از طریق یک مدل دیداری-زبانی برای تولید جاسازی‌ها پردازش می‌شوند. آموزش مقایسه‌ای با استفاده از تابع زیان InfoNCE با تشابه کسینوسی به کار گرفته می‌شود و جاسازی‌ها را با حداکثر کردن تشابه بین جفت‌های پرس و جو-هدف منطبق در حالی که آن را برای عدم تطابق به حداقل می‌رساند، تراز می‌کند. برای پشتیبانی از اندازه‌های دسته‌ای بزرگ، که برای آموزش با منفی‌های متنوع بسیار مهم است، محققان از GradCache استفاده کردند، که دسته‌ها را به دسته‌های فرعی با قابلیت مدیریت حافظه تقسیم می‌کند و گرادیان‌ها را جمع می‌کند. این فرآیند آموزش کارآمد را حتی با تقاضای بالای حافظه ورودی‌های چندوجهی تضمین می‌کند. دستورالعمل‌های خاص وظیفه در خط لوله آموزشی تعبیه شده‌اند تا به مدل کمک کنند رمزگذاری خود را با ماهیت وظیفه، مانند زمینه‌یابی یا بازیابی، تطبیق دهد و بیشتر قابلیت‌های تعمیم‌دهی آن را افزایش دهد.

معماری چارچوب

نتایج عملکرد، مزیت روش پیشنهادی را نشان می‌دهد. بهترین نسخه VLM2VEC از LLaVA-1.6 به عنوان ستون فقرات خود استفاده کرد، تنظیم LoRA را اعمال کرد و تصاویر را با وضوح 1344 × 1344 پردازش کرد. این پیکربندی به امتیاز Precision@1 62.9٪ در تمام 36 مجموعه داده MMEB دست یافت. در آزمایش‌های صفر-شات بر روی 16 مجموعه داده خارج از توزیع، امتیاز قوی 57.1٪ را حفظ کرد. در مقایسه با بهترین مدل پایه بدون تنظیم دقیق، که امتیاز 44.7٪ را به دست آورد، VLM2VEC بهبود 18.2 امتیازی را نشان داد. در مقایسه با بهترین پایه تنظیم شده در 47.2٪، بهبود 15.7 امتیاز بود. در تمام دسته‌های وظیفه - طبقه‌بندی، VQA، بازیابی و زمینه‌یابی - مدل به طور مداوم بالاتر از 50٪ امتیاز کسب کرد، سطحی از عملکرد که با هیچ پایه‌ای مطابقت نداشت. نتایج همچنین نشان می‌دهد که انواع تنظیم شده LoRA از انواع آموزش دیده با تنظیم دقیق کامل بهتر عمل می‌کنند و نشان می‌دهند که استراتژی‌های آموزش کارآمد پارامتر می‌توانند دقت بالاتری ارائه دهند.

مقایسه عملکرد

این تحقیق به وضوح راه حلی برای مشکل ابزارهای جاسازی چندوجهی خاص وظیفه که فاقد تعمیم‌دهی هستند، ارائه می‌دهد. با ترکیب یک چارچوب آموزشی خوش‌ساختار و یک معیار قوی، این مطالعه یک مدل جاسازی جهانی را نشان می‌دهد که با استفاده از آموزش مقایسه‌ای و پیروی از دستورالعمل‌ها، وظایف متنوع را به طور موثر انجام می‌دهد. این توسعه گامی معنادار به جلو در هوش مصنوعی چندوجهی مقیاس‌پذیر و قابل انطباق است.


مقاله و پروژه را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، می‌توانید ما را در توییتر دنبال کنید و فراموش نکنید که به ساب‌ردیت ۸۵k+ ML ما بپیوندید.