جاسازیهای چندوجهی دادههای دیداری و متنی را در یک فضای بازنمایی واحد ترکیب میکنند و سیستمها را قادر میسازند تا تصاویر و زبان را به طور معناداری درک کرده و به هم مرتبط سازند. این جاسازیها از وظایف گوناگونی از جمله پاسخگویی به سوالات تصویری، بازیابی، طبقهبندی و زمینهیابی پشتیبانی میکنند. این فناوری به ویژه برای مدلهای هوش مصنوعی که محتوای دنیای واقعی را از طریق لنزهای دیداری و زبانی تفسیر میکنند، مانند تحلیل اسناد، دستیارهای دیجیتال یا موتورهای جستجوی بصری، مهم است.
یک چالش مهم، ناتوانی مدلهای فعلی در تعمیمدهی موثر در میان وظایف و روشهای مختلف بوده است. بیشتر مدلها برای وظایف بسیار خاص آموزش داده میشوند یا هنگام اعمال بر روی مجموعهدادههای ناآشنا، عملکرد ضعیفی دارند. علاوه بر این، بدون یک معیار گسترده و یکپارچه، ارزیابی عملکرد در میان وظایف چندوجهی ناسازگار و پراکنده میشود. این امر توانایی مدلها را برای رسیدگی به انواع عملکردهای مورد نیاز در کاربردهای واقعگرایانه و بیندامنهای، به ویژه هنگامی که توزیعهای داده جدید معرفی میشوند، محدود میکند.
ابزارهای مختلفی مانند CLIP، BLIP و SigLIP برای تولید جاسازیهای دیداری-متنی پیشنهاد شدهاند. این مدلها معمولاً از رمزگذارهای جداگانه برای تصاویر و متن استفاده میکنند و خروجیهای آنها را از طریق عملیات ساده مانند ادغام در سطح امتیاز ترکیب میکنند. در حالی که این رویکردها کارایی اولیه را ارائه میدهند، از استدلال بینوجهی محدود و توانایی تعمیمدهی رنج میبرند. عملکرد آنها در شرایط صفر-شات به دلیل استراتژیهای ادغام سطحی و عدم رسیدگی به دستورالعملهای خاص وظیفه در طول آموزش، کاهش مییابد.
در یک همکاری بین محققان Salesforce Research و دانشگاه واترلو، یک مدل جدید به نام VLM2VEC به همراه یک معیار جامع به نام MMEB معرفی شد. MMEB شامل 36 مجموعه داده در چهار وظیفه اصلی است: طبقهبندی، پاسخگویی به سوالات تصویری، بازیابی و زمینهیابی بصری. این مجموعه دادهها را به 20 مورد برای آموزش و 16 مورد برای ارزیابی، از جمله وظایف خارج از توزیع، تقسیم میکند. چارچوب VLM2VEC به گونهای طراحی شده است که هر مدل دیداری-زبانی را با استفاده از آموزش مقایسهای به یک مدل جاسازی تبدیل کند. این به آن اجازه میدهد تا هر ترکیب ورودی از متن و تصاویر را در حین پیروی از دستورالعملهای وظیفه انجام دهد.
برای ساخت VLM2VEC، تیم تحقیقاتی از مدلهای ستون فقرات مانند Phi-3.5-V و LLaVA-1.6 استفاده کرد. این روش با ساخت پرس و جوها و اهداف مبتنی بر دستورالعمل خاص وظیفه شروع میشود که از طریق یک مدل دیداری-زبانی برای تولید جاسازیها پردازش میشوند. آموزش مقایسهای با استفاده از تابع زیان InfoNCE با تشابه کسینوسی به کار گرفته میشود و جاسازیها را با حداکثر کردن تشابه بین جفتهای پرس و جو-هدف منطبق در حالی که آن را برای عدم تطابق به حداقل میرساند، تراز میکند. برای پشتیبانی از اندازههای دستهای بزرگ، که برای آموزش با منفیهای متنوع بسیار مهم است، محققان از GradCache استفاده کردند، که دستهها را به دستههای فرعی با قابلیت مدیریت حافظه تقسیم میکند و گرادیانها را جمع میکند. این فرآیند آموزش کارآمد را حتی با تقاضای بالای حافظه ورودیهای چندوجهی تضمین میکند. دستورالعملهای خاص وظیفه در خط لوله آموزشی تعبیه شدهاند تا به مدل کمک کنند رمزگذاری خود را با ماهیت وظیفه، مانند زمینهیابی یا بازیابی، تطبیق دهد و بیشتر قابلیتهای تعمیمدهی آن را افزایش دهد.
نتایج عملکرد، مزیت روش پیشنهادی را نشان میدهد. بهترین نسخه VLM2VEC از LLaVA-1.6 به عنوان ستون فقرات خود استفاده کرد، تنظیم LoRA را اعمال کرد و تصاویر را با وضوح 1344 × 1344 پردازش کرد. این پیکربندی به امتیاز Precision@1 62.9٪ در تمام 36 مجموعه داده MMEB دست یافت. در آزمایشهای صفر-شات بر روی 16 مجموعه داده خارج از توزیع، امتیاز قوی 57.1٪ را حفظ کرد. در مقایسه با بهترین مدل پایه بدون تنظیم دقیق، که امتیاز 44.7٪ را به دست آورد، VLM2VEC بهبود 18.2 امتیازی را نشان داد. در مقایسه با بهترین پایه تنظیم شده در 47.2٪، بهبود 15.7 امتیاز بود. در تمام دستههای وظیفه - طبقهبندی، VQA، بازیابی و زمینهیابی - مدل به طور مداوم بالاتر از 50٪ امتیاز کسب کرد، سطحی از عملکرد که با هیچ پایهای مطابقت نداشت. نتایج همچنین نشان میدهد که انواع تنظیم شده LoRA از انواع آموزش دیده با تنظیم دقیق کامل بهتر عمل میکنند و نشان میدهند که استراتژیهای آموزش کارآمد پارامتر میتوانند دقت بالاتری ارائه دهند.
این تحقیق به وضوح راه حلی برای مشکل ابزارهای جاسازی چندوجهی خاص وظیفه که فاقد تعمیمدهی هستند، ارائه میدهد. با ترکیب یک چارچوب آموزشی خوشساختار و یک معیار قوی، این مطالعه یک مدل جاسازی جهانی را نشان میدهد که با استفاده از آموزش مقایسهای و پیروی از دستورالعملها، وظایف متنوع را به طور موثر انجام میدهد. این توسعه گامی معنادار به جلو در هوش مصنوعی چندوجهی مقیاسپذیر و قابل انطباق است.
مقاله و پروژه را بررسی کنید. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، میتوانید ما را در توییتر دنبال کنید و فراموش نکنید که به سابردیت ۸۵k+ ML ما بپیوندید.