چارچوب CLIP در یادگیری بازنمایی چندوجهی، به ویژه برای کارهایی مانند بازیابی تصویر-متن، بنیادی شده است. با این حال، با محدودیتهای متعددی روبرو است: سقف سخت 77 توکن برای ورودی متن، طراحی رمزگذار دوگانه که پردازش تصویر و متن را جدا میکند، و درک ترکیبی محدود که شبیه به مدلهای کیسه کلمات است. این مسائل اثربخشی آن را در درک معناشناسی دقیق و حساس به دستورالعمل مختل میکنند. اگرچه مدلهای زبانی بزرگ چندوجهی (MLLMs) مانند LLaVA، Qwen2-VL و CogVLM پیشرفتهای قابل توجهی در استدلال بینایی-زبانی ارائه میدهند، هدف پیشبینی خودکار توکن بعدی آنها تواناییشان را در یادگیری جاسازیهای تعمیمپذیر و قابل انتقال محدود میکند. این موضوع علاقه فزایندهای را به توسعه روشهای جایگزین که بتوانند نقاط قوت یادگیری کنتراستی و استدلال مبتنی بر LLM را ترکیب کنند، برانگیخته است.
رویکردهای اخیر با استفاده از معماریها و استراتژیهای آموزشی نوآورانه، قصد دارند بر این محدودیتها غلبه کنند. برای مثال، E5-V آموزش کنتراستی تکوجهی را برای همترازی ویژگیهای بینوجهی پیشنهاد میکند، در حالی که VLM2Vec معیار MMEB را برای تبدیل مدلهای پیشرفته بینایی-زبانی به مولدهای جاسازی مؤثر معرفی مینماید. مدلهایی مانند LLM2Vec و NV-Embed با تغییر مکانیسمهای توجه در LLMهای تنها رمزگشا، یادگیری بازنمایی مبتنی بر متن را بهبود میبخشند. با وجود این نوآوریها، چالشهایی مانند مدیریت توالیهای طولانی، امکانپذیری همجوشی بهتر بینوجهی و تمایز مؤثر منفیهای سخت در یادگیری کنتراستی همچنان باقی هستند. با گسترش کاربردهای چندوجهی، نیاز مبرمی به روشهای یادگیری بازنمایی که هم مقیاسپذیر باشند و هم قادر به همترازی معنایی دقیق باشند، وجود دارد.
محققانی از مؤسسات از جمله دانشگاه سیدنی، DeepGlint، آزمایشگاه Tongyi در علیبابا، و امپریال کالج لندن UniME را معرفی میکنند، چارچوبی دو مرحلهای که برای بهبود یادگیری بازنمایی چندوجهی با استفاده از MLLMs طراحی شده است. مرحله اول تقطیر دانش تمایزی متنی از یک مدل زبانی بزرگ قوی معلم را برای بهبود رمزگذار زبان اعمال میکند. مرحله دوم از تنظیم دستورالعمل با تقویت منفیهای سخت استفاده میکند، که شامل فیلتر کردن منفیهای کاذب و نمونهبرداری چندین منفی چالشبرانگیز برای هر نمونه به منظور بهبود تواناییهای تمایزی و دنبال کردن دستورالعمل مدل است. ارزیابیها روی معیار MMEB و وظایف مختلف بازیابی نشان میدهند که UniME بهبودهای مداوم و قابل توجهی در عملکرد و درک ترکیبی ارائه میدهد.
چارچوب UniME یک روش دو مرحلهای برای یادگیری جاسازیهای چندوجهی جهانی با استفاده از MLLMs معرفی میکند. ابتدا، از تقطیر دانش تمایزی متنی استفاده میکند، جایی که یک MLLM دانشآموز با استفاده از پرامپتهای فقط متنی آموزش داده میشود و توسط یک مدل معلم برای افزایش کیفیت جاسازی نظارت میگردد. سپس، مرحله دوم—تنظیم دستورالعمل با منفیهای سخت—همترازی بینوجهی و عملکرد وظیفه را با فیلتر کردن منفیهای کاذب و نمونهبرداری منفیهای سخت بهبود میبخشد. این مرحله همچنین از پرامپتهای خاص وظیفه برای افزایش دنبال کردن دستورالعمل برای کاربردهای مختلف، مانند بازیابی و پاسخگویی بصری به پرسشها، استفاده میکند. این مراحل با هم، عملکرد UniME را در وظایف داخل و خارج از توزیع به طور قابل توجهی افزایش میدهند.
این مطالعه UniME را روی Phi3.5-V و LLaVA-1.6 با استفاده از PyTorch همراه با DeepSpeed برای آموزش کارآمد بر روی 8 پردازنده گرافیکی NVIDIA A100 ارزیابی کرد. آموزش شامل دو مرحله بود: فاز تقطیر دانش متنی با استفاده از مجموعه داده NLI (273,000 جفت) و فاز تنظیم دستورالعمل با منفیهای سخت بر روی 662,000 جفت چندوجهی. NV-Embed V2 به عنوان مدل معلم عمل کرد. UniME بر روی 36 مجموعه داده معیار MMEB ارزیابی شد و بهبودهای مداومی را نسبت به خطوط پایه مانند E5-V و VLM2Vec نشان داد. منفیهای سخت توانایی مدل را در تمایز تفاوتهای ظریف به طور قابل توجهی بهبود بخشیدند و در نتیجه عملکرد آن را به خصوص در وظایف بازیابی با توضیحات طولانی و ترکیبی افزایش دادند. مطالعات حذف اجزاء اثربخشی هر دو مرحله آموزشی و پارامترهای تنظیم را تأیید کردند.
در نتیجه، UniME یک چارچوب دو مرحلهای است که برای بهبود یادگیری بازنمایی چندوجهی با استفاده از MLLMs طراحی شده است. در مرحله اول، UniME دانش تمایزی متنی را از یک مدل زبانی بزرگ تقطیر میکند تا جاسازیهای زبانی MLLM را تقویت نماید. در مرحله دوم، یادگیری را از طریق تنظیم دستورالعمل با چندین منفی سخت در هر دسته بهبود میبخشد، تداخل منفیهای کاذب را کاهش میدهد و مدل را به تمایز نمونههای چالشبرانگیز ترغیب میکند. ارزیابیهای گسترده روی MMEB و وظایف مختلف بازیابی نشان میدهند که UniME به طور مداوم عملکرد را افزایش میدهد و تواناییهای تمایزی و ترکیبی قوی در وظایف مختلف ارائه میدهد، و بدین ترتیب از محدودیتهای مدلهای قبلی مانند CLIP پیشی میگیرد.
مقاله و کد را بررسی کنید. همچنین، فراموش نکنید ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید به سابردیت بیش از 90 هزار نفری ML ما بپیوندید.