نمودار چارچوب UniME
نمودار چارچوب UniME

UniME: چارچوب دو مرحله‌ای برای افزایش یادگیری بازنمایی چندوجهی با مدل‌های زبانی بزرگ چندوجهی (MLLMs)

چارچوب CLIP در یادگیری بازنمایی چندوجهی، به ویژه برای کارهایی مانند بازیابی تصویر-متن، بنیادی شده است. با این حال، با محدودیت‌های متعددی روبرو است: سقف سخت 77 توکن برای ورودی متن، طراحی رمزگذار دوگانه که پردازش تصویر و متن را جدا می‌کند، و درک ترکیبی محدود که شبیه به مدل‌های کیسه کلمات است. این مسائل اثربخشی آن را در درک معناشناسی دقیق و حساس به دستورالعمل مختل می‌کنند. اگرچه مدل‌های زبانی بزرگ چندوجهی (MLLMs) مانند LLaVA، Qwen2-VL و CogVLM پیشرفت‌های قابل توجهی در استدلال بینایی-زبانی ارائه می‌دهند، هدف پیش‌بینی خودکار توکن بعدی آن‌ها توانایی‌شان را در یادگیری جاسازی‌های تعمیم‌پذیر و قابل انتقال محدود می‌کند. این موضوع علاقه فزاینده‌ای را به توسعه روش‌های جایگزین که بتوانند نقاط قوت یادگیری کنتراستی و استدلال مبتنی بر LLM را ترکیب کنند، برانگیخته است.

رویکردهای اخیر با استفاده از معماری‌ها و استراتژی‌های آموزشی نوآورانه، قصد دارند بر این محدودیت‌ها غلبه کنند. برای مثال، E5-V آموزش کنتراستی تک‌وجهی را برای هم‌ترازی ویژگی‌های بین‌وجهی پیشنهاد می‌کند، در حالی که VLM2Vec معیار MMEB را برای تبدیل مدل‌های پیشرفته بینایی-زبانی به مولدهای جاسازی مؤثر معرفی می‌نماید. مدل‌هایی مانند LLM2Vec و NV-Embed با تغییر مکانیسم‌های توجه در LLM‌های تنها رمزگشا، یادگیری بازنمایی مبتنی بر متن را بهبود می‌بخشند. با وجود این نوآوری‌ها، چالش‌هایی مانند مدیریت توالی‌های طولانی، امکان‌پذیری همجوشی بهتر بین‌وجهی و تمایز مؤثر منفی‌های سخت در یادگیری کنتراستی همچنان باقی هستند. با گسترش کاربردهای چندوجهی، نیاز مبرمی به روش‌های یادگیری بازنمایی که هم مقیاس‌پذیر باشند و هم قادر به هم‌ترازی معنایی دقیق باشند، وجود دارد.

محققانی از مؤسسات از جمله دانشگاه سیدنی، DeepGlint، آزمایشگاه Tongyi در علی‌بابا، و امپریال کالج لندن UniME را معرفی می‌کنند، چارچوبی دو مرحله‌ای که برای بهبود یادگیری بازنمایی چندوجهی با استفاده از MLLMs طراحی شده است. مرحله اول تقطیر دانش تمایزی متنی از یک مدل زبانی بزرگ قوی معلم را برای بهبود رمزگذار زبان اعمال می‌کند. مرحله دوم از تنظیم دستورالعمل با تقویت منفی‌های سخت استفاده می‌کند، که شامل فیلتر کردن منفی‌های کاذب و نمونه‌برداری چندین منفی چالش‌برانگیز برای هر نمونه به منظور بهبود توانایی‌های تمایزی و دنبال کردن دستورالعمل مدل است. ارزیابی‌ها روی معیار MMEB و وظایف مختلف بازیابی نشان می‌دهند که UniME بهبودهای مداوم و قابل توجهی در عملکرد و درک ترکیبی ارائه می‌دهد.

چارچوب UniME یک روش دو مرحله‌ای برای یادگیری جاسازی‌های چندوجهی جهانی با استفاده از MLLMs معرفی می‌کند. ابتدا، از تقطیر دانش تمایزی متنی استفاده می‌کند، جایی که یک MLLM دانش‌آموز با استفاده از پرامپت‌های فقط متنی آموزش داده می‌شود و توسط یک مدل معلم برای افزایش کیفیت جاسازی نظارت می‌گردد. سپس، مرحله دوم—تنظیم دستورالعمل با منفی‌های سخت—هم‌ترازی بین‌وجهی و عملکرد وظیفه را با فیلتر کردن منفی‌های کاذب و نمونه‌برداری منفی‌های سخت بهبود می‌بخشد. این مرحله همچنین از پرامپت‌های خاص وظیفه برای افزایش دنبال کردن دستورالعمل برای کاربردهای مختلف، مانند بازیابی و پاسخگویی بصری به پرسش‌ها، استفاده می‌کند. این مراحل با هم، عملکرد UniME را در وظایف داخل و خارج از توزیع به طور قابل توجهی افزایش می‌دهند.

این مطالعه UniME را روی Phi3.5-V و LLaVA-1.6 با استفاده از PyTorch همراه با DeepSpeed برای آموزش کارآمد بر روی 8 پردازنده گرافیکی NVIDIA A100 ارزیابی کرد. آموزش شامل دو مرحله بود: فاز تقطیر دانش متنی با استفاده از مجموعه داده NLI (273,000 جفت) و فاز تنظیم دستورالعمل با منفی‌های سخت بر روی 662,000 جفت چندوجهی. NV-Embed V2 به عنوان مدل معلم عمل کرد. UniME بر روی 36 مجموعه داده معیار MMEB ارزیابی شد و بهبودهای مداومی را نسبت به خطوط پایه مانند E5-V و VLM2Vec نشان داد. منفی‌های سخت توانایی مدل را در تمایز تفاوت‌های ظریف به طور قابل توجهی بهبود بخشیدند و در نتیجه عملکرد آن را به خصوص در وظایف بازیابی با توضیحات طولانی و ترکیبی افزایش دادند. مطالعات حذف اجزاء اثربخشی هر دو مرحله آموزشی و پارامترهای تنظیم را تأیید کردند.

در نتیجه، UniME یک چارچوب دو مرحله‌ای است که برای بهبود یادگیری بازنمایی چندوجهی با استفاده از MLLMs طراحی شده است. در مرحله اول، UniME دانش تمایزی متنی را از یک مدل زبانی بزرگ تقطیر می‌کند تا جاسازی‌های زبانی MLLM را تقویت نماید. در مرحله دوم، یادگیری را از طریق تنظیم دستورالعمل با چندین منفی سخت در هر دسته بهبود می‌بخشد، تداخل منفی‌های کاذب را کاهش می‌دهد و مدل را به تمایز نمونه‌های چالش‌برانگیز ترغیب می‌کند. ارزیابی‌های گسترده روی MMEB و وظایف مختلف بازیابی نشان می‌دهند که UniME به طور مداوم عملکرد را افزایش می‌دهد و توانایی‌های تمایزی و ترکیبی قوی در وظایف مختلف ارائه می‌دهد، و بدین ترتیب از محدودیت‌های مدل‌های قبلی مانند CLIP پیشی می‌گیرد.


مقاله و کد را بررسی کنید. همچنین، فراموش نکنید ما را در توییتر دنبال کنید و به کانال تلگرام و گروه لینکدین ما بپیوندید. فراموش نکنید به ساب‌ردیت بیش از 90 هزار نفری ML ما بپیوندید.