الگوهای مختلف یادگیری
الگوهای مختلف یادگیری

از CLIP تا آینده: نگاهی عمیق به مدل‌های بینایی-زبانی برای وظایف بینایی

«چه می‌شد اگر مدلی می‌توانست تصاویر را بدون آموزش برای آن وظیفه خاص تشخیص دهد؟» به دنیای مدل‌های بینایی-زبانی خوش آمدید.

مقدمه: چرا وظایف بینایی هنوز ما را به چالش می‌کشند

از تشخیص چهره‌ها در عکس‌ها گرفته تا تشخیص اشیاء در ویدیوهای بی‌درنگ، بینایی کامپیوتر روش «دیدن» ماشین‌ها به جهان را متحول کرده‌است. وظایفی مانند طبقه‌بندی تصویر، تشخیص شی، بخش‌بندی و حتی شناسایی مجدد افراد (ReID) به لطف یادگیری عمیق، پیشرفت‌های چشمگیری داشته‌اند.

اما این پیشرفت‌ها هزینه‌ای داشت:

  • مجموعه‌داده‌های عظیم باید جمع‌آوری و حاشیه‌نویسی شوند.
  • آموزش مدل‌ها از ابتدا زمان و محاسبات زیادی می‌برد.
  • تنظیم دقیق ویژه وظیفه تعمیم را محدود می‌کند.

برای غلبه بر این موانع، محققان یک الگوی جدید را معرفی کردند:
پیش‌آموزش یک مدل بر روی داده‌های بزرگ مقیاس ← تنظیم دقیق آن برای وظایف خاص.

در حالی که این کمک کرد، اما هنوز به شدت به داده‌های برچسب‌گذاری شده برای هر کار متکی بود.

سپس تغییری ناشی از پیشرفت در پردازش زبان طبیعی (NLP) به وجود آمد. چه می‌شد اگر می‌توانستیم مدل‌ها را روی جفت‌های تصویر-متن آموزش دهیم و به آن‌ها اجازه دهیم بدون هیچ‌گونه تنظیم دقیقی در بین وظایف تعمیم یابند؟

تغییر: از بینایی نظارت‌شده به مدل‌های بینایی-زبانی (VLMs)

با الهام از مدل‌های زبانی مانند BERT و GPT، یک دسته جدید از مدل‌ها ظهور کردند: مدل‌های بینایی-زبانی (VLMs).

این مدل‌ها بر روی مجموعه‌داده‌های بزرگ جفت‌های تصویر-متن آموزش داده می‌شوند. و به جای تنظیم ویژه وظیفه، هدف آن‌ها درک تراز بین روش‌های بصری و متنی است.

نتیجه؟ یک مدل واحد که می‌تواند:

  • تصاویر را بدون آموزش بر روی هیچ برچسبی طبقه‌بندی کند (طبقه‌بندی صفر-شات)،
  • تصاویر را بر اساس متن بازیابی کند،
  • معناشناسی بصری پیچیده را درک کند.

یک VLM در سال ۲۰۲۱ خبرساز شد: CLIP (پیش‌آموزش کنتراستی زبان-تصویر)