مقدمه: چرا وظایف بینایی هنوز ما را به چالش میکشند
از تشخیص چهرهها در عکسها گرفته تا تشخیص اشیاء در ویدیوهای بیدرنگ، بینایی کامپیوتر روش «دیدن» ماشینها به جهان را متحول کردهاست. وظایفی مانند طبقهبندی تصویر، تشخیص شی، بخشبندی و حتی شناسایی مجدد افراد (ReID) به لطف یادگیری عمیق، پیشرفتهای چشمگیری داشتهاند.
اما این پیشرفتها هزینهای داشت:
- مجموعهدادههای عظیم باید جمعآوری و حاشیهنویسی شوند.
- آموزش مدلها از ابتدا زمان و محاسبات زیادی میبرد.
- تنظیم دقیق ویژه وظیفه تعمیم را محدود میکند.
برای غلبه بر این موانع، محققان یک الگوی جدید را معرفی کردند:
پیشآموزش یک مدل بر روی دادههای بزرگ مقیاس ← تنظیم دقیق آن برای وظایف خاص.
در حالی که این کمک کرد، اما هنوز به شدت به دادههای برچسبگذاری شده برای هر کار متکی بود.
سپس تغییری ناشی از پیشرفت در پردازش زبان طبیعی (NLP) به وجود آمد. چه میشد اگر میتوانستیم مدلها را روی جفتهای تصویر-متن آموزش دهیم و به آنها اجازه دهیم بدون هیچگونه تنظیم دقیقی در بین وظایف تعمیم یابند؟
تغییر: از بینایی نظارتشده به مدلهای بینایی-زبانی (VLMs)
با الهام از مدلهای زبانی مانند BERT و GPT، یک دسته جدید از مدلها ظهور کردند: مدلهای بینایی-زبانی (VLMs).
این مدلها بر روی مجموعهدادههای بزرگ جفتهای تصویر-متن آموزش داده میشوند. و به جای تنظیم ویژه وظیفه، هدف آنها درک تراز بین روشهای بصری و متنی است.
نتیجه؟ یک مدل واحد که میتواند:
- تصاویر را بدون آموزش بر روی هیچ برچسبی طبقهبندی کند (طبقهبندی صفر-شات)،
- تصاویر را بر اساس متن بازیابی کند،
- معناشناسی بصری پیچیده را درک کند.
یک VLM در سال ۲۰۲۱ خبرساز شد: CLIP (پیشآموزش کنتراستی زبان-تصویر)