معرفی Perception Encoder توسط متا: یک رمزگذار دید بزرگ‌مقیاس که در وظایف مختلف دید برای تصاویر و ویدیوها برتری دارد

چالش طراحی رمزگذارهای دید همه‌منظوره

با افزایش روزافزون سیستم‌های هوش مصنوعی چندوجهی، نقش مدل‌های ادراک بصری پیچیده‌تر می‌شود. از رمزگذارهای دید انتظار می‌رود نه تنها اشیاء و صحنه‌ها را تشخیص دهند، بلکه از وظایفی مانند شرح‌نویسی، پاسخ به سوالات، تشخیص دقیق، تجزیه اسناد و استدلال فضایی در تصاویر و ویدیوها نیز پشتیبانی کنند. مدل‌های موجود معمولاً به اهداف پیش‌آموزشی متنوعی متکی هستند - یادگیری متضاد برای بازیابی، شرح‌نویسی برای وظایف زبانی و روش‌های خود-نظارتی برای درک فضایی. این پراکندگی، مقیاس‌پذیری و استقرار مدل را پیچیده می‌کند و مصالحه‌هایی را در عملکرد بین وظایف مختلف ایجاد می‌کند.

آنچه همچنان یک چالش اساسی است، طراحی یک رمزگذار دید یکپارچه است که بتواند با روش‌های خاص وظیفه مطابقت داشته باشد یا از آن‌ها فراتر رود، به‌طور قوی در سناریوهای دنیای باز عمل کند و به طور کارآمد در بین روش‌ها مقیاس شود.

یک راه حل یکپارچه: Perception Encoder متا هوش مصنوعی

متا هوش مصنوعی، Perception Encoder (PE) را معرفی می‌کند، یک خانواده مدل دید که با استفاده از یک هدف زبان-دید متضاد آموزش داده شده و با تکنیک‌های هم‌ترازی متناسب با وظایف پایین‌دستی اصلاح شده است. PE از الگوی پیش‌آموزشی چندهدفه سنتی فاصله می‌گیرد. در عوض، نشان می‌دهد که با یک دستورالعمل آموزشی دقیق و روش‌های هم‌ترازی مناسب، یادگیری متضاد به تنهایی می‌تواند بازنمایی‌های بصری بسیار تعمیم‌پذیر تولید کند.

Perception Encoder در سه مقیاس - PEcoreB، PEcoreL و PEcoreG - عمل می‌کند که بزرگترین مدل (مقیاس G) شامل ۲ میلیارد پارامتر است. این مدل‌ها به گونه‌ای طراحی شده‌اند که به عنوان رمزگذارهای همه‌منظوره برای ورودی‌های تصویر و ویدیو عمل کنند و عملکرد قوی در طبقه‌بندی، بازیابی و استدلال چندوجهی ارائه دهند.

رویکرد آموزش و معماری

پیش‌آموزش PE از یک فرآیند دو مرحله‌ای پیروی می‌کند. مرحله اول شامل یادگیری متضاد قوی در یک مجموعه داده تصویر-متن تنظیم‌شده بزرگ‌مقیاس (۵.۴ میلیارد جفت) است، جایی که چندین پیشرفت معماری و آموزشی باعث بهبود دقت و استحکام می‌شوند. این موارد شامل مقیاس‌بندی تدریجی وضوح، اندازه‌های دسته‌ای بزرگ (تا ۱۳۱ هزار)، استفاده از بهینه‌ساز LAMB، رمزگذاری موقعیتی 2D RoPE، تقویت‌های تنظیم‌شده و منظم‌سازی پوشانده‌شده است.

مرحله دوم با استفاده از یک موتور داده ویدیویی که جفت‌های ویدیو-متن با کیفیت بالا را سنتز می‌کند، درک ویدیو را معرفی می‌کند. این خط لوله شامل شرح‌ها از مدل زبانی ادراک (PLM)، توضیحات سطح فریم و فراداده است که سپس با استفاده از Llama 3.3 خلاصه می‌شوند. این حاشیه‌نویسی‌های مصنوعی به همان رمزگذار تصویر اجازه می‌دهد تا از طریق میانگین‌گیری فریم برای وظایف ویدیویی تنظیم شود.

با وجود استفاده از یک هدف متضاد واحد، PE دارای بازنمایی‌های همه‌منظوره توزیع‌شده در لایه‌های میانی است. برای دسترسی به این موارد، متا دو استراتژی هم‌ترازی را معرفی می‌کند:

  • هم‌ترازی زبانی برای وظایفی مانند پاسخگویی به سؤالات بصری و شرح‌نویسی.
  • هم‌ترازی فضایی برای تشخیص، ردیابی و تخمین عمق، با استفاده از خود-تقطیر و تقطیر مکاتبات فضایی از طریق SAM2.
معیارهای عملکرد Perception Encoder
معیارهای عملکرد در بین روش‌ها

عملکرد تجربی در بین روش‌ها

PE تعمیم صفر-شات قوی را در طیف گسترده‌ای از معیارهای دید نشان می‌دهد. در طبقه‌بندی تصویر، PEcoreG با مدل‌های اختصاصی آموزش‌دیده در مجموعه‌های داده خصوصی بزرگ مانند JFT-3B مطابقت دارد یا از آن‌ها فراتر می‌رود. این به دست می‌آورد:

  • ۸۶.۶٪ در ImageNet-val،
  • ۹۲.۶٪ در ImageNet-Adversarial،
  • ۸۸.۲٪ در مجموعه ObjectNet کامل،
  • نتایج رقابتی در مجموعه‌های داده دقیق از جمله iNaturalist، Food101 و Oxford Flowers.

در وظایف ویدیویی، PE عملکردی در سطح جهانی در معیارهای طبقه‌بندی و بازیابی صفر-شات به دست می‌آورد و از InternVideo2 و SigLIP2-g-opt پیشی می‌گیرد، در حالی که تنها روی ۲۲ میلیون جفت ویدیو-شرح مصنوعی آموزش داده شده است. استفاده از میانگین‌گیری ساده در فریم‌ها - به جای توجه زمانی - نشان می‌دهد که سادگی معماری، در صورت جفت شدن با داده‌های آموزشی هم‌تراز، همچنان می‌تواند بازنمایی‌های ویدیویی با کیفیت بالا تولید کند.

یک مطالعه ابلیشن نشان می‌دهد که هر یک از اجزای موتور داده ویدیویی به طور معناداری در عملکرد نقش دارند. بهبودهای ۳.۹%+ در طبقه‌بندی و ۱۱.۱%+ در بازیابی نسبت به خطوط پایه فقط تصویر، سودمندی داده‌های ویدیویی مصنوعی را برجسته می‌کند، حتی در مقیاس متوسط.

نتیجه‌گیری

Perception Encoder یک نمایش فنی قانع‌کننده ارائه می‌دهد که یک هدف متضاد واحد، اگر با دقت اجرا شود و با استراتژی‌های هم‌ترازی متفکرانه جفت شود، برای ساخت رمزگذارهای دید همه‌منظوره کافی است. PE نه تنها با مدل‌های تخصصی در حوزه‌های مربوطه مطابقت دارد، بلکه این کار را با یک رویکرد یکپارچه و مقیاس‌پذیر انجام می‌دهد.

انتشار PE، به همراه کدبیس و مجموعه داده ویدیویی PE، یک بنیاد قابل تکرار و کارآمد را برای ساخت سیستم‌های هوش مصنوعی چندوجهی به جامعه تحقیقاتی ارائه می‌دهد. با افزایش پیچیدگی و دامنه وظایف استدلال بصری، PE مسیری رو به جلو به سوی درک بصری یکپارچه‌تر و قوی‌تر ارائه می‌دهد.