چالش طراحی رمزگذارهای دید همهمنظوره
با افزایش روزافزون سیستمهای هوش مصنوعی چندوجهی، نقش مدلهای ادراک بصری پیچیدهتر میشود. از رمزگذارهای دید انتظار میرود نه تنها اشیاء و صحنهها را تشخیص دهند، بلکه از وظایفی مانند شرحنویسی، پاسخ به سوالات، تشخیص دقیق، تجزیه اسناد و استدلال فضایی در تصاویر و ویدیوها نیز پشتیبانی کنند. مدلهای موجود معمولاً به اهداف پیشآموزشی متنوعی متکی هستند - یادگیری متضاد برای بازیابی، شرحنویسی برای وظایف زبانی و روشهای خود-نظارتی برای درک فضایی. این پراکندگی، مقیاسپذیری و استقرار مدل را پیچیده میکند و مصالحههایی را در عملکرد بین وظایف مختلف ایجاد میکند.
آنچه همچنان یک چالش اساسی است، طراحی یک رمزگذار دید یکپارچه است که بتواند با روشهای خاص وظیفه مطابقت داشته باشد یا از آنها فراتر رود، بهطور قوی در سناریوهای دنیای باز عمل کند و به طور کارآمد در بین روشها مقیاس شود.
یک راه حل یکپارچه: Perception Encoder متا هوش مصنوعی
متا هوش مصنوعی، Perception Encoder (PE) را معرفی میکند، یک خانواده مدل دید که با استفاده از یک هدف زبان-دید متضاد آموزش داده شده و با تکنیکهای همترازی متناسب با وظایف پاییندستی اصلاح شده است. PE از الگوی پیشآموزشی چندهدفه سنتی فاصله میگیرد. در عوض، نشان میدهد که با یک دستورالعمل آموزشی دقیق و روشهای همترازی مناسب، یادگیری متضاد به تنهایی میتواند بازنماییهای بصری بسیار تعمیمپذیر تولید کند.
Perception Encoder در سه مقیاس - PEcoreB، PEcoreL و PEcoreG - عمل میکند که بزرگترین مدل (مقیاس G) شامل ۲ میلیارد پارامتر است. این مدلها به گونهای طراحی شدهاند که به عنوان رمزگذارهای همهمنظوره برای ورودیهای تصویر و ویدیو عمل کنند و عملکرد قوی در طبقهبندی، بازیابی و استدلال چندوجهی ارائه دهند.
رویکرد آموزش و معماری
پیشآموزش PE از یک فرآیند دو مرحلهای پیروی میکند. مرحله اول شامل یادگیری متضاد قوی در یک مجموعه داده تصویر-متن تنظیمشده بزرگمقیاس (۵.۴ میلیارد جفت) است، جایی که چندین پیشرفت معماری و آموزشی باعث بهبود دقت و استحکام میشوند. این موارد شامل مقیاسبندی تدریجی وضوح، اندازههای دستهای بزرگ (تا ۱۳۱ هزار)، استفاده از بهینهساز LAMB، رمزگذاری موقعیتی 2D RoPE، تقویتهای تنظیمشده و منظمسازی پوشاندهشده است.
مرحله دوم با استفاده از یک موتور داده ویدیویی که جفتهای ویدیو-متن با کیفیت بالا را سنتز میکند، درک ویدیو را معرفی میکند. این خط لوله شامل شرحها از مدل زبانی ادراک (PLM)، توضیحات سطح فریم و فراداده است که سپس با استفاده از Llama 3.3 خلاصه میشوند. این حاشیهنویسیهای مصنوعی به همان رمزگذار تصویر اجازه میدهد تا از طریق میانگینگیری فریم برای وظایف ویدیویی تنظیم شود.
با وجود استفاده از یک هدف متضاد واحد، PE دارای بازنماییهای همهمنظوره توزیعشده در لایههای میانی است. برای دسترسی به این موارد، متا دو استراتژی همترازی را معرفی میکند:
- همترازی زبانی برای وظایفی مانند پاسخگویی به سؤالات بصری و شرحنویسی.
- همترازی فضایی برای تشخیص، ردیابی و تخمین عمق، با استفاده از خود-تقطیر و تقطیر مکاتبات فضایی از طریق SAM2.
عملکرد تجربی در بین روشها
PE تعمیم صفر-شات قوی را در طیف گستردهای از معیارهای دید نشان میدهد. در طبقهبندی تصویر، PEcoreG با مدلهای اختصاصی آموزشدیده در مجموعههای داده خصوصی بزرگ مانند JFT-3B مطابقت دارد یا از آنها فراتر میرود. این به دست میآورد:
- ۸۶.۶٪ در ImageNet-val،
- ۹۲.۶٪ در ImageNet-Adversarial،
- ۸۸.۲٪ در مجموعه ObjectNet کامل،
- نتایج رقابتی در مجموعههای داده دقیق از جمله iNaturalist، Food101 و Oxford Flowers.
در وظایف ویدیویی، PE عملکردی در سطح جهانی در معیارهای طبقهبندی و بازیابی صفر-شات به دست میآورد و از InternVideo2 و SigLIP2-g-opt پیشی میگیرد، در حالی که تنها روی ۲۲ میلیون جفت ویدیو-شرح مصنوعی آموزش داده شده است. استفاده از میانگینگیری ساده در فریمها - به جای توجه زمانی - نشان میدهد که سادگی معماری، در صورت جفت شدن با دادههای آموزشی همتراز، همچنان میتواند بازنماییهای ویدیویی با کیفیت بالا تولید کند.
یک مطالعه ابلیشن نشان میدهد که هر یک از اجزای موتور داده ویدیویی به طور معناداری در عملکرد نقش دارند. بهبودهای ۳.۹%+ در طبقهبندی و ۱۱.۱%+ در بازیابی نسبت به خطوط پایه فقط تصویر، سودمندی دادههای ویدیویی مصنوعی را برجسته میکند، حتی در مقیاس متوسط.
نتیجهگیری
Perception Encoder یک نمایش فنی قانعکننده ارائه میدهد که یک هدف متضاد واحد، اگر با دقت اجرا شود و با استراتژیهای همترازی متفکرانه جفت شود، برای ساخت رمزگذارهای دید همهمنظوره کافی است. PE نه تنها با مدلهای تخصصی در حوزههای مربوطه مطابقت دارد، بلکه این کار را با یک رویکرد یکپارچه و مقیاسپذیر انجام میدهد.
انتشار PE، به همراه کدبیس و مجموعه داده ویدیویی PE، یک بنیاد قابل تکرار و کارآمد را برای ساخت سیستمهای هوش مصنوعی چندوجهی به جامعه تحقیقاتی ارائه میدهد. با افزایش پیچیدگی و دامنه وظایف استدلال بصری، PE مسیری رو به جلو به سوی درک بصری یکپارچهتر و قویتر ارائه میدهد.