STORM (کاهش توکن فضازمان برای مدل‌های زبانی بزرگ چندوجهی): یک معماری هوش مصنوعی جدید با استفاده از یک رمزگذار زمانی اختصاصی بین رمزگذار تصویر و مدل زبانی بزرگ

معماری هوش مصنوعی STORM
معماری هوش مصنوعی STORM

درک ویدیوها با استفاده از هوش مصنوعی نیازمند مدیریت کارآمد توالی تصاویر است. یک چالش بزرگ در مدل‌های هوش مصنوعی مبتنی بر ویدیو، ناتوانی آن‌ها در پردازش ویدیوها به عنوان یک جریان پیوسته است که باعث از دست رفتن جزئیات مهم حرکتی و اختلال در پیوستگی می‌شود. این کمبود مدل‌سازی زمانی مانع از ردیابی تغییرات می‌شود؛ بنابراین، رویدادها و تعاملات به طور جزئی ناشناخته می‌مانند. ویدیوهای طولانی نیز این فرآیند را دشوار می‌کنند، با هزینه‌های محاسباتی بالا و نیاز به تکنیک‌هایی مانند رد کردن فریم، که اطلاعات ارزشمند را از دست می‌دهد و دقت را کاهش می‌دهد. همپوشانی بین داده‌ها در فریم‌ها نیز به خوبی فشرده نمی‌شود، که منجر به افزونگی و هدر رفتن منابع می‌شود.

چارچوب STORM
چارچوب STORM

در حال حاضر، مدل‌های زبان و تصویر، ویدیوها را به عنوان توالی فریم‌های ثابت با رمزگذارهای تصویر و پروژکتورهای زبان و تصویر در نظر می‌گیرند، که نمایش حرکت و پیوستگی را با چالش مواجه می‌کند. مدل‌های زبانی باید روابط زمانی را به طور مستقل استنباط کنند، که منجر به درک ناقص می‌شود. نمونه‌برداری فرعی از فریم‌ها بار محاسباتی را به قیمت حذف جزئیات مفید کاهش می‌دهد و بر دقت تأثیر می‌گذارد. روش‌های کاهش توکن مانند فشرده‌سازی حافظه پنهان KV بازگشتی و انتخاب فریم، پیچیدگی را افزایش می‌دهند بدون اینکه بهبود زیادی حاصل شود. اگرچه رمزگذارهای ویدیویی پیشرفته و روش‌های ادغام به کمک می‌کنند، اما همچنان ناکارآمد و غیرقابل مقیاس هستند و پردازش ویدیوهای طولانی را از نظر محاسباتی فشرده می‌کنند.

لایه‌های مامبا در STORM
لایه‌های مامبا در STORM

برای رفع این چالش‌ها، محققان NVIDIA، دانشگاه راتگرز، UC Berkeley، MIT، دانشگاه نانجینگ و KAIST، STORM (کاهش توکن فضازمان برای مدل‌های زبانی بزرگ چندوجهی) را پیشنهاد کردند، یک معماری پروژکتور زمانی مبتنی بر مامبا (Mamba) برای پردازش کارآمد ویدیوهای طولانی. برخلاف روش‌های سنتی، که در آن روابط زمانی به طور جداگانه بر روی هر فریم ویدیویی استنباط می‌شوند و مدل‌های زبانی برای استنباط روابط زمانی مورد استفاده قرار می‌گیرند، STORM اطلاعات زمانی را در سطح توکن‌های ویدیو اضافه می‌کند تا افزونگی محاسباتی را از بین ببرد و کارایی را افزایش دهد. این مدل نمایش‌های ویدیویی را با یک مکانیسم اسکن فضازمان دوطرفه بهبود می‌بخشد و در عین حال بار استدلال زمانی را از مدل زبانی بزرگ کاهش می‌دهد.

ارزیابی STORM
ارزیابی STORM

این چارچوب از لایه‌های مامبا برای تقویت مدل‌سازی زمانی استفاده می‌کند، و یک ماژول اسکن دوطرفه را برای گرفتن وابستگی‌ها در ابعاد فضایی و زمانی ترکیب می‌کند. رمزگذار زمانی ورودی‌های تصویر و ویدیو را به طور متفاوتی پردازش می‌کند، به عنوان یک اسکنر فضایی برای تصاویر برای ادغام زمینه فضایی جهانی و به عنوان یک اسکنر فضازمان برای ویدیوها برای گرفتن پویایی زمانی عمل می‌کند. در طول آموزش، تکنیک‌های فشرده‌سازی توکن، کارایی محاسباتی را بهبود بخشید و در عین حال اطلاعات ضروری را حفظ کرد، که امکان استنتاج بر روی یک GPU واحد را فراهم کرد. نمونه‌برداری فرعی توکن بدون آموزش در زمان آزمایش، بارهای محاسباتی را بیشتر کاهش داد و در عین حال جزئیات زمانی مهم را حفظ کرد. این تکنیک پردازش کارآمد ویدیوهای طولانی را بدون نیاز به تجهیزات تخصصی یا اقتباس‌های عمیق تسهیل کرد.

نتایج STORM
نتایج STORM

آزمایش‌هایی برای ارزیابی مدل STORM برای درک ویدیو انجام شد. آموزش با استفاده از مدل‌های SigLIP از پیش آموزش‌دیده انجام شد، با یک پروژکتور زمانی که از طریق مقداردهی اولیه تصادفی معرفی شد. این فرآیند شامل دو مرحله بود: یک مرحله هم‌ترازی، که در آن رمزگذار تصویر و مدل زبانی بزرگ ثابت بودند در حالی که فقط پروژکتور زمانی با استفاده از جفت‌های تصویر-متن آموزش داده می‌شد، و یک مرحله تنظیم دقیق نظارت‌شده (SFT) با یک مجموعه داده متنوع از 12.5 میلیون نمونه، از جمله داده‌های متن، تصویر-متن و ویدیو-متن. روش‌های فشرده‌سازی توکن، از جمله ادغام زمانی و فضایی، بار محاسباتی را کاهش داد. آخرین مدل بر روی بنچمارک‌های ویدیویی طولانی مانند EgoSchema، MVBench، MLVU، LongVideoBench و VideoMME ارزیابی شد، و عملکرد با سایر مدل‌های زبانی بزرگ ویدیویی مقایسه شد.

پس از ارزیابی، STORM از مدل‌های موجود بهتر عمل کرد و به نتایج پیشرفته‌ای در بنچمارک‌ها دست یافت. ماژول مامبا کارایی را با فشرده‌سازی توکن‌های بصری و در عین حال حفظ اطلاعات کلیدی، بهبود بخشید و زمان استنتاج را تا 65.5٪ کاهش داد. ادغام زمانی بهترین عملکرد را در ویدیوهای طولانی داشت و عملکرد را با تعداد کمی توکن بهینه کرد. STORM همچنین عملکرد بسیار بهتری نسبت به مدل پایه VILA، به ویژه در وظایفی که شامل درک زمینه جهانی بود، داشت. نتایج اهمیت مامبا را برای فشرده‌سازی بهینه توکن تأیید کرد، با افزایش عملکرد همراه با افزایش طول ویدیو از 8 به 128 فریم.

به طور خلاصه، مدل STORM پیشنهادی، درک ویدیوهای طولانی را با استفاده از یک رمزگذار زمانی مبتنی بر مامبا و کاهش کارآمد توکن بهبود بخشید. این مدل فشرده‌سازی قوی را بدون از دست دادن اطلاعات زمانی کلیدی امکان‌پذیر کرد، عملکرد پیشرفته‌ای را در بنچمارک‌های ویدیویی طولانی ثبت کرد و در عین حال محاسبات را پایین نگه داشت. این روش می‌تواند به عنوان یک خط پایه برای تحقیقات آینده عمل کند و نوآوری را در فشرده‌سازی توکن، هم‌ترازی چندوجهی و استقرار در دنیای واقعی برای بهبود دقت و کارایی مدل زبان و تصویر تسهیل کند.