مدلهای زبان-تصویری (VLMs) مدتهاست که وعده دادهاند پلی بین درک تصویر و پردازش زبان طبیعی ایجاد کنند. با این حال, چالشهای عملی همچنان وجود دارند. VLMs سنتی اغلب با تغییرپذیری در وضوح تصویر، تفاوتهای ظریف متنی و پیچیدگی صرف تبدیل دادههای بصری به توصیفات متنی دقیق دست و پنجه نرم میکنند. برای مثال، مدلها ممکن است شرحهای مختصری برای تصاویر ساده تولید کنند، اما در هنگام توصیف صحنههای پیچیده، خواندن متن از تصاویر یا حتی تشخیص چندین شی با دقت فضایی دچار مشکل شوند. این کاستیها از نظر تاریخی، پذیرش VLM را در برنامههایی مانند تشخیص نوری کاراکتر (OCR)، درک سند و شرح تصویر دقیق محدود کرده است. انتشار جدید گوگل هدفش مقابله مستقیم با این مسائل است—با ارائه یک رویکرد انعطافپذیر و چندوظیفهای که قابلیت تنظیم دقیق را افزایش میدهد و عملکرد را در طیف وسیعی از وظایف زبان-تصویری بهبود میبخشد. این امر به ویژه برای صنایعی که به ترجمه دقیق تصویر به متن متکی هستند، مانند وسایل نقلیه خودران، تصویربرداری پزشکی و تحلیل محتوای چندرسانهای، حیاتی است.
گوگل دیپمایند به تازگی مجموعهای جدید از ایستهای بازرسی PaliGemma 2 را رونمایی کرده است که برای استفاده در برنامههایی مانند OCR، شرح تصویر و فراتر از آن طراحی شدهاند. این ایستهای بازرسی در اندازههای مختلفی عرضه میشوند—از 3B تا 28B پارامتر عظیم—و به عنوان مدلهای وزن-باز ارائه میشوند. یکی از بارزترین ویژگیها این است که این مدلها به طور کامل با اکوسیستم Transformers ادغام شدهاند، و از طریق کتابخانههای محبوب فوراً در دسترس هستند. چه از API HF Transformers برای استنتاج استفاده کنید و چه مدل را برای تنظیم دقیق بیشتر تطبیق دهید، ایستهای بازرسی جدید یک گردش کار ساده را برای توسعهدهندگان و محققان به طور یکسان وعده میدهند. گوگل با ارائه مقیاسهای پارامتر متعدد و پشتیبانی از طیف وسیعی از وضوح تصویر (224×224، 448×448 و حتی 896×896)، اطمینان حاصل کرده است که متخصصان میتوانند تعادل دقیقی بین بازده محاسباتی و دقت مدل را که برای وظایف خاص خود نیاز دارند، انتخاب کنند.
جزئیات فنی و مزایا
در هسته خود، PaliGemma 2 Mix بر روی مدلهای از پیش آموزشدیده PaliGemma 2 ساخته شده است، که خودشان رمزگذار تصویر SigLIP قدرتمند را با رمزگشای متن Gemma 2 پیشرفته ادغام میکنند. مدلهای "Mix" یک نوع تنظیمشده دقیق هستند که برای عملکرد قوی در بین ترکیبی از وظایف زبان-تصویری طراحی شدهاند. آنها از فرمتهای اعلان باز—مانند "شرح {lang}"، "توصیف {lang}"، "ocr" و غیره—استفاده میکنند، در نتیجه انعطافپذیری بیشتری ارائه میدهند. این رویکرد تنظیم دقیق نه تنها عملکرد خاص وظیفه را بهبود میبخشد، بلکه یک مبنایی را نیز فراهم میکند که پتانسیل مدل را هنگام تطبیق با وظایف پاییندستی نشان میدهد.
این معماری از هر دو چارچوب HF Transformers و JAX پشتیبانی میکند، به این معنی که کاربران میتوانند مدلها را در فرمتهای دقت مختلف (به عنوان مثال، کمیسازی bfloat16، 4 بیتی با bitsandbytes) اجرا کنند تا با پیکربندیهای سختافزاری مختلف مطابقت داشته باشند. این قابلیت چندوضوحی یک مزیت فنی قابل توجه است، که به همان مدل پایه اجازه میدهد تا در وظایف درشت (مانند شرح ساده) و وظایف دقیق (مانند تشخیص جزئیات دقیق در OCR) به سادگی با تنظیم وضوح ورودی، عالی عمل کند. علاوه بر این، ماهیت وزن-باز این ایستهای بازرسی، ادغام یکپارچه را در خطوط لوله تحقیق امکانپذیر میسازد و تکرار سریع را بدون هزینه محدودیتهای اختصاصی تسهیل میکند.
بینشهای عملکرد و نتایج معیار
معیارهای اولیه مدلهای PaliGemma 2 Mix امیدوارکننده هستند. در آزمایشهایی که وظایف عمومی زبان-تصویری، درک سند، وظایف محلیسازی و تشخیص متن را در بر میگیرند، انواع مدلها بهبود عملکرد ثابتی را نسبت به مدلهای قبلی خود نشان میدهند. برای مثال، هنگامی که وظیفه توصیف دقیق تصویر به آنها محول شد، هر دو ایست بازرسی 3B و 10B شرحهای دقیق و ظریفی تولید کردند—به درستی اشیاء و روابط فضایی را در صحنههای پیچیده شهری شناسایی کردند.
در وظایف OCR، مدلهای تنظیمشده دقیق قابلیتهای استخراج متن قوی را با خواندن دقیق تاریخها، قیمتها و سایر جزئیات از تصاویر بلیط چالشبرانگیز نشان دادند. علاوه بر این، برای وظایف محلیسازی شامل تشخیص و تقسیمبندی شی، خروجیهای مدل شامل مختصات جعبه محدود کننده دقیق و ماسکهای تقسیمبندی است. این خروجیها بر اساس معیارهای استاندارد با معیارهایی مانند امتیازات CIDEr برای شرح و Intersection over Union (IoU) برای تقسیمبندی ارزیابی شدهاند. نتایج بر توانایی مدل برای مقیاس با افزایش تعداد پارامتر و وضوح تاکید میکند: ایستهای بازرسی بزرگتر به طور کلی عملکرد بالاتری دارند، هرچند به قیمت افزایش نیازهای منابع محاسباتی. این مقیاسپذیری، همراه با عملکرد عالی در هر دو معیار کمی و مثالهای کیفی دنیای واقعی، PaliGemma 2 Mix را به عنوان ابزاری همهکاره برای طیف گستردهای از برنامهها قرار میدهد.
نتیجهگیری
انتشار ایستهای بازرسی PaliGemma 2 Mix توسط گوگل نقطه عطف مهمی در تکامل مدلهای زبان-تصویری است. این مدلها با پرداختن به چالشهای دیرینه—مانند حساسیت وضوح، شرح غنی از زمینه و سازگاری چندوظیفهای—به توسعهدهندگان این امکان را میدهند تا راهحلهای هوش مصنوعی را مستقر کنند که هم انعطافپذیر و هم بسیار کارآمد هستند. چه برای OCR، توصیف دقیق تصویر یا تشخیص شی، ماهیت وزن-باز و سازگار با ترانسفورماتور PaliGemma 2 Mix یک پلتفرم در دسترس را فراهم میکند که میتواند به طور یکپارچه در برنامههای مختلف ادغام شود. از آنجایی که جامعه هوش مصنوعی به پیشبرد مرزهای پردازش چندوجهی ادامه میدهد, ابزارهایی مانند اینها در پل زدن بین دادههای بصری خام و تفسیر زبانی معنادار بسیار مهم خواهند بود.
بررسی کنید جزئیات فنی و مدل در Hugging Face. تمام اعتبار این تحقیق به محققان این پروژه میرسد. همچنین، در صورت تمایل ما را در توییتر دنبال کنید و فراموش نکنید که به 75k+ ML SubReddit ما بپیوندید.