انتشار PaliGemma 2 Mix توسط Google DeepMind

مدل‌های زبان-تصویری (VLMs) مدت‌هاست که وعده داده‌اند پلی بین درک تصویر و پردازش زبان طبیعی ایجاد کنند. با این حال, چالش‌های عملی همچنان وجود دارند. VLMs سنتی اغلب با تغییرپذیری در وضوح تصویر، تفاوت‌های ظریف متنی و پیچیدگی صرف تبدیل داده‌های بصری به توصیفات متنی دقیق دست و پنجه نرم می‌کنند. برای مثال، مدل‌ها ممکن است شرح‌های مختصری برای تصاویر ساده تولید کنند، اما در هنگام توصیف صحنه‌های پیچیده، خواندن متن از تصاویر یا حتی تشخیص چندین شی با دقت فضایی دچار مشکل شوند. این کاستی‌ها از نظر تاریخی، پذیرش VLM را در برنامه‌هایی مانند تشخیص نوری کاراکتر (OCR)، درک سند و شرح تصویر دقیق محدود کرده است. انتشار جدید گوگل هدفش مقابله مستقیم با این مسائل است—با ارائه یک رویکرد انعطاف‌پذیر و چندوظیفه‌ای که قابلیت تنظیم دقیق را افزایش می‌دهد و عملکرد را در طیف وسیعی از وظایف زبان-تصویری بهبود می‌بخشد. این امر به ویژه برای صنایعی که به ترجمه دقیق تصویر به متن متکی هستند، مانند وسایل نقلیه خودران، تصویربرداری پزشکی و تحلیل محتوای چندرسانه‌ای، حیاتی است.

گوگل دیپ‌مایند به تازگی مجموعه‌ای جدید از ایست‌های بازرسی PaliGemma 2 را رونمایی کرده است که برای استفاده در برنامه‌هایی مانند OCR، شرح تصویر و فراتر از آن طراحی شده‌اند. این ایست‌های بازرسی در اندازه‌های مختلفی عرضه می‌شوند—از 3B تا 28B پارامتر عظیم—و به عنوان مدل‌های وزن-باز ارائه می‌شوند. یکی از بارزترین ویژگی‌ها این است که این مدل‌ها به طور کامل با اکوسیستم Transformers ادغام شده‌اند، و از طریق کتابخانه‌های محبوب فوراً در دسترس هستند. چه از API HF Transformers برای استنتاج استفاده کنید و چه مدل را برای تنظیم دقیق بیشتر تطبیق دهید، ایست‌های بازرسی جدید یک گردش کار ساده را برای توسعه‌دهندگان و محققان به طور یکسان وعده می‌دهند. گوگل با ارائه مقیاس‌های پارامتر متعدد و پشتیبانی از طیف وسیعی از وضوح تصویر (224×224، 448×448 و حتی 896×896)، اطمینان حاصل کرده است که متخصصان می‌توانند تعادل دقیقی بین بازده محاسباتی و دقت مدل را که برای وظایف خاص خود نیاز دارند، انتخاب کنند.

جزئیات فنی و مزایا

در هسته خود، PaliGemma 2 Mix بر روی مدل‌های از پیش آموزش‌دیده PaliGemma 2 ساخته شده است، که خودشان رمزگذار تصویر SigLIP قدرتمند را با رمزگشای متن Gemma 2 پیشرفته ادغام می‌کنند. مدل‌های "Mix" یک نوع تنظیم‌شده دقیق هستند که برای عملکرد قوی در بین ترکیبی از وظایف زبان-تصویری طراحی شده‌اند. آنها از فرمت‌های اعلان باز—مانند "شرح {lang}"، "توصیف {lang}"، "ocr" و غیره—استفاده می‌کنند، در نتیجه انعطاف‌پذیری بیشتری ارائه می‌دهند. این رویکرد تنظیم دقیق نه تنها عملکرد خاص وظیفه را بهبود می‌بخشد، بلکه یک مبنایی را نیز فراهم می‌کند که پتانسیل مدل را هنگام تطبیق با وظایف پایین‌دستی نشان می‌دهد.

این معماری از هر دو چارچوب HF Transformers و JAX پشتیبانی می‌کند، به این معنی که کاربران می‌توانند مدل‌ها را در فرمت‌های دقت مختلف (به عنوان مثال، کمی‌سازی bfloat16، 4 بیتی با bitsandbytes) اجرا کنند تا با پیکربندی‌های سخت‌افزاری مختلف مطابقت داشته باشند. این قابلیت چندوضوحی یک مزیت فنی قابل توجه است، که به همان مدل پایه اجازه می‌دهد تا در وظایف درشت (مانند شرح ساده) و وظایف دقیق (مانند تشخیص جزئیات دقیق در OCR) به سادگی با تنظیم وضوح ورودی، عالی عمل کند. علاوه بر این، ماهیت وزن-باز این ایست‌های بازرسی، ادغام یکپارچه را در خطوط لوله تحقیق امکان‌پذیر می‌سازد و تکرار سریع را بدون هزینه محدودیت‌های اختصاصی تسهیل می‌کند.

بینش‌های عملکرد و نتایج معیار

معیارهای اولیه مدل‌های PaliGemma 2 Mix امیدوارکننده هستند. در آزمایش‌هایی که وظایف عمومی زبان-تصویری، درک سند، وظایف محلی‌سازی و تشخیص متن را در بر می‌گیرند، انواع مدل‌ها بهبود عملکرد ثابتی را نسبت به مدل‌های قبلی خود نشان می‌دهند. برای مثال، هنگامی که وظیفه توصیف دقیق تصویر به آنها محول شد، هر دو ایست بازرسی 3B و 10B شرح‌های دقیق و ظریفی تولید کردند—به درستی اشیاء و روابط فضایی را در صحنه‌های پیچیده شهری شناسایی کردند.

در وظایف OCR، مدل‌های تنظیم‌شده دقیق قابلیت‌های استخراج متن قوی را با خواندن دقیق تاریخ‌ها، قیمت‌ها و سایر جزئیات از تصاویر بلیط چالش‌برانگیز نشان دادند. علاوه بر این، برای وظایف محلی‌سازی شامل تشخیص و تقسیم‌بندی شی، خروجی‌های مدل شامل مختصات جعبه محدود کننده دقیق و ماسک‌های تقسیم‌بندی است. این خروجی‌ها بر اساس معیارهای استاندارد با معیارهایی مانند امتیازات CIDEr برای شرح و Intersection over Union (IoU) برای تقسیم‌بندی ارزیابی شده‌اند. نتایج بر توانایی مدل برای مقیاس با افزایش تعداد پارامتر و وضوح تاکید می‌کند: ایست‌های بازرسی بزرگتر به طور کلی عملکرد بالاتری دارند، هرچند به قیمت افزایش نیازهای منابع محاسباتی. این مقیاس‌پذیری، همراه با عملکرد عالی در هر دو معیار کمی و مثال‌های کیفی دنیای واقعی، PaliGemma 2 Mix را به عنوان ابزاری همه‌کاره برای طیف گسترده‌ای از برنامه‌ها قرار می‌دهد.

نتیجه‌گیری

انتشار ایست‌های بازرسی PaliGemma 2 Mix توسط گوگل نقطه عطف مهمی در تکامل مدل‌های زبان-تصویری است. این مدل‌ها با پرداختن به چالش‌های دیرینه—مانند حساسیت وضوح، شرح غنی از زمینه و سازگاری چندوظیفه‌ای—به توسعه‌دهندگان این امکان را می‌دهند تا راه‌حل‌های هوش مصنوعی را مستقر کنند که هم انعطاف‌پذیر و هم بسیار کارآمد هستند. چه برای OCR، توصیف دقیق تصویر یا تشخیص شی، ماهیت وزن-باز و سازگار با ترانسفورماتور PaliGemma 2 Mix یک پلتفرم در دسترس را فراهم می‌کند که می‌تواند به طور یکپارچه در برنامه‌های مختلف ادغام شود. از آنجایی که جامعه هوش مصنوعی به پیشبرد مرزهای پردازش چندوجهی ادامه می‌دهد, ابزارهایی مانند اینها در پل زدن بین داده‌های بصری خام و تفسیر زبانی معنادار بسیار مهم خواهند بود.


بررسی کنید جزئیات فنی و مدل در Hugging Face. تمام اعتبار این تحقیق به محققان این پروژه می‌رسد. همچنین، در صورت تمایل ما را در توییتر دنبال کنید و فراموش نکنید که به 75k+ ML SubReddit ما بپیوندید.

?? مطالعه پیشنهادی- LG AI Research NEXUS را منتشر کرد: یک سیستم پیشرفته که سیستم هوش مصنوعی عامل و استانداردهای انطباق با داده را برای رسیدگی به نگرانی‌های قانونی در مجموعه‌های داده هوش مصنوعی ادغام می‌کند