Patronus AI اولین مدل MLLM-as-a-Judge (مدل زبانی بزرگ چندوجهی به عنوان داور) صنعت را معرفی میکند: طراحی شده برای ارزیابی و بهینهسازی سیستمهای هوش مصنوعی که ورودیهای تصویر را به خروجیهای متن تبدیل میکنند
در سالهای اخیر، ادغام فناوریهای تولید تصویر در پلتفرمهای مختلف، راههای جدیدی را برای بهبود تجربه کاربری باز کرده است. با این حال، با گسترش این سیستمهای هوش مصنوعی چندوجهی - قادر به پردازش و تولید اشکال مختلف داده مانند متن و تصاویر - چالشهایی مانند «توهم کپشن» پدیدار شده است. این پدیده زمانی رخ میدهد که توضیحات تولید شده توسط هوش مصنوعی از تصاویر حاوی نادرستیها یا جزئیات نامربوط باشد، که به طور بالقوه اعتماد و تعامل کاربر را کاهش میدهد. روشهای سنتی ارزیابی این سیستمها اغلب متکی به بازرسی دستی است، که نه مقیاسپذیر است و نه کارآمد، و نیاز به ابزارهای ارزیابی خودکار و قابل اعتماد متناسب با برنامههای هوش مصنوعی چندوجهی را برجسته میکند.
Patronus AI با پرداختن به این چالشها، اولین مدل MLLM-as-a-Judge (مدل زبانی بزرگ چندوجهی به عنوان داور) صنعت را معرفی کرده است که برای ارزیابی و بهینهسازی سیستمهای هوش مصنوعی که ورودیهای تصویر را به خروجیهای متن تبدیل میکنند، طراحی شده است. این ابزار از مدل Gemini گوگل استفاده میکند که به دلیل رویکرد قضاوت متوازن و توزیع امتیازدهی ثابت انتخاب شده است و آن را از جایگزینهایی مانند GPT-4V OpenAI متمایز میکند، که سطوح بالاتری از خودمحوری را نشان داده است. MLLM-as-a-Judge با تعهد Patronus AI به پیشبرد نظارت مقیاسپذیر بر سیستمهای هوش مصنوعی همسو است و ابزاری را برای توسعهدهندگان فراهم میکند تا عملکرد برنامههای چندوجهی خود را ارزیابی و بهبود بخشند.
از نظر فنی، MLLM-as-a-Judge مجهز به پردازش و ارزیابی وظایف تولید تصویر به متن است. این مدل، ارزیابهای داخلی ارائه میدهد که با تجزیه و تحلیل ویژگیهایی مانند وجود و مکان متن، ساختارهای شبکهای، جهتگیری فضایی و شناسایی شی، یک تصویر لحظهای از واقعیت اصلی تصاویر ایجاد میکنند. مجموعه ارزیابها شامل معیارهایی مانند:
- caption-describes-primary-object (کپشن-توصیفکننده-شیء-اصلی)
- caption-describes-non-primary-objects (کپشن-توصیفکننده-اشیاء-غیر-اصلی)
- caption-hallucination (توهم-کپشن)
- caption-hallucination-strict (توهم-کپشن-سختگیرانه)
- caption-mentions-primary-object-location (کپشن-اشاره-به-مکان-شیء-اصلی)
این ارزیابها امکان ارزیابی کامل کپشنهای تصویر را فراهم میکنند و اطمینان میدهند که توضیحات تولید شده به طور دقیق محتوای بصری را منعکس میکنند. MLLM-as-a-Judge فراتر از تأیید صحت کپشن، میتواند برای آزمایش ارتباط اسکرینشاتهای محصول در پاسخ به پرسشهای کاربر، تأیید صحت استخراجهای تشخیص نوری کاراکتر (OCR) برای دادههای جدولی و ارزیابی دقت تصاویر و لوگوهای برند تولید شده توسط هوش مصنوعی استفاده شود.
یک کاربرد عملی MLLM-as-a-Judge اجرای آن توسط Etsy است، یک پلتفرم تجارت الکترونیک برجسته که در محصولات دستساز و قدیمی تخصص دارد. تیم هوش مصنوعی Etsy از هوش مصنوعی مولد برای تولید خودکار کپشن برای تصاویر محصول آپلود شده توسط فروشندگان استفاده میکند و روند فهرستبندی را ساده میکند. با این حال، آنها با مسائل کیفی در سیستمهای هوش مصنوعی چندوجهی خود مواجه شدند، زیرا کپشنهای تولید شده اغلب حاوی خطاها و خروجیهای غیرمنتظره بودند. برای رفع این مشکل، Etsy، Judge-Image، یک جزء از MLLM-as-a-Judge را برای ارزیابی و بهینهسازی سیستم کپشننویسی تصویر خود ادغام کرد. این ادغام به Etsy اجازه داد تا توهمات کپشن را کاهش دهد، در نتیجه دقت توضیحات محصول را بهبود بخشد و تجربه کلی کاربر را افزایش دهد.
در نتیجه، از آنجایی که سازمانها به پذیرش و مقیاسبندی سیستمهای هوش مصنوعی چندوجهی ادامه میدهند، پرداختن به غیرقابل پیشبینی بودن این سیستمها ضروری میشود. MLLM-as-a-Judge شرکت Patronus AI یک راه حل خودکار برای ارزیابی و بهینهسازی برنامههای هوش مصنوعی تصویر به متن ارائه میدهد و مسائلی مانند توهم کپشن را کاهش میدهد. MLLM-as-a-Judge با ارائه ارزیابهای داخلی و استفاده از مدلهای پیشرفتهای مانند Google Gemini، توسعهدهندگان و سازمانها را قادر میسازد تا قابلیت اطمینان و دقت سیستمهای هوش مصنوعی چندوجهی خود را افزایش دهند و در نهایت اعتماد و تعامل بیشتر کاربر را تقویت کنند.
برای اطلاعات بیشتر، جزئیات فنی را بررسی کنید. اعتبار این تحقیق متعلق به محققان این پروژه است. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید به سابردیت ۸۰k+ ML ما بپیوندید.