Patronus AI اولین مدل MLLM-as-a-Judge (مدل زبانی بزرگ چندوجهی به عنوان داور) صنعت را معرفی می‌کند

Patronus AI اولین مدل MLLM-as-a-Judge (مدل زبانی بزرگ چندوجهی به عنوان داور) صنعت را معرفی می‌کند: طراحی شده برای ارزیابی و بهینه‌سازی سیستم‌های هوش مصنوعی که ورودی‌های تصویر را به خروجی‌های متن تبدیل می‌کنند

در سال‌های اخیر، ادغام فناوری‌های تولید تصویر در پلتفرم‌های مختلف، راه‌های جدیدی را برای بهبود تجربه کاربری باز کرده است. با این حال، با گسترش این سیستم‌های هوش مصنوعی چندوجهی - قادر به پردازش و تولید اشکال مختلف داده مانند متن و تصاویر - چالش‌هایی مانند «توهم کپشن» پدیدار شده است. این پدیده زمانی رخ می‌دهد که توضیحات تولید شده توسط هوش مصنوعی از تصاویر حاوی نادرستی‌ها یا جزئیات نامربوط باشد، که به طور بالقوه اعتماد و تعامل کاربر را کاهش می‌دهد. روش‌های سنتی ارزیابی این سیستم‌ها اغلب متکی به بازرسی دستی است، که نه مقیاس‌پذیر است و نه کارآمد، و نیاز به ابزارهای ارزیابی خودکار و قابل اعتماد متناسب با برنامه‌های هوش مصنوعی چندوجهی را برجسته می‌کند.

Patronus AI با پرداختن به این چالش‌ها، اولین مدل MLLM-as-a-Judge (مدل زبانی بزرگ چندوجهی به عنوان داور) صنعت را معرفی کرده است که برای ارزیابی و بهینه‌سازی سیستم‌های هوش مصنوعی که ورودی‌های تصویر را به خروجی‌های متن تبدیل می‌کنند، طراحی شده است. این ابزار از مدل Gemini گوگل استفاده می‌کند که به دلیل رویکرد قضاوت متوازن و توزیع امتیازدهی ثابت انتخاب شده است و آن را از جایگزین‌هایی مانند GPT-4V OpenAI متمایز می‌کند، که سطوح بالاتری از خودمحوری را نشان داده است. MLLM-as-a-Judge با تعهد Patronus AI به پیشبرد نظارت مقیاس‌پذیر بر سیستم‌های هوش مصنوعی همسو است و ابزاری را برای توسعه‌دهندگان فراهم می‌کند تا عملکرد برنامه‌های چندوجهی خود را ارزیابی و بهبود بخشند.

از نظر فنی، MLLM-as-a-Judge مجهز به پردازش و ارزیابی وظایف تولید تصویر به متن است. این مدل، ارزیاب‌های داخلی ارائه می‌دهد که با تجزیه و تحلیل ویژگی‌هایی مانند وجود و مکان متن، ساختارهای شبکه‌ای، جهت‌گیری فضایی و شناسایی شی، یک تصویر لحظه‌ای از واقعیت اصلی تصاویر ایجاد می‌کنند. مجموعه ارزیاب‌ها شامل معیارهایی مانند:

  • caption-describes-primary-object (کپشن-توصیف‌کننده-شیء-اصلی)
  • caption-describes-non-primary-objects (کپشن-توصیف‌کننده-اشیاء-غیر-اصلی)
  • caption-hallucination (توهم-کپشن)
  • caption-hallucination-strict (توهم-کپشن-سختگیرانه)
  • caption-mentions-primary-object-location (کپشن-اشاره-به-مکان-شیء-اصلی)

این ارزیاب‌ها امکان ارزیابی کامل کپشن‌های تصویر را فراهم می‌کنند و اطمینان می‌دهند که توضیحات تولید شده به طور دقیق محتوای بصری را منعکس می‌کنند. MLLM-as-a-Judge فراتر از تأیید صحت کپشن، می‌تواند برای آزمایش ارتباط اسکرین‌شات‌های محصول در پاسخ به پرسش‌های کاربر، تأیید صحت استخراج‌های تشخیص نوری کاراکتر (OCR) برای داده‌های جدولی و ارزیابی دقت تصاویر و لوگوهای برند تولید شده توسط هوش مصنوعی استفاده شود.

یک کاربرد عملی MLLM-as-a-Judge اجرای آن توسط Etsy است، یک پلتفرم تجارت الکترونیک برجسته که در محصولات دست‌ساز و قدیمی تخصص دارد. تیم هوش مصنوعی Etsy از هوش مصنوعی مولد برای تولید خودکار کپشن برای تصاویر محصول آپلود شده توسط فروشندگان استفاده می‌کند و روند فهرست‌بندی را ساده می‌کند. با این حال، آنها با مسائل کیفی در سیستم‌های هوش مصنوعی چندوجهی خود مواجه شدند، زیرا کپشن‌های تولید شده اغلب حاوی خطاها و خروجی‌های غیرمنتظره بودند. برای رفع این مشکل، Etsy، Judge-Image، یک جزء از MLLM-as-a-Judge را برای ارزیابی و بهینه‌سازی سیستم کپشن‌نویسی تصویر خود ادغام کرد. این ادغام به Etsy اجازه داد تا توهمات کپشن را کاهش دهد، در نتیجه دقت توضیحات محصول را بهبود بخشد و تجربه کلی کاربر را افزایش دهد.

در نتیجه، از آنجایی که سازمان‌ها به پذیرش و مقیاس‌بندی سیستم‌های هوش مصنوعی چندوجهی ادامه می‌دهند، پرداختن به غیرقابل پیش‌بینی بودن این سیستم‌ها ضروری می‌شود. MLLM-as-a-Judge شرکت Patronus AI یک راه حل خودکار برای ارزیابی و بهینه‌سازی برنامه‌های هوش مصنوعی تصویر به متن ارائه می‌دهد و مسائلی مانند توهم کپشن را کاهش می‌دهد. MLLM-as-a-Judge با ارائه ارزیاب‌های داخلی و استفاده از مدل‌های پیشرفته‌ای مانند Google Gemini، توسعه‌دهندگان و سازمان‌ها را قادر می‌سازد تا قابلیت اطمینان و دقت سیستم‌های هوش مصنوعی چندوجهی خود را افزایش دهند و در نهایت اعتماد و تعامل بیشتر کاربر را تقویت کنند.


برای اطلاعات بیشتر، جزئیات فنی را بررسی کنید. اعتبار این تحقیق متعلق به محققان این پروژه است. همچنین، ما را در توییتر دنبال کنید و فراموش نکنید به ساب‌ردیت ۸۰k+ ML ما بپیوندید.