پاترونوس هوش مصنوعی (Patronus AI) امروز از عرضه ابزاری به نام مدل بزرگ زبانی-بهعنوان-قاضی چندوجهی (MLLM-as-a-Judge) خبر داد که برای ارزیابی سیستمهای هوش مصنوعی طراحی شده است که تصاویر را تفسیر و متن تولید میکنند.
هدف از این فناوری ارزیابی جدید، کمک به توسعهدهندگان برای شناسایی و کاهش توهمات و مسائل مربوط به قابلیت اطمینان در برنامههای هوش مصنوعی چندوجهی است. شرکت تجارت الکترونیک Etsy این فناوری را برای تأیید صحت شرح تصاویر محصول در بازار کالاهای دستساز و قدیمی خود پیادهسازی کرده است.
آناند کاناپان، یکی از بنیانگذاران پاترونوس هوش مصنوعی، در مصاحبه اختصاصی با VentureBeat گفت: "بسیار هیجانزدهایم که اعلام کنیم Etsy یکی از مشتریان ما است." "آنها صدها میلیون کالا در بازار آنلاین خود برای محصولات دستساز و قدیمی دارند که مردم در سراسر جهان ایجاد میکنند. یکی از مواردی که تیم هوش مصنوعی آنها میخواست از آن بهره ببرد، هوش مصنوعی مولد بود تا بتواند بهطور خودکار شرح تصویر تولید کند و اطمینان حاصل کند که با مقیاسبندی در کل پایگاه کاربری جهانی خود، شرحهایی که تولید میشوند در نهایت درست هستند."
چرا جمینی گوگل به جای OpenAI قدرت قاضی هوش مصنوعی جدید را تامین میکند
پاترونوس اولین MLLM-as-a-Judge خود را به نام Judge-Image، بر روی مدل جمینی گوگل پس از تحقیقات گسترده برای مقایسه آن با جایگزینهایی مانند GPT-4V OpenAI ساخت.
کاناپان توضیح داد: "ما تمایل داشتیم ببینیم که یک ترجیح جزئی نسبت به خودمحوری در GPT-4V وجود دارد، در حالی که دیدیم جمینی در این زمینهها کمتر مغرضانه است و رویکرد عادلانهتری برای قضاوت در مورد انواع مختلف جفتهای ورودی-خروجی دارد." "این در توزیع امتیازدهی یکنواخت در بین منابع مختلفی که آنها به آن نگاه کردند، دیده شد."
تحقیقات این شرکت بینش شگفتانگیز دیگری در مورد ارزیابی چندوجهی به دست داد. کاناپان خاطرنشان کرد: برخلاف ارزیابیهای فقط متنی که در آن استدلال چند مرحلهای اغلب عملکرد را بهبود میبخشد، این معمولاً «بهطور واقعی عملکرد قاضی MLLM را برای ارزیابیهای مبتنی بر تصویر افزایش نمیدهد.»
Judge-Image ارزیابهای آماده به استفاده را ارائه میدهد که شرح تصاویر را بر اساس معیارهای متعددی از جمله تشخیص توهم شرح، تشخیص اشیاء اصلی و غیر اصلی، دقت مکان شی و تشخیص و تجزیه و تحلیل متن ارزیابی میکنند.
فراتر از خردهفروشی: چگونه تیمهای بازاریابی و شرکتهای حقوقی میتوانند از ارزیابی تصویر هوش مصنوعی بهرهمند شوند
در حالی که Etsy نماینده یک مشتری شاخص در تجارت الکترونیک است، پاترونوس کاربردهایی را میبیند که بسیار فراتر از خردهفروشی گسترش مییابند.
کاناپان گفت: اینها شامل "تیمهای بازاریابی در سراسر شرکتها میشود که عموماً به دنبال این هستند که بتوانند بهطور مقیاسپذیر شرح و عنوان در برابر بلوکهای جدید در طراحی، بهویژه طراحی بازاریابی، بلکه طراحی محصول ایجاد کنند."
او همچنین کاربردهایی را برای شرکتهایی که با پردازش اسناد سروکار دارند برجسته کرد: "شرکتهای بزرگتر مانند شرکتهای خدمات سرمایهگذاری و شرکتهای حقوقی معمولاً ممکن است تیمهای مهندسی داشته باشند که از فناوری نسبتاً قدیمی برای استخراج انواع مختلف اطلاعات از فایلهای PDF استفاده میکنند، تا بتوانند محتوای داخل اسناد بزرگتر را خلاصه کنند."
چرا شرکتها باید ابزارهای ارزیابی هوش مصنوعی را بخرند به جای اینکه خودشان بسازند
از آنجایی که هوش مصنوعی بهطور فزایندهای برای فرآیندهای تجاری حیاتی میشود، بسیاری از شرکتها با دوراهی ساخت در مقابل خرید برای ابزارهای ارزیابی مواجه هستند. کاناپان استدلال میکند که برونسپاری ارزیابی هوش مصنوعی از نظر استراتژیک و اقتصادی منطقی است.
او گفت: "همانطور که با تیمها کار کردهایم، [متوجه شدهایم که] بسیاری از افراد ممکن است با چیزی شروع کنند تا ببینند آیا میتوانند چیزی را بهطور داخلی توسعه دهند، و سپس متوجه میشوند که، اولاً، هسته اصلی ارزش یا محصولی که در حال توسعه هستند نیست. و دوماً، این یک مشکل بسیار چالشبرانگیز است، هم از منظر هوش مصنوعی، و هم از منظر زیرساخت."
این امر بهویژه در مورد سیستمهای چندوجهی صدق میکند، جایی که ممکن است شکستها در چندین نقطه از فرآیند رخ دهد. کاناپان خاطرنشان کرد: "وقتی با سیستمهای RAG یا عوامل، یا حتی سیستمهای هوش مصنوعی چندوجهی سروکار دارید، میبینیم که شکستها در تمام بخشهای سیستم رخ میدهند."
چگونه پاترونوس قصد دارد در حالی که با غولهای فناوری رقابت میکند، درآمد کسب کند
پاترونوس چندین سطح قیمتگذاری را ارائه میدهد، که با یک گزینه رایگان شروع میشود که به کاربران اجازه میدهد تا با پلتفرم تا محدودیتهای حجم معینی آزمایش کنند. فراتر از این آستانه، مشتریان برای استفاده از ارزیاب هزینه پرداخت میکنند یا میتوانند برای ترتیبات سازمانی با ویژگیهای سفارشی و قیمتگذاری متناسب با تیم فروش درگیر شوند.
علیرغم استفاده از مدل جمینی گوگل به عنوان پایه خود، این شرکت خود را به عنوان مکمل و نه رقیب با ارائه دهندگان مدل پایه مانند گوگل، OpenAI و Anthropic قرار میدهد.
کاناپان گفت: "ما لزوماً فناوریای را که میسازیم یا راه حلهایی را که میسازیم، به عنوان رقیب با شرکتهای بنیادی نمیبینیم، بلکه به عنوان ابزارهای قدرتمند جدید بسیار مکمل و اضافی در جعبه ابزار میبینیم که در نهایت به افراد کمک میکند تا سیستمهای LLM بهتری را توسعه دهند، نه خود LLMها."
ارزیابی صوتی در آینده نزدیک به عنوان گسترش نظارت چندوجهی پاترونوس
اعلامیه امروز نشان دهنده یک گام در استراتژی گستردهتر پاترونوس برای ارزیابی هوش مصنوعی در حالتهای مختلف است. این شرکت قصد دارد به زودی فراتر از تصاویر به ارزیابی صوتی نیز گسترش یابد.
کاناپان تأیید کرد: "ما هیجانزده هستیم زیرا این مرحله بعدی چشمانداز ما نسبت به چندوجهی است، و امروز بهطور خاص بر روی تصاویر متمرکز شدهایم — و سپس با گذشت زمان، ما در مورد کارهایی که انجام خواهیم داد، بهویژه با صدا در آینده هیجانزده هستیم."
این نقشه راه با آنچه کاناپان به عنوان "چشم انداز تحقیقاتی به سمت نظارت مقیاسپذیر" توصیف میکند، همسو است — توسعه مکانیسمهای ارزیابی که میتوانند همگام با سیستمهای هوش مصنوعی بهطور فزایندهای پیچیده باشند.
او گفت: "ما به توسعه سیستمها، محصولات، چارچوبها، روشهای جدید ادامه میدهیم که در نهایت به همان اندازه سیستمهای هوشمندی که قصد داریم در درازمدت بر آنها نظارت داشته باشیم، توانا هستند."
همانطور که کسبوکارها برای استقرار سیستمهای هوش مصنوعی که میتوانند تصاویر را تفسیر کنند، متن را از اسناد استخراج کنند و محتوای بصری تولید کنند، مسابقه میدهند، خطر نادرستیها، توهمات و سوگیریها افزایش مییابد. پاترونوس شرط میبندد که حتی با بهبود مدلهای پایه، چالشهای ارزیابی سیستمهای پیچیده هوش مصنوعی چندوجهی باقی خواهند ماند — و نیاز به ابزارهای تخصصی دارند که میتوانند به عنوان داوران بیطرف خروجیهای هوش مصنوعی بهطور فزایندهای شبیه به انسان عمل کنند. در دنیای پرمخاطره استقرار تجاری هوش مصنوعی، این داوران دیجیتال ممکن است به همان اندازه مدلهایی که ارزیابی میکنند ارزشمند باشند.