منبع: VentureBeat، ساخته شده با Midjourney
منبع: VentureBeat، ساخته شده با Midjourney

Judge-Image پاترونوس هوش مصنوعی می‌خواهد هوش مصنوعی را صادق نگه دارد — و Etsy از آن استفاده می‌کند

پاترونوس هوش مصنوعی (Patronus AI) امروز از عرضه ابزاری به نام مدل بزرگ زبانی-به‌عنوان-قاضی چندوجهی (MLLM-as-a-Judge) خبر داد که برای ارزیابی سیستم‌های هوش مصنوعی طراحی شده است که تصاویر را تفسیر و متن تولید می‌کنند.

هدف از این فناوری ارزیابی جدید، کمک به توسعه‌دهندگان برای شناسایی و کاهش توهمات و مسائل مربوط به قابلیت اطمینان در برنامه‌های هوش مصنوعی چندوجهی است. شرکت تجارت الکترونیک Etsy این فناوری را برای تأیید صحت شرح تصاویر محصول در بازار کالاهای دست‌ساز و قدیمی خود پیاده‌سازی کرده است.

آناند کاناپان، یکی از بنیانگذاران پاترونوس هوش مصنوعی، در مصاحبه اختصاصی با VentureBeat گفت: "بسیار هیجان‌زده‌ایم که اعلام کنیم Etsy یکی از مشتریان ما است." "آنها صدها میلیون کالا در بازار آنلاین خود برای محصولات دست‌ساز و قدیمی دارند که مردم در سراسر جهان ایجاد می‌کنند. یکی از مواردی که تیم هوش مصنوعی آنها می‌خواست از آن بهره ببرد، هوش مصنوعی مولد بود تا بتواند به‌طور خودکار شرح تصویر تولید کند و اطمینان حاصل کند که با مقیاس‌بندی در کل پایگاه کاربری جهانی خود، شرح‌هایی که تولید می‌شوند در نهایت درست هستند."

چرا جمینی گوگل به جای OpenAI قدرت قاضی هوش مصنوعی جدید را تامین می‌کند

پاترونوس اولین MLLM-as-a-Judge خود را به نام Judge-Image، بر روی مدل جمینی گوگل پس از تحقیقات گسترده برای مقایسه آن با جایگزین‌هایی مانند GPT-4V OpenAI ساخت.

کاناپان توضیح داد: "ما تمایل داشتیم ببینیم که یک ترجیح جزئی نسبت به خودمحوری در GPT-4V وجود دارد، در حالی که دیدیم جمینی در این زمینه‌ها کمتر مغرضانه است و رویکرد عادلانه‌تری برای قضاوت در مورد انواع مختلف جفت‌های ورودی-خروجی دارد." "این در توزیع امتیازدهی یکنواخت در بین منابع مختلفی که آنها به آن نگاه کردند، دیده شد."

تحقیقات این شرکت بینش شگفت‌انگیز دیگری در مورد ارزیابی چندوجهی به دست داد. کاناپان خاطرنشان کرد: برخلاف ارزیابی‌های فقط متنی که در آن استدلال چند مرحله‌ای اغلب عملکرد را بهبود می‌بخشد، این معمولاً «به‌طور واقعی عملکرد قاضی MLLM را برای ارزیابی‌های مبتنی بر تصویر افزایش نمی‌دهد.»

Judge-Image ارزیاب‌های آماده به استفاده را ارائه می‌دهد که شرح تصاویر را بر اساس معیارهای متعددی از جمله تشخیص توهم شرح، تشخیص اشیاء اصلی و غیر اصلی، دقت مکان شی و تشخیص و تجزیه و تحلیل متن ارزیابی می‌کنند.

فراتر از خرده‌فروشی: چگونه تیم‌های بازاریابی و شرکت‌های حقوقی می‌توانند از ارزیابی تصویر هوش مصنوعی بهره‌مند شوند

در حالی که Etsy نماینده یک مشتری شاخص در تجارت الکترونیک است، پاترونوس کاربردهایی را می‌بیند که بسیار فراتر از خرده‌فروشی گسترش می‌یابند.

کاناپان گفت: اینها شامل "تیم‌های بازاریابی در سراسر شرکت‌ها می‌شود که عموماً به دنبال این هستند که بتوانند به‌طور مقیاس‌پذیر شرح و عنوان در برابر بلوک‌های جدید در طراحی، به‌ویژه طراحی بازاریابی، بلکه طراحی محصول ایجاد کنند."

او همچنین کاربردهایی را برای شرکت‌هایی که با پردازش اسناد سروکار دارند برجسته کرد: "شرکت‌های بزرگ‌تر مانند شرکت‌های خدمات سرمایه‌گذاری و شرکت‌های حقوقی معمولاً ممکن است تیم‌های مهندسی داشته باشند که از فناوری نسبتاً قدیمی برای استخراج انواع مختلف اطلاعات از فایل‌های PDF استفاده می‌کنند، تا بتوانند محتوای داخل اسناد بزرگ‌تر را خلاصه کنند."

چرا شرکت‌ها باید ابزارهای ارزیابی هوش مصنوعی را بخرند به جای اینکه خودشان بسازند

از آنجایی که هوش مصنوعی به‌طور فزاینده‌ای برای فرآیندهای تجاری حیاتی می‌شود، بسیاری از شرکت‌ها با دوراهی ساخت در مقابل خرید برای ابزارهای ارزیابی مواجه هستند. کاناپان استدلال می‌کند که برون‌سپاری ارزیابی هوش مصنوعی از نظر استراتژیک و اقتصادی منطقی است.

او گفت: "همانطور که با تیم‌ها کار کرده‌ایم، [متوجه شده‌ایم که] بسیاری از افراد ممکن است با چیزی شروع کنند تا ببینند آیا می‌توانند چیزی را به‌طور داخلی توسعه دهند، و سپس متوجه می‌شوند که، اولاً، هسته اصلی ارزش یا محصولی که در حال توسعه هستند نیست. و دوماً، این یک مشکل بسیار چالش‌برانگیز است، هم از منظر هوش مصنوعی، و هم از منظر زیرساخت."

این امر به‌ویژه در مورد سیستم‌های چندوجهی صدق می‌کند، جایی که ممکن است شکست‌ها در چندین نقطه از فرآیند رخ دهد. کاناپان خاطرنشان کرد: "وقتی با سیستم‌های RAG یا عوامل، یا حتی سیستم‌های هوش مصنوعی چندوجهی سروکار دارید، می‌بینیم که شکست‌ها در تمام بخش‌های سیستم رخ می‌دهند."

چگونه پاترونوس قصد دارد در حالی که با غول‌های فناوری رقابت می‌کند، درآمد کسب کند

پاترونوس چندین سطح قیمت‌گذاری را ارائه می‌دهد، که با یک گزینه رایگان شروع می‌شود که به کاربران اجازه می‌دهد تا با پلتفرم تا محدودیت‌های حجم معینی آزمایش کنند. فراتر از این آستانه، مشتریان برای استفاده از ارزیاب هزینه پرداخت می‌کنند یا می‌توانند برای ترتیبات سازمانی با ویژگی‌های سفارشی و قیمت‌گذاری متناسب با تیم فروش درگیر شوند.

علیرغم استفاده از مدل جمینی گوگل به عنوان پایه خود، این شرکت خود را به عنوان مکمل و نه رقیب با ارائه دهندگان مدل پایه مانند گوگل، OpenAI و Anthropic قرار می‌دهد.

کاناپان گفت: "ما لزوماً فناوری‌ای را که می‌سازیم یا راه حل‌هایی را که می‌سازیم، به عنوان رقیب با شرکت‌های بنیادی نمی‌بینیم، بلکه به عنوان ابزارهای قدرتمند جدید بسیار مکمل و اضافی در جعبه ابزار می‌بینیم که در نهایت به افراد کمک می‌کند تا سیستم‌های LLM بهتری را توسعه دهند، نه خود LLMها."

ارزیابی صوتی در آینده نزدیک به عنوان گسترش نظارت چندوجهی پاترونوس

اعلامیه امروز نشان دهنده یک گام در استراتژی گسترده‌تر پاترونوس برای ارزیابی هوش مصنوعی در حالت‌های مختلف است. این شرکت قصد دارد به زودی فراتر از تصاویر به ارزیابی صوتی نیز گسترش یابد.

کاناپان تأیید کرد: "ما هیجان‌زده هستیم زیرا این مرحله بعدی چشم‌انداز ما نسبت به چندوجهی است، و امروز به‌طور خاص بر روی تصاویر متمرکز شده‌ایم — و سپس با گذشت زمان، ما در مورد کارهایی که انجام خواهیم داد، به‌ویژه با صدا در آینده هیجان‌زده هستیم."

این نقشه راه با آنچه کاناپان به عنوان "چشم انداز تحقیقاتی به سمت نظارت مقیاس‌پذیر" توصیف می‌کند، همسو است — توسعه مکانیسم‌های ارزیابی که می‌توانند همگام با سیستم‌های هوش مصنوعی به‌طور فزاینده‌ای پیچیده باشند.

او گفت: "ما به توسعه سیستم‌ها، محصولات، چارچوب‌ها، روش‌های جدید ادامه می‌دهیم که در نهایت به همان اندازه سیستم‌های هوشمندی که قصد داریم در درازمدت بر آنها نظارت داشته باشیم، توانا هستند."

همانطور که کسب‌وکارها برای استقرار سیستم‌های هوش مصنوعی که می‌توانند تصاویر را تفسیر کنند، متن را از اسناد استخراج کنند و محتوای بصری تولید کنند، مسابقه می‌دهند، خطر نادرستی‌ها، توهمات و سوگیری‌ها افزایش می‌یابد. پاترونوس شرط می‌بندد که حتی با بهبود مدل‌های پایه، چالش‌های ارزیابی سیستم‌های پیچیده هوش مصنوعی چندوجهی باقی خواهند ماند — و نیاز به ابزارهای تخصصی دارند که می‌توانند به عنوان داوران بی‌طرف خروجی‌های هوش مصنوعی به‌طور فزاینده‌ای شبیه به انسان عمل کنند. در دنیای پرمخاطره استقرار تجاری هوش مصنوعی، این داوران دیجیتال ممکن است به همان اندازه مدل‌هایی که ارزیابی می‌کنند ارزشمند باشند.