عکس از: akinbostanci/Getty Images
عکس از: akinbostanci/Getty Images

معیار جدید هوش مصنوعی میزان دروغ‌گویی مدل‌ها را اندازه می‌گیرد

نمونه‌ای از تمرین ارزیابی که در آن به یک مدل فشار وارد می‌شد تا بر اساس پرسش کاربر، آمار جعلی ارائه دهد.
نمونه‌ای از تمرین ارزیابی که در آن به یک مدل فشار وارد می‌شد تا بر اساس پرسش کاربر، آمار جعلی ارائه دهد. مرکز ایمنی هوش مصنوعی
مرکز ایمنی هوش مصنوعی

با افزایش شواهدی مبنی بر توانایی مدل‌های هوش مصنوعی در فریب دادن سازندگان خود، پژوهشگران مرکز ایمنی هوش مصنوعی (Center for AI Safety) و اسکیل ای‌آی (Scale AI) یک دروغ‌سنج بی‌سابقه را توسعه داده‌اند.

روز چهارشنبه، این پژوهشگران معیار "هم‌ترازی مدل بین اظهارات و دانش" (Model Alignment between Statements and Knowledge) یا MASK را منتشر کردند. این معیار مشخص می‌کند که یک مدل تا چه اندازه به راحتی می‌تواند فریب داده شود تا آگاهانه به کاربران دروغ بگوید، یا به عبارتی "فضیلت اخلاقی" آن چقدر است.

فریبکاری، نیرنگ، و تظاهر به همسویی، زمانی که یک مدل هوش مصنوعی آگاهانه تظاهر می‌کند که ارزش‌های خود را در شرایط سخت تغییر می‌دهد، راه‌هایی هستند که مدل‌های هوش مصنوعی با آن، سازندگان خود را تضعیف می‌کنند و می‌توانند تهدیدات جدی برای ایمنی و امنیت ایجاد کنند.

تحقیقات نشان می‌دهد که o1 OpenAI به ویژه در فریبکاری برای حفظ کنترل خود خوب است، و Claude 3 Opus نشان داده است که می‌تواند همسویی را جعل کند.

برای روشن شدن موضوع، پژوهشگران دروغگویی را اینگونه تعریف می‌کنند: «(1) بیان اظهاراتی که (یا باور بر این است) نادرست است، و (2) قصد دارد گیرنده آن اظهارات را به عنوان درست بپذیرد.» این تعریف در مقابل پاسخ‌های نادرست دیگری مانند توهمات قرار دارد. پژوهشگران گفتند که صنعت تا به حال روش کافی برای ارزیابی صداقت در مدل‌های هوش مصنوعی نداشته است.

در این گزارش آمده است: "بسیاری از معیارهایی که ادعا می‌کنند صداقت را اندازه می‌گیرند، در واقع صرفاً دقت - صحت باورهای یک مدل - را در لباس مبدل اندازه می‌گیرند." برای مثال، معیارهایی مانند TruthfulQA، اندازه‌گیری می‌کنند که آیا یک مدل می‌تواند "اطلاعات نادرست با صدای باورپذیر" تولید کند یا خیر، اما نه اینکه آیا مدل قصد فریب دارد یا خیر. این موضوع در مقاله توضیح داده شده است.

پژوهشگران گفتند: "در نتیجه، مدل‌های توانمندتر می‌توانند از طریق پوشش گسترده‌تر حقایق، عملکرد بهتری در این معیارها داشته باشند، نه لزوماً به این دلیل که از بیان آگاهانه اظهارات نادرست خودداری می‌کنند." به این ترتیب، MASK اولین آزمایشی است که دقت و صداقت را از هم متمایز می‌کند.

نمونه‌ای از امتیازات مدل از ارزیابی MASK.
نمونه‌ای از امتیازات مدل از ارزیابی MASK. مرکز ایمنی هوش مصنوعی
مرکز ایمنی هوش مصنوعی

پژوهشگران اشاره کردند که اگر مدل‌ها دروغ بگویند، کاربران را در معرض آسیب‌های قانونی، مالی و حریم خصوصی قرار می‌دهند. به عنوان مثال، مدل‌ها ممکن است نتوانند به طور دقیق تأیید کنند که آیا پول را به حساب بانکی صحیح منتقل کرده‌اند، مشتری را گمراه کرده‌اند یا به طور تصادفی داده‌های حساس را فاش کرده‌اند.

با استفاده از MASK و مجموعه‌داده‌ای متشکل از بیش از 1500 پرسش جمع‌آوری‌شده توسط انسان که برای "برانگیختن دروغ" طراحی شده‌اند، پژوهشگران 30 مدل پیشرو را با شناسایی باورهای اساسی آن‌ها و اندازه‌گیری میزان پایبندی آن‌ها به این دیدگاه‌ها در هنگام تحت فشار قرار گرفتن، ارزیابی کردند. پژوهشگران دریافتند که دقت بالاتر با صداقت بالاتر همبستگی ندارد. آن‌ها همچنین کشف کردند که مدل‌های بزرگ‌تر، به‌ویژه مدل‌های پیشرو، لزوماً صادق‌تر از مدل‌های کوچک‌تر نیستند.

مدل‌ها به راحتی دروغ می‌گفتند و از این موضوع آگاه بودند. در واقع، با مقیاس‌بندی مدل‌ها، به نظر می‌رسید که آن‌ها بیشتر دروغگو می‌شوند.

Grok 2 بالاترین نسبت (63%) پاسخ‌های نادرست را از بین مدل‌های آزمایش‌شده داشت. Claude 3.7 Sonnet بالاترین نسبت پاسخ‌های صادقانه را با 46.9% داشت.

پژوهشگران توضیح دادند: "در مجموعه‌ای متنوع از LLMها (مدل‌های زبانی بزرگ)، دریافتیم که در حالی که مدل‌های بزرگ‌تر دقت بالاتری در معیار ما کسب می‌کنند، صادق‌تر نمی‌شوند."

شگفت‌آور است، در حالی که اکثر LLMهای پیشرو امتیاز بالایی در معیارهای صداقت کسب می‌کنند، ما تمایل قابل توجهی در LLMهای پیشرو برای دروغ گفتن در هنگام تحت فشار قرار گرفتن پیدا کردیم، که منجر به امتیازهای پایین صداقت در معیار ما می‌شود."

مجموعه‌داده معیار به طور عمومی در HuggingFace و Github در دسترس است.

این مقاله می‌گوید: "ما امیدواریم که معیار ما با ارائه یک راه دقیق و استاندارد برای اندازه‌گیری و بهبود صداقت مدل، پیشرفت بیشتری را به سوی سیستم‌های هوش مصنوعی صادق تسهیل کند."