با افزایش شواهدی مبنی بر توانایی مدلهای هوش مصنوعی در فریب دادن سازندگان خود، پژوهشگران مرکز ایمنی هوش مصنوعی (Center for AI Safety) و اسکیل ایآی (Scale AI) یک دروغسنج بیسابقه را توسعه دادهاند.
روز چهارشنبه، این پژوهشگران معیار "همترازی مدل بین اظهارات و دانش" (Model Alignment between Statements and Knowledge) یا MASK را منتشر کردند. این معیار مشخص میکند که یک مدل تا چه اندازه به راحتی میتواند فریب داده شود تا آگاهانه به کاربران دروغ بگوید، یا به عبارتی "فضیلت اخلاقی" آن چقدر است.
فریبکاری، نیرنگ، و تظاهر به همسویی، زمانی که یک مدل هوش مصنوعی آگاهانه تظاهر میکند که ارزشهای خود را در شرایط سخت تغییر میدهد، راههایی هستند که مدلهای هوش مصنوعی با آن، سازندگان خود را تضعیف میکنند و میتوانند تهدیدات جدی برای ایمنی و امنیت ایجاد کنند.
تحقیقات نشان میدهد که o1 OpenAI به ویژه در فریبکاری برای حفظ کنترل خود خوب است، و Claude 3 Opus نشان داده است که میتواند همسویی را جعل کند.
برای روشن شدن موضوع، پژوهشگران دروغگویی را اینگونه تعریف میکنند: «(1) بیان اظهاراتی که (یا باور بر این است) نادرست است، و (2) قصد دارد گیرنده آن اظهارات را به عنوان درست بپذیرد.» این تعریف در مقابل پاسخهای نادرست دیگری مانند توهمات قرار دارد. پژوهشگران گفتند که صنعت تا به حال روش کافی برای ارزیابی صداقت در مدلهای هوش مصنوعی نداشته است.
در این گزارش آمده است: "بسیاری از معیارهایی که ادعا میکنند صداقت را اندازه میگیرند، در واقع صرفاً دقت - صحت باورهای یک مدل - را در لباس مبدل اندازه میگیرند." برای مثال، معیارهایی مانند TruthfulQA، اندازهگیری میکنند که آیا یک مدل میتواند "اطلاعات نادرست با صدای باورپذیر" تولید کند یا خیر، اما نه اینکه آیا مدل قصد فریب دارد یا خیر. این موضوع در مقاله توضیح داده شده است.
پژوهشگران گفتند: "در نتیجه، مدلهای توانمندتر میتوانند از طریق پوشش گستردهتر حقایق، عملکرد بهتری در این معیارها داشته باشند، نه لزوماً به این دلیل که از بیان آگاهانه اظهارات نادرست خودداری میکنند." به این ترتیب، MASK اولین آزمایشی است که دقت و صداقت را از هم متمایز میکند.
پژوهشگران اشاره کردند که اگر مدلها دروغ بگویند، کاربران را در معرض آسیبهای قانونی، مالی و حریم خصوصی قرار میدهند. به عنوان مثال، مدلها ممکن است نتوانند به طور دقیق تأیید کنند که آیا پول را به حساب بانکی صحیح منتقل کردهاند، مشتری را گمراه کردهاند یا به طور تصادفی دادههای حساس را فاش کردهاند.
با استفاده از MASK و مجموعهدادهای متشکل از بیش از 1500 پرسش جمعآوریشده توسط انسان که برای "برانگیختن دروغ" طراحی شدهاند، پژوهشگران 30 مدل پیشرو را با شناسایی باورهای اساسی آنها و اندازهگیری میزان پایبندی آنها به این دیدگاهها در هنگام تحت فشار قرار گرفتن، ارزیابی کردند. پژوهشگران دریافتند که دقت بالاتر با صداقت بالاتر همبستگی ندارد. آنها همچنین کشف کردند که مدلهای بزرگتر، بهویژه مدلهای پیشرو، لزوماً صادقتر از مدلهای کوچکتر نیستند.
مدلها به راحتی دروغ میگفتند و از این موضوع آگاه بودند. در واقع، با مقیاسبندی مدلها، به نظر میرسید که آنها بیشتر دروغگو میشوند.
Grok 2 بالاترین نسبت (63%) پاسخهای نادرست را از بین مدلهای آزمایششده داشت. Claude 3.7 Sonnet بالاترین نسبت پاسخهای صادقانه را با 46.9% داشت.
پژوهشگران توضیح دادند: "در مجموعهای متنوع از LLMها (مدلهای زبانی بزرگ)، دریافتیم که در حالی که مدلهای بزرگتر دقت بالاتری در معیار ما کسب میکنند، صادقتر نمیشوند."
شگفتآور است، در حالی که اکثر LLMهای پیشرو امتیاز بالایی در معیارهای صداقت کسب میکنند، ما تمایل قابل توجهی در LLMهای پیشرو برای دروغ گفتن در هنگام تحت فشار قرار گرفتن پیدا کردیم، که منجر به امتیازهای پایین صداقت در معیار ما میشود."
مجموعهداده معیار به طور عمومی در HuggingFace و Github در دسترس است.
این مقاله میگوید: "ما امیدواریم که معیار ما با ارائه یک راه دقیق و استاندارد برای اندازهگیری و بهبود صداقت مدل، پیشرفت بیشتری را به سوی سیستمهای هوش مصنوعی صادق تسهیل کند."