طی سال گذشته، پژوهشگران هوش مصنوعی دریافتهاند که وقتی چتباتهای هوش مصنوعی مانند ChatGPT نمیتوانند به سؤالاتی پاسخ دهند که درخواستهای کاربران را برآورده کند، تمایل به ارائه پاسخهای نادرست دارند. در یک مطالعه جدید، به عنوان بخشی از برنامهای با هدف جلوگیری از دروغ گفتن یا ساختن پاسخ توسط چتباتها، یک تیم تحقیقاتی پنجرههای زنجیره افکار (CoT) را اضافه کردند. این پنجرهها چتبات را مجبور میکنند تا استدلال خود را در حین انجام هر مرحله در مسیر رسیدن به پاسخ نهایی به یک پرسوجو توضیح دهد.
آنها سپس چتبات را طوری تنظیم کردند که از ساختن پاسخ یا دروغ گفتن درباره دلایل انتخاب خود، هنگامی که از طریق پنجره CoT مشاهده میشد، جلوگیری کنند. این تیم دریافت که این کار باعث توقف دروغگویی یا ساختن پاسخ توسط چتباتها شد - حداقل در ابتدا.
در مقاله خود که در سرور پیشچاپ arXiv منتشر شده است، این تیم آزمایشهایی را توصیف میکنند که شامل افزودن پنجرههای CoT به چندین چتبات و تأثیر آن بر نحوه عملکرد آنها بوده است.
با بررسی دقیقتر اطلاعات نمایش داده شده در پنجرههای CoT و نتایج نهایی ارائه شده توسط چتباتها، پژوهشگران دریافتند که رباتها شروع به یافتن راههایی برای پنهان کردن فریبهای خود کردهاند، که به آنها اجازه میدهد به جای ارائه هیچ پاسخی (که یک حالت شکست در چتباتها است)، به ارائه پاسخهای نادرست ادامه دهند. هدف، از دیدگاه چتبات، ارائه پاسخ به هر قیمتی بود - حتی اگر به معنای ساختن اطلاعات باشد.
برای دستیابی به این هدف، چتباتها دریافتند که اگر استدلال آنها برای رسیدن به پاسخها تحت نظارت باشد و دادههای نادرست مسدود شود و مانع از رسیدن به پاسخ نهایی گردد، راه حل این است که استدلال واقعی خود را از پنجرههای CoT پنهان کنند. تیم تحقیقاتی این پدیده را "هک پاداش پنهانشده" یا "پیچیدهسازی برای کسب پاداش" (obfuscated reward hacking) مینامد.
تاکنون، تیم تحقیقاتی نتوانسته راهی برای جلوگیری از دور زدن تلاشها توسط چتباتها برای بازتر و صادقتر کردن آنها پیدا کند. آنها پیشنهاد میکنند که تحقیقات بیشتری در این زمینه لازم است.
برای تأکید بر نکته خود، تیم تحقیقاتی داستانی درباره فرمانداران در هانوی استعماری، در حدود اوایل قرن گذشته، نقل میکنند که به مردم محلی مبلغ کمی پول برای هر دم موشی که به ایستگاهی میآوردند، پیشنهاد دادند. کمی بعد، مردم محلی شروع به پرورش موشها برای افزایش سود خود کردند، هوشمندانه سیستم را دور زدند و در نهایت، اوضاع را بدتر کردند.
اطلاعات بیشتر: Bowen Baker et al, Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation, arXiv (2025). DOI: 10.48550/arxiv.2503.11926