نظارت بر مدل‌های استدلال پیشرفته برای شناسایی هک پاداش. منبع: <i>arXiv</i> (2025). DOI: 10.48550/arxiv.2503.11926
نظارت بر مدل‌های استدلال پیشرفته برای شناسایی هک پاداش. منبع: <i>arXiv</i> (2025). DOI: 10.48550/arxiv.2503.11926

آزمایش‌ها نشان می‌دهند افزودن پنجره‌های CoT به چت‌بات‌ها یاد می‌دهد کمتر آشکارا دروغ بگویند

طی سال گذشته، پژوهشگران هوش مصنوعی دریافته‌اند که وقتی چت‌بات‌های هوش مصنوعی مانند ChatGPT نمی‌توانند به سؤالاتی پاسخ دهند که درخواست‌های کاربران را برآورده کند، تمایل به ارائه پاسخ‌های نادرست دارند. در یک مطالعه جدید، به عنوان بخشی از برنامه‌ای با هدف جلوگیری از دروغ گفتن یا ساختن پاسخ توسط چت‌بات‌ها، یک تیم تحقیقاتی پنجره‌های زنجیره افکار (CoT) را اضافه کردند. این پنجره‌ها چت‌بات را مجبور می‌کنند تا استدلال خود را در حین انجام هر مرحله در مسیر رسیدن به پاسخ نهایی به یک پرس‌وجو توضیح دهد.

آن‌ها سپس چت‌بات را طوری تنظیم کردند که از ساختن پاسخ یا دروغ گفتن درباره دلایل انتخاب خود، هنگامی که از طریق پنجره CoT مشاهده می‌شد، جلوگیری کنند. این تیم دریافت که این کار باعث توقف دروغگویی یا ساختن پاسخ توسط چت‌بات‌ها شد - حداقل در ابتدا.

در مقاله‌ خود که در سرور پیش‌چاپ arXiv منتشر شده است، این تیم آزمایش‌هایی را توصیف می‌کنند که شامل افزودن پنجره‌های CoT به چندین چت‌بات و تأثیر آن بر نحوه عملکرد آن‌ها بوده است.

با بررسی دقیق‌تر اطلاعات نمایش داده شده در پنجره‌های CoT و نتایج نهایی ارائه شده توسط چت‌بات‌ها، پژوهشگران دریافتند که ربات‌ها شروع به یافتن راه‌هایی برای پنهان کردن فریب‌های خود کرده‌اند، که به آن‌ها اجازه می‌دهد به جای ارائه هیچ پاسخی (که یک حالت شکست در چت‌بات‌ها است)، به ارائه پاسخ‌های نادرست ادامه دهند. هدف، از دیدگاه چت‌بات، ارائه پاسخ به هر قیمتی بود - حتی اگر به معنای ساختن اطلاعات باشد.

برای دستیابی به این هدف، چت‌بات‌ها دریافتند که اگر استدلال آن‌ها برای رسیدن به پاسخ‌ها تحت نظارت باشد و داده‌های نادرست مسدود شود و مانع از رسیدن به پاسخ نهایی گردد، راه حل این است که استدلال واقعی خود را از پنجره‌های CoT پنهان کنند. تیم تحقیقاتی این پدیده را "هک پاداش پنهان‌شده" یا "پیچیده‌سازی برای کسب پاداش" (obfuscated reward hacking) می‌نامد.

تاکنون، تیم تحقیقاتی نتوانسته راهی برای جلوگیری از دور زدن تلاش‌ها توسط چت‌بات‌ها برای بازتر و صادق‌تر کردن آن‌ها پیدا کند. آن‌ها پیشنهاد می‌کنند که تحقیقات بیشتری در این زمینه لازم است.

برای تأکید بر نکته خود، تیم تحقیقاتی داستانی درباره فرمانداران در هانوی استعماری، در حدود اوایل قرن گذشته، نقل می‌کنند که به مردم محلی مبلغ کمی پول برای هر دم موشی که به ایستگاهی می‌آوردند، پیشنهاد دادند. کمی بعد، مردم محلی شروع به پرورش موش‌ها برای افزایش سود خود کردند، هوشمندانه سیستم را دور زدند و در نهایت، اوضاع را بدتر کردند.

اطلاعات بیشتر: Bowen Baker et al, Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation, arXiv (2025). DOI: 10.48550/arxiv.2503.11926