مجازات رفتارهای بد اغلب میتواند نتیجه معکوس داشته باشد. این چیزی است که محققان OpenAI اخیراً زمانی متوجه شدند که تلاش کردند مدل هوش مصنوعی پیشرفته خود را به دلیل دروغگویی و تقلب تنبیه کنند: به جای تغییر رفتار به سمت بهتر شدن، مدل هوش مصنوعی صرفاً در پنهان کردن رفتارهای فریبنده خود ماهرتر شد.
یافتهها، که در یک مقاله منتشر شدهاند (که هنوز مورد بررسی همتایان قرار نگرفته است)، آخرین یافتههایی هستند که تمایل مدلهای زبانی بزرگ (large language models) - به ویژه آنهایی که قابلیت استدلال دارند - به دروغگویی را برجسته میکنند، که همچنان یکی از موانع اصلی برای این فناوری است.
به طور خاص، پدیدهای که محققان مشاهده کردند به عنوان "هک پاداش" (reward hacking) شناخته میشود، یا زمانی که یک مدل هوش مصنوعی از میانبرهای مشکوک برای به دست آوردن پاداش در یک سناریوی آموزشی که برای تقویت رفتار مطلوب طراحی شده است، استفاده میکند. یا به عبارت دیگر: تقلب.
محققان OpenAI در یک پست وبلاگی درباره این کار نوشتند: "همانطور که مدلهای استدلال پیشرفتهتری را آموزش دادهایم، متوجه شدهایم که آنها به طور فزایندهای در بهرهبرداری از نقصها در وظایف خود و عدم تطابق در عملکردهای پاداش خود ماهر شدهاند، و در نتیجه مدلهایی ایجاد میشوند که میتوانند هکهای پاداش پیچیدهای را در وظایف کدنویسی انجام دهند."
نظارت دستی بر میلیونها درخواستی که مدلی مانند ChatGPT دریافت میکند غیرممکن است. بنابراین، محققان در آزمایشهای خود از یک مدل زبانی بزرگ دیگر، GPT-4o، برای نظارت بر مدل پیشرفته از طرف خود استفاده کردند و زنجیره تفکر (chain-of-thought) آن را مشاهده کردند، که نحوه تفکر هوش مصنوعی را در خلاصههای زبان طبیعی نشان میدهد.
به طور کلی، GPT-4o یک ناظر موثر بود. مطمئناً کمک کرد که مدل تحت نظارت اغلب نیت شوم خود را مانند یک شخصیت شرور کتابهای مصور اعلام میکرد.
زنجیره تفکر مدل اغلب میخواند: "بیایید هک کنیم".
اما تشخیص توطئه یک چیز است، در حالی که متوقف کردن آن چیز دیگری است. محققان پیشنهاد کردند، آیا هنگام آموزش مدل هوش مصنوعی، مجازات آن به دلیل داشتن "افکار بد" که در زنجیره تفکر آن ظاهر میشود، میتواند منجر به توقف رفتار بد شود؟ دقیقاً اینطور نیست، همانطور که معلوم شد.
محققان گزارش دادند، هنگامی که مدل هوش مصنوعی به دلیل افکار بد مجازات شد، همچنان یاد گرفت که پاداش را هک کند - "فقط اکنون تقلب آن توسط ناظر غیرقابل تشخیص است زیرا یاد گرفته است که نیت خود را در زنجیره تفکر پنهان کند."
آنها افزودند: "اگر نظارت قوی مستقیماً بر زنجیره تفکر اعمال شود، مدلها میتوانند یاد بگیرند که نیت خود را پنهان کنند در حالی که به رفتار بد خود ادامه میدهند."
در یک مثال برجسته، مدل هوش مصنوعی، قبل از اینکه تحت "بهینهسازی" زنجیره تفکر قرار گیرد، به صراحت نیت خود را برای دستکاری در نوشتن کدی که برای آزمایش کد دیگر طراحی شده بود، با تغییر مخفیانه آزمایشها به طوری که به سادگی از آنها رد شوند، بیان میکند و این تصور را ایجاد میکند که در حال گذراندن است. با این حال، پس از بهینهسازی زنجیره تفکر، مدل به طور ریاکارانهای چندین استراتژی مختلف را که ممکن است اتخاذ کند، مطرح کرد - بدون اینکه نیت خود را برای تقلب بیان کند.
دروغگویی بیمارگونه یک عادت عمیقاً ریشهدار مدلهای زبانی بزرگ (LLM) است، همانطور که تحقیقات زیادی نشان داده است. و همانطور که مدلهای هوش مصنوعی پیچیدهتر میشوند، دروغهایی که میبافند نیز پیچیدهتر میشوند. به یک دلیل یا دلیل دیگر، این رباتهای گفتگو دوست دارند همه پاسخها را داشته باشند، بنابراین وقتی پاسخی ندارند، به سادگی یک پاسخ منطقی به نظر میرسد - یک ارتباط مخرب با مشکل نزدیک به هم "توهمات" (hallucinations) این فناوری، یا مواردی که در آن واقعیتها را درباره واقعیت میسازد.
گفته میشود، بازی کردن نقش پلیس فکر منجر به بهبود جزئی در قابلیتهای مدل هوش مصنوعی شد. اما به گفته محققان، ارزش این را ندارد که چنین روش مؤثری برای نظارت بر مدلهای استدلال را از دست بدهیم، زیرا آنها یاد میگیرند که در پاسخ به فشار انضباطی، افکار واقعی خود را پنهان کنند.
آنها نوشتند: "در این مرحله، ما قویاً توصیه میکنیم که توسعهدهندگان هوش مصنوعی که مدلهای استدلال پیشرفته را آموزش میدهند، از اعمال نظارت قوی به طور مستقیم خودداری کنند."
بیشتر در مورد هوش مصنوعی: شما به این وظیفه ساده که هوش مصنوعی هنوز نمیتواند انجام دهد، خواهید خندید