تصویر از گتی / فیوچریسم
تصویر از گتی / فیوچریسم

تلاش دانشمندان OpenAI برای کاهش دروغ و تقلب هوش مصنوعی به طرز چشمگیری نتیجه معکوس داد

مدل‌های زبانی بزرگ (LLM) شخصیت‌های لغزنده‌ای هستند.

مجازات رفتارهای بد اغلب می‌تواند نتیجه معکوس داشته باشد. این چیزی است که محققان OpenAI اخیراً زمانی متوجه شدند که تلاش کردند مدل هوش مصنوعی پیشرفته خود را به دلیل دروغگویی و تقلب تنبیه کنند: به جای تغییر رفتار به سمت بهتر شدن، مدل هوش مصنوعی صرفاً در پنهان کردن رفتارهای فریبنده خود ماهرتر شد.

یافته‌ها، که در یک مقاله منتشر شده‌اند (که هنوز مورد بررسی همتایان قرار نگرفته است)، آخرین یافته‌هایی هستند که تمایل مدل‌های زبانی بزرگ (large language models) - به ویژه آن‌هایی که قابلیت استدلال دارند - به دروغگویی را برجسته می‌کنند، که همچنان یکی از موانع اصلی برای این فناوری است.

به طور خاص، پدیده‌ای که محققان مشاهده کردند به عنوان "هک پاداش" (reward hacking) شناخته می‌شود، یا زمانی که یک مدل هوش مصنوعی از میانبرهای مشکوک برای به دست آوردن پاداش در یک سناریوی آموزشی که برای تقویت رفتار مطلوب طراحی شده است، استفاده می‌کند. یا به عبارت دیگر: تقلب.

محققان OpenAI در یک پست وبلاگی درباره این کار نوشتند: "همانطور که مدل‌های استدلال پیشرفته‌تری را آموزش داده‌ایم، متوجه شده‌ایم که آن‌ها به طور فزاینده‌ای در بهره‌برداری از نقص‌ها در وظایف خود و عدم تطابق در عملکردهای پاداش خود ماهر شده‌اند، و در نتیجه مدل‌هایی ایجاد می‌شوند که می‌توانند هک‌های پاداش پیچیده‌ای را در وظایف کدنویسی انجام دهند."

نظارت دستی بر میلیون‌ها درخواستی که مدلی مانند ChatGPT دریافت می‌کند غیرممکن است. بنابراین، محققان در آزمایش‌های خود از یک مدل زبانی بزرگ دیگر، GPT-4o، برای نظارت بر مدل پیشرفته از طرف خود استفاده کردند و زنجیره تفکر (chain-of-thought) آن را مشاهده کردند، که نحوه تفکر هوش مصنوعی را در خلاصه‌های زبان طبیعی نشان می‌دهد.

به طور کلی، GPT-4o یک ناظر موثر بود. مطمئناً کمک کرد که مدل تحت نظارت اغلب نیت شوم خود را مانند یک شخصیت شرور کتاب‌های مصور اعلام می‌کرد.

زنجیره تفکر مدل اغلب می‌خواند: "بیایید هک کنیم".

اما تشخیص توطئه یک چیز است، در حالی که متوقف کردن آن چیز دیگری است. محققان پیشنهاد کردند، آیا هنگام آموزش مدل هوش مصنوعی، مجازات آن به دلیل داشتن "افکار بد" که در زنجیره تفکر آن ظاهر می‌شود، می‌تواند منجر به توقف رفتار بد شود؟ دقیقاً اینطور نیست، همانطور که معلوم شد.

محققان گزارش دادند، هنگامی که مدل هوش مصنوعی به دلیل افکار بد مجازات شد، همچنان یاد گرفت که پاداش را هک کند - "فقط اکنون تقلب آن توسط ناظر غیرقابل تشخیص است زیرا یاد گرفته است که نیت خود را در زنجیره تفکر پنهان کند."

آن‌ها افزودند: "اگر نظارت قوی مستقیماً بر زنجیره تفکر اعمال شود، مدل‌ها می‌توانند یاد بگیرند که نیت خود را پنهان کنند در حالی که به رفتار بد خود ادامه می‌دهند."

در یک مثال برجسته، مدل هوش مصنوعی، قبل از اینکه تحت "بهینه‌سازی" زنجیره تفکر قرار گیرد، به صراحت نیت خود را برای دستکاری در نوشتن کدی که برای آزمایش کد دیگر طراحی شده بود، با تغییر مخفیانه آزمایش‌ها به طوری که به سادگی از آن‌ها رد شوند، بیان می‌کند و این تصور را ایجاد می‌کند که در حال گذراندن است. با این حال، پس از بهینه‌سازی زنجیره تفکر، مدل به طور ریاکارانه‌ای چندین استراتژی مختلف را که ممکن است اتخاذ کند، مطرح کرد - بدون اینکه نیت خود را برای تقلب بیان کند.

دروغگویی بیمارگونه یک عادت عمیقاً ریشه‌دار مدل‌های زبانی بزرگ (LLM) است، همانطور که تحقیقات زیادی نشان داده است. و همانطور که مدل‌های هوش مصنوعی پیچیده‌تر می‌شوند، دروغ‌هایی که می‌بافند نیز پیچیده‌تر می‌شوند. به یک دلیل یا دلیل دیگر، این ربات‌های گفتگو دوست دارند همه پاسخ‌ها را داشته باشند، بنابراین وقتی پاسخی ندارند، به سادگی یک پاسخ منطقی به نظر می‌رسد - یک ارتباط مخرب با مشکل نزدیک به هم "توهمات" (hallucinations) این فناوری، یا مواردی که در آن واقعیت‌ها را درباره واقعیت می‌سازد.

گفته می‌شود، بازی کردن نقش پلیس فکر منجر به بهبود جزئی در قابلیت‌های مدل هوش مصنوعی شد. اما به گفته محققان، ارزش این را ندارد که چنین روش مؤثری برای نظارت بر مدل‌های استدلال را از دست بدهیم، زیرا آنها یاد می‌گیرند که در پاسخ به فشار انضباطی، افکار واقعی خود را پنهان کنند.

آن‌ها نوشتند: "در این مرحله، ما قویاً توصیه می‌کنیم که توسعه‌دهندگان هوش مصنوعی که مدل‌های استدلال پیشرفته را آموزش می‌دهند، از اعمال نظارت قوی به طور مستقیم خودداری کنند."

بیشتر در مورد هوش مصنوعی: شما به این وظیفه ساده که هوش مصنوعی هنوز نمی‌تواند انجام دهد، خواهید خندید