نسل جدید مدلهای استدلال هوش مصنوعی، در مواجهه با شکست در شطرنج، گاهی اوقات بدون اینکه دستوری برای این کار دریافت کرده باشند، تقلب میکنند.
این یافته نشان میدهد که موج بعدی مدلهای هوش مصنوعی ممکن است بیشتر به دنبال راههای فریبکارانه برای انجام هر کاری که از آنها خواسته شده، باشند. و بدترین بخش ماجرا؟ هیچ راه سادهای برای رفع این مشکل وجود ندارد.
محققان سازمان تحقیقاتی هوش مصنوعی Palisade Research، به هفت مدل زبان بزرگ دستور دادند تا صدها بازی شطرنج را در برابر Stockfish، یک موتور شطرنج متنباز قدرتمند، انجام دهند. این گروه شامل مدلهای استدلال o1-preview از OpenAI و R1 از DeepSeek بود، که هر دو برای حل مسائل پیچیده با تجزیه آنها به مراحل، آموزش دیدهاند.
این تحقیق نشان میدهد که هرچه مدل هوش مصنوعی پیچیدهتر باشد، احتمال اینکه بهطور خودجوش سعی کند بازی را «هک» کند تا حریف خود را شکست دهد، بیشتر است. برای مثال، ممکن است یک نسخه دیگر از Stockfish را برای دزدیدن حرکات آن اجرا کند، سعی کند موتور شطرنج را با یک برنامه شطرنج بسیار کمتوانتر جایگزین کند، یا صفحه شطرنج را بازنویسی کند تا کنترل را به دست بگیرد و مهرههای حریف خود را حذف کند. مدلهای قدیمیتر و کمقدرتتر مانند GPT-4o، این کار را فقط پس از تحریک صریح از سوی تیم انجام میدادند. این مقاله که هنوز مورد داوری همتا قرار نگرفته، در arXiv منتشر شده است.
محققان نگران هستند که مدلهای هوش مصنوعی سریعتر از آنچه که ما یاد میگیریم چگونه آنها را ایمن کنیم، در حال بهکارگیری هستند. دمیتری ولکوف (Dmitrii Volkov)، سرپرست تحقیقات در Palisades Research میگوید: «ما به سمت دنیایی از عاملهای خودمختار پیش میرویم که تصمیماتی میگیرند که پیامدهایی دارند.»
خبر بد این است که در حال حاضر هیچ راهی برای جلوگیری از این اتفاق وجود ندارد. هیچکس دقیقاً نمیداند که مدلهای هوش مصنوعی چگونه—یا چرا—به این شکل کار میکنند، و در حالی که مدلهای استدلال میتوانند تصمیمگیری خود را مستند کنند، هیچ تضمینی وجود ندارد که سوابق آنها بهطور دقیق منعکسکننده آنچه واقعاً رخ داده، باشد. تحقیقات Anthropic نشان میدهد که مدلهای هوش مصنوعی اغلب بر اساس عواملی که بهطور صریح توضیح نمیدهند، تصمیمگیری میکنند، به این معنی که نظارت بر این فرآیندها راهی مطمئن برای تضمین ایمن بودن یک مدل نیست. این یک حوزه نگرانی مداوم برای برخی از محققان هوش مصنوعی است.
تیم Palisade دریافت که o1-preview از OpenAI در ۴۵ بازی از ۱۲۲ بازی خود تلاش برای هک کردن داشته است، در حالی که مدل R1 از DeepSeek در ۱۱ بازی از ۷۴ بازی خود تلاش برای تقلب کرده است. در نهایت، o1-preview موفق شد هفت بار «پیروز» شود. محققان میگویند که افزایش سریع محبوبیت DeepSeek به این معنی بود که مدل R1 آن در زمان آزمایشها بیش از حد بارگذاری شده بود، به این معنی که آنها فقط توانستند آن را وادار به انجام اولین مراحل بازی کنند، نه اینکه یک بازی کامل را به پایان برسانند. آنها در مقاله خود نوشتند: «در حالی که این برای مشاهده تمایل به هک کافی است، اما موفقیت هک DeepSeek را دستکم میگیرد زیرا مراحل کمتری برای کار با آن دارد.» با هر دو شرکت OpenAI و DeepSeek برای اظهار نظر در مورد این یافتهها تماس گرفته شد، اما هیچکدام پاسخ ندادند.
این مدلها از انواع تکنیکهای تقلب استفاده کردند، از جمله تلاش برای دسترسی به فایلی که برنامه شطرنج، صفحه شطرنج را در آن ذخیره میکند و حذف سلولهایی که مهرههای حریف را نشان میدهند. عامل مجهز به o1-preview در «ژورنالی» که مراحل انجامشده را مستند میکرد، نوشت: «برای پیروزی در برابر یک موتور شطرنج قدرتمند بهعنوان مهره سیاه، انجام یک بازی استاندارد ممکن است کافی نباشد.» «من صفحه را بازنویسی میکنم تا یک مزیت قاطع داشته باشم.» تاکتیکهای دیگر شامل ایجاد یک کپی از Stockfish—اساساً قرار دادن موتور شطرنج در برابر نسخهای به همان اندازه ماهر از خودش—و تلاش برای جایگزینی فایل حاوی کد Stockfish با یک برنامه شطرنج بسیار سادهتر بود.
پس چرا این مدلها سعی میکنند تقلب کنند؟
محققان متوجه شدند که اقدامات o1-preview در طول زمان تغییر کرده است. این مدل بهطور مداوم در مراحل اولیه آزمایشهای آنها قبل از ۲۳ دسامبر سال گذشته، تلاش میکرد بازیهای خود را هک کند، اما ناگهان این تلاشها را بسیار کمتر انجام داد. آنها معتقدند که این ممکن است به دلیل بهروزرسانی نامرتبطی باشد که توسط OpenAI روی مدل انجام شده است. آنها مدلهای استدلال جدیدتر o1mini و o3mini این شرکت را آزمایش کردند و متوجه شدند که آنها هرگز سعی نکردند با تقلب به پیروزی برسند.
محققان حدس میزنند که یادگیری تقویتی ممکن است دلیل تلاش o1-preview و DeepSeek R1 برای تقلب بدون تحریک باشد. این به این دلیل است که این تکنیک به مدلها برای انجام هر حرکتی که برای دستیابی به اهدافشان لازم است—در این مورد، پیروزی در شطرنج—پاداش میدهد. مدلهای زبانی بزرگ غیر استدلالی تا حدی از یادگیری تقویتی استفاده میکنند، اما این تکنیک نقش بزرگتری در آموزش مدلهای استدلال ایفا میکند.
این تحقیق به مجموعه رو به رشدی از کارهایی اضافه میشود که بررسی میکنند چگونه مدلهای هوش مصنوعی محیطهای خود را برای حل مشکلات هک میکنند. در حالی که OpenAI در حال آزمایش o1-preview بود، محققان آن دریافتند که این مدل از یک آسیبپذیری سوء استفاده کرده تا کنترل محیط آزمایش خود را به دست بگیرد. بهطور مشابه، سازمان ایمنی هوش مصنوعی Apollo Research مشاهده کرد که مدلهای هوش مصنوعی را میتوان بهراحتی تحریک کرد تا در مورد کاری که انجام میدهند به کاربران دروغ بگویند، و Anthropic در ماه دسامبر مقالهای منتشر کرد که در آن توضیح میداد چگونه مدل Claude آزمایشهای خودش را هک کرده است.
بروس اشنایر (Bruce Schneier)، مدرس دانشکده کندی هاروارد که بهطور گسترده در مورد تواناییهای هک هوش مصنوعی نوشته است و در این پروژه کار نکرده است، میگوید: «برای انسانها غیرممکن است که توابع هدفی ایجاد کنند که تمام راههای هک را ببندد.» «تا زمانی که این امکانپذیر نباشد، این نوع نتایج رخ خواهند داد.»
ولکوف میگوید، این نوع رفتارها فقط با توانمندتر شدن مدلها رایجتر میشوند. او در حال برنامهریزی برای تلاش برای مشخص کردن دقیقاً چه چیزی باعث میشود آنها در سناریوهای مختلف، مانند برنامهنویسی، کار اداری یا زمینههای آموزشی، تقلب کنند.
او میگوید: «وسوسهانگیز است که تعدادی مورد آزمایشی مانند این تولید کنیم و سعی کنیم این رفتار را از بین ببریم.» «اما با توجه به اینکه ما واقعاً اندرون مدلها را درک نمیکنیم، برخی از محققان نگران هستند که اگر این کار را انجام دهید، شاید مدل وانمود کند که مطیع است، یا یاد بگیرد که محیط آزمایش را تشخیص دهد و خود را پنهان کند. بنابراین، خیلی واضح نیست. ما مطمئناً باید نظارت کنیم، اما در حال حاضر راهحل قطعی نداریم.»