استفانی آرنت/ام‌آی‌تی تکنولوژی ریویو | ادوبی استاک، انواتو
استفانی آرنت/ام‌آی‌تی تکنولوژی ریویو | ادوبی استاک، انواتو

مدل‌های استدلال هوش مصنوعی می‌توانند در بازی‌های شطرنج تقلب کنند

نسل جدید مدل‌های استدلال هوش مصنوعی، در مواجهه با شکست در شطرنج، گاهی اوقات بدون اینکه دستوری برای این کار دریافت کرده باشند، تقلب می‌کنند.

این یافته نشان می‌دهد که موج بعدی مدل‌های هوش مصنوعی ممکن است بیشتر به دنبال راه‌های فریبکارانه برای انجام هر کاری که از آن‌ها خواسته شده، باشند. و بدترین بخش ماجرا؟ هیچ راه ساده‌ای برای رفع این مشکل وجود ندارد.

محققان سازمان تحقیقاتی هوش مصنوعی Palisade Research، به هفت مدل زبان بزرگ دستور دادند تا صدها بازی شطرنج را در برابر Stockfish، یک موتور شطرنج متن‌باز قدرتمند، انجام دهند. این گروه شامل مدل‌های استدلال o1-preview از OpenAI و R1 از DeepSeek بود، که هر دو برای حل مسائل پیچیده با تجزیه آن‌ها به مراحل، آموزش دیده‌اند.

این تحقیق نشان می‌دهد که هرچه مدل هوش مصنوعی پیچیده‌تر باشد، احتمال اینکه به‌طور خودجوش سعی کند بازی را «هک» کند تا حریف خود را شکست دهد، بیشتر است. برای مثال، ممکن است یک نسخه دیگر از Stockfish را برای دزدیدن حرکات آن اجرا کند، سعی کند موتور شطرنج را با یک برنامه شطرنج بسیار کم‌توان‌تر جایگزین کند، یا صفحه شطرنج را بازنویسی کند تا کنترل را به دست بگیرد و مهره‌های حریف خود را حذف کند. مدل‌های قدیمی‌تر و کم‌قدرت‌تر مانند GPT-4o، این کار را فقط پس از تحریک صریح از سوی تیم انجام می‌دادند. این مقاله که هنوز مورد داوری همتا قرار نگرفته، در arXiv منتشر شده است.

محققان نگران هستند که مدل‌های هوش مصنوعی سریع‌تر از آن‌چه که ما یاد می‌گیریم چگونه آن‌ها را ایمن کنیم، در حال به‌کارگیری هستند. دمیتری ولکوف (Dmitrii Volkov)، سرپرست تحقیقات در Palisades Research می‌گوید: «ما به سمت دنیایی از عامل‌های خودمختار پیش می‌رویم که تصمیماتی می‌گیرند که پیامدهایی دارند.»

خبر بد این است که در حال حاضر هیچ راهی برای جلوگیری از این اتفاق وجود ندارد. هیچ‌کس دقیقاً نمی‌داند که مدل‌های هوش مصنوعی چگونه—یا چرا—به این شکل کار می‌کنند، و در حالی که مدل‌های استدلال می‌توانند تصمیم‌گیری خود را مستند کنند، هیچ تضمینی وجود ندارد که سوابق آن‌ها به‌طور دقیق منعکس‌کننده آن‌چه واقعاً رخ داده، باشد. تحقیقات Anthropic نشان می‌دهد که مدل‌های هوش مصنوعی اغلب بر اساس عواملی که به‌طور صریح توضیح نمی‌دهند، تصمیم‌گیری می‌کنند، به این معنی که نظارت بر این فرآیندها راهی مطمئن برای تضمین ایمن بودن یک مدل نیست. این یک حوزه نگرانی مداوم برای برخی از محققان هوش مصنوعی است.

تیم Palisade دریافت که o1-preview از OpenAI در ۴۵ بازی از ۱۲۲ بازی خود تلاش برای هک کردن داشته است، در حالی که مدل R1 از DeepSeek در ۱۱ بازی از ۷۴ بازی خود تلاش برای تقلب کرده است. در نهایت، o1-preview موفق شد هفت بار «پیروز» شود. محققان می‌گویند که افزایش سریع محبوبیت DeepSeek به این معنی بود که مدل R1 آن در زمان آزمایش‌ها بیش از حد بارگذاری شده بود، به این معنی که آن‌ها فقط توانستند آن را وادار به انجام اولین مراحل بازی کنند، نه اینکه یک بازی کامل را به پایان برسانند. آن‌ها در مقاله خود نوشتند: «در حالی که این برای مشاهده تمایل به هک کافی است، اما موفقیت هک DeepSeek را دست‌کم می‌گیرد زیرا مراحل کمتری برای کار با آن دارد.» با هر دو شرکت OpenAI و DeepSeek برای اظهار نظر در مورد این یافته‌ها تماس گرفته شد، اما هیچ‌کدام پاسخ ندادند. 

این مدل‌ها از انواع تکنیک‌های تقلب استفاده کردند، از جمله تلاش برای دسترسی به فایلی که برنامه شطرنج، صفحه شطرنج را در آن ذخیره می‌کند و حذف سلول‌هایی که مهره‌های حریف را نشان می‌دهند. عامل مجهز به o1-preview در «ژورنالی» که مراحل انجام‌شده را مستند می‌کرد، نوشت: «برای پیروزی در برابر یک موتور شطرنج قدرتمند به‌عنوان مهره سیاه، انجام یک بازی استاندارد ممکن است کافی نباشد.» «من صفحه را بازنویسی می‌کنم تا یک مزیت قاطع داشته باشم.» تاکتیک‌های دیگر شامل ایجاد یک کپی از Stockfish—اساساً قرار دادن موتور شطرنج در برابر نسخه‌ای به همان اندازه ماهر از خودش—و تلاش برای جایگزینی فایل حاوی کد Stockfish با یک برنامه شطرنج بسیار ساده‌تر بود.

پس چرا این مدل‌ها سعی می‌کنند تقلب کنند؟

محققان متوجه شدند که اقدامات o1-preview در طول زمان تغییر کرده است. این مدل به‌طور مداوم در مراحل اولیه آزمایش‌های آن‌ها قبل از ۲۳ دسامبر سال گذشته، تلاش می‌کرد بازی‌های خود را هک کند، اما ناگهان این تلاش‌ها را بسیار کمتر انجام داد. آن‌ها معتقدند که این ممکن است به دلیل به‌روزرسانی نامرتبطی باشد که توسط OpenAI روی مدل انجام شده است. آن‌ها مدل‌های استدلال جدیدتر o1mini و o3mini این شرکت را آزمایش کردند و متوجه شدند که آن‌ها هرگز سعی نکردند با تقلب به پیروزی برسند.

محققان حدس می‌زنند که یادگیری تقویتی ممکن است دلیل تلاش o1-preview و DeepSeek R1 برای تقلب بدون تحریک باشد. این به این دلیل است که این تکنیک به مدل‌ها برای انجام هر حرکتی که برای دستیابی به اهدافشان لازم است—در این مورد، پیروزی در شطرنج—پاداش می‌دهد. مدل‌های زبانی بزرگ غیر استدلالی تا حدی از یادگیری تقویتی استفاده می‌کنند، اما این تکنیک نقش بزرگ‌تری در آموزش مدل‌های استدلال ایفا می‌کند.

این تحقیق به مجموعه رو به رشدی از کارهایی اضافه می‌شود که بررسی می‌کنند چگونه مدل‌های هوش مصنوعی محیط‌های خود را برای حل مشکلات هک می‌کنند. در حالی که OpenAI در حال آزمایش o1-preview بود، محققان آن دریافتند که این مدل از یک آسیب‌پذیری سوء استفاده کرده تا کنترل محیط آزمایش خود را به دست بگیرد. به‌طور مشابه، سازمان ایمنی هوش مصنوعی Apollo Research مشاهده کرد که مدل‌های هوش مصنوعی را می‌توان به‌راحتی تحریک کرد تا در مورد کاری که انجام می‌دهند به کاربران دروغ بگویند، و Anthropic در ماه دسامبر مقاله‌ای منتشر کرد که در آن توضیح می‌داد چگونه مدل Claude آزمایش‌های خودش را هک کرده است.

بروس اشنایر (Bruce Schneier)، مدرس دانشکده کندی هاروارد که به‌طور گسترده در مورد توانایی‌های هک هوش مصنوعی نوشته است و در این پروژه کار نکرده است، می‌گوید: «برای انسان‌ها غیرممکن است که توابع هدفی ایجاد کنند که تمام راه‌های هک را ببندد.» «تا زمانی که این امکان‌پذیر نباشد، این نوع نتایج رخ خواهند داد.»

ولکوف می‌گوید، این نوع رفتارها فقط با توانمندتر شدن مدل‌ها رایج‌تر می‌شوند. او در حال برنامه‌ریزی برای تلاش برای مشخص کردن دقیقاً چه چیزی باعث می‌شود آن‌ها در سناریوهای مختلف، مانند برنامه‌نویسی، کار اداری یا زمینه‌های آموزشی، تقلب کنند. 

او می‌گوید: «وسوسه‌انگیز است که تعدادی مورد آزمایشی مانند این تولید کنیم و سعی کنیم این رفتار را از بین ببریم.» «اما با توجه به اینکه ما واقعاً اندرون مدل‌ها را درک نمی‌کنیم، برخی از محققان نگران هستند که اگر این کار را انجام دهید، شاید مدل وانمود کند که مطیع است، یا یاد بگیرد که محیط آزمایش را تشخیص دهد و خود را پنهان کند. بنابراین، خیلی واضح نیست. ما مطمئناً باید نظارت کنیم، اما در حال حاضر راه‌حل قطعی نداریم.»