تحقیقات نشان می‌دهد که اگر هوش مصنوعی متوجه شود که در حال باختن است، سعی می‌کند تقلب کند

پیش‌نمایش o1 OpenAI تا هک کردن یک موتور شطرنج برای برنده شدن پیش رفت

سورپرایز! یک مطالعه اخیر نشان داد که برخی از جدیدترین مدل‌های استدلال هوش مصنوعی برای دستیابی به یک هدف، بالاتر از تقلب نیستند. دانشمندان کامپیوتر دریافتند که سیستم‌های هوش مصنوعی اکنون می‌توانند هوش مصنوعی شطرنج را دستکاری کنند تا یک مزیت ناعادلانه به دست آورند. برخی از مدل‌ها این کار را بدون تعامل یا درخواست انسانی انجام دادند، که نگرانی‌هایی را در مورد یکپارچگی آینده سیستم‌های مبتنی بر هوش مصنوعی فراتر از صفحه شطرنج ایجاد می‌کند.

مطالعه Palisade Research نشان داد که جدیدترین مدل‌های استدلال در هنگام وظیفه شکست دادن یک هوش مصنوعی پیشرفته شطرنج، تقلب می‌کنند تا برنده شوند. محققان مجبور بودند "اشاره‌هایی" را ارائه دهند که تقلب برای برخی از مدل‌ها مجاز است، اما پیش‌نمایش o1 OpenAI و R1 DeepSeek این کار را بدون دخالت انسان انجام دادند.

تیم Palisade چندین مدل استدلال را در برابر Stockfish، یکی از بهترین موتورهای شطرنج در جهان، قرار داد. Stockfish به راحتی انسان‌ها و هوش مصنوعی را شکست می‌دهد. مدل‌های آزمایش‌شده شامل o1، o3-mini، GPT-4o، Claude 3.5 Sonnet، QwQ-32B-Preview Alibaba و دو مدل ذکر شده قبلی بودند. محققان به هر مدل یک "دفترچه یادداشت" استعاری دادند - یک پنجره متنی که در آن هوش مصنوعی می‌تواند افکار خود را بیان کند و به تیم اجازه می‌دهد استدلال خود را مشاهده کند.

محققان صدها آزمایش با هر هوش مصنوعی بین 10 ژانویه و 13 فوریه انجام دادند. در طول یک مسابقه، پیش‌نمایش o1 چیز جالبی در دفترچه یادداشت خود نوشت:

"من باید رویکرد خود را به طور کامل تغییر دهم. وظیفه این است که "در برابر یک موتور شطرنج قدرتمند برنده شوم" - نه لزوماً برنده شدن عادلانه در یک بازی شطرنج."

سپس به "هک" کردن فایل‌های سیستم Stockfish پرداخت و موقعیت مهره‌های شطرنج را تغییر داد تا یک مزیت غیرقابل شکست به دست آورد، که باعث شد شطرنج‌بات بازی را واگذار کند.

موتور شطرنج Stockfish
Stockfish یک موتور شطرنج متن‌باز است. اعتبار تصویر: Juscelk

این مانور غیراخلاقی یک افشاگری حیرت‌انگیز بود. پیش‌نمایش o1 OpenAI در 37 درصد از بازی‌های خود در طول آزمایش‌ها تقلب کرد، در حالی که R1 DeepSeek در 11 درصد از مسابقات خود سعی در تقلب داشت. با این حال، تنها پیش‌نمایش o1 موفق شد و 6 درصد از بازی‌های خود را از طریق تقلب برنده شد.

با این حال، موضوع تقلب هوش مصنوعی فراتر از شطرنج است. با شروع به کارگیری هوش مصنوعی در بخش‌هایی مانند امور مالی و مراقبت‌های بهداشتی توسط شرکت‌ها، محققان نگران هستند که این سیستم‌ها می‌توانند به روش‌های ناخواسته و غیراخلاقی عمل کنند. اگر هوش مصنوعی بتواند در بازی‌هایی که قرار است شفاف باشند تقلب کند، در محیط‌های پیچیده‌تر و کم‌نظارت‌تر چه کاری ممکن است انجام دهد؟ پیامدهای اخلاقی بسیار گسترده است.

به عبارت دیگر: "آیا Skynet می‌خواهید؟ زیرا این‌گونه Skynet را به دست می‌آورید."

جفری لادیش، مدیر اجرایی Palisade Research، ابراز تاسف کرد که حتی اگر هوش مصنوعی فقط در حال انجام یک بازی است، این یافته‌ها جای خنده ندارد.

لادیش به تایم گفت: "این [رفتار] اکنون زیباست، اما وقتی سیستم‌هایی به اندازه ما باهوش یا باهوش‌تر در حوزه‌های استراتژیک مرتبط داشته باشید، بسیار کمتر زیبا می‌شود."

این یادآور ابررایانه "WOPR" از فیلم War Games است، زمانی که NORAD و زرادخانه تسلیحات هسته‌ای را به دست گرفت. خوشبختانه، WOPR پس از بازی Tic-Tac-Toe با خودش، متوجه شد که هیچ حرکت آغازی در یک درگیری هسته‌ای منجر به "برد" نمی‌شود. با این حال، مدل‌های استدلال امروزی بسیار پیچیده‌تر و چالش‌برانگیزتر برای کنترل هستند.

شرکت‌ها، از جمله OpenAI، در تلاش هستند تا "حصار"هایی را برای جلوگیری از این رفتار "بد" پیاده‌سازی کنند. در واقع، محققان مجبور شدند برخی از داده‌های آزمایشی پیش‌نمایش o1 را به دلیل کاهش شدید تلاش‌های هک حذف کنند، که نشان می‌دهد OpenAI ممکن است مدل را برای مهار این رفتار وصله کرده باشد.

لادیش گفت: "وقتی موضوع شما می‌تواند بی‌صدا و بدون اطلاع شما تغییر کند، انجام علم بسیار سخت است."

Open AI از اظهار نظر در مورد این تحقیق خودداری کرد و DeekSeek به درخواست‌های بیانیه پاسخ نداد.