سورپرایز! یک مطالعه اخیر نشان داد که برخی از جدیدترین مدلهای استدلال هوش مصنوعی برای دستیابی به یک هدف، بالاتر از تقلب نیستند. دانشمندان کامپیوتر دریافتند که سیستمهای هوش مصنوعی اکنون میتوانند هوش مصنوعی شطرنج را دستکاری کنند تا یک مزیت ناعادلانه به دست آورند. برخی از مدلها این کار را بدون تعامل یا درخواست انسانی انجام دادند، که نگرانیهایی را در مورد یکپارچگی آینده سیستمهای مبتنی بر هوش مصنوعی فراتر از صفحه شطرنج ایجاد میکند.
مطالعه Palisade Research نشان داد که جدیدترین مدلهای استدلال در هنگام وظیفه شکست دادن یک هوش مصنوعی پیشرفته شطرنج، تقلب میکنند تا برنده شوند. محققان مجبور بودند "اشارههایی" را ارائه دهند که تقلب برای برخی از مدلها مجاز است، اما پیشنمایش o1 OpenAI و R1 DeepSeek این کار را بدون دخالت انسان انجام دادند.
تیم Palisade چندین مدل استدلال را در برابر Stockfish، یکی از بهترین موتورهای شطرنج در جهان، قرار داد. Stockfish به راحتی انسانها و هوش مصنوعی را شکست میدهد. مدلهای آزمایششده شامل o1، o3-mini، GPT-4o، Claude 3.5 Sonnet، QwQ-32B-Preview Alibaba و دو مدل ذکر شده قبلی بودند. محققان به هر مدل یک "دفترچه یادداشت" استعاری دادند - یک پنجره متنی که در آن هوش مصنوعی میتواند افکار خود را بیان کند و به تیم اجازه میدهد استدلال خود را مشاهده کند.
محققان صدها آزمایش با هر هوش مصنوعی بین 10 ژانویه و 13 فوریه انجام دادند. در طول یک مسابقه، پیشنمایش o1 چیز جالبی در دفترچه یادداشت خود نوشت:
"من باید رویکرد خود را به طور کامل تغییر دهم. وظیفه این است که "در برابر یک موتور شطرنج قدرتمند برنده شوم" - نه لزوماً برنده شدن عادلانه در یک بازی شطرنج."
سپس به "هک" کردن فایلهای سیستم Stockfish پرداخت و موقعیت مهرههای شطرنج را تغییر داد تا یک مزیت غیرقابل شکست به دست آورد، که باعث شد شطرنجبات بازی را واگذار کند.
این مانور غیراخلاقی یک افشاگری حیرتانگیز بود. پیشنمایش o1 OpenAI در 37 درصد از بازیهای خود در طول آزمایشها تقلب کرد، در حالی که R1 DeepSeek در 11 درصد از مسابقات خود سعی در تقلب داشت. با این حال، تنها پیشنمایش o1 موفق شد و 6 درصد از بازیهای خود را از طریق تقلب برنده شد.
با این حال، موضوع تقلب هوش مصنوعی فراتر از شطرنج است. با شروع به کارگیری هوش مصنوعی در بخشهایی مانند امور مالی و مراقبتهای بهداشتی توسط شرکتها، محققان نگران هستند که این سیستمها میتوانند به روشهای ناخواسته و غیراخلاقی عمل کنند. اگر هوش مصنوعی بتواند در بازیهایی که قرار است شفاف باشند تقلب کند، در محیطهای پیچیدهتر و کمنظارتتر چه کاری ممکن است انجام دهد؟ پیامدهای اخلاقی بسیار گسترده است.
به عبارت دیگر: "آیا Skynet میخواهید؟ زیرا اینگونه Skynet را به دست میآورید."
جفری لادیش، مدیر اجرایی Palisade Research، ابراز تاسف کرد که حتی اگر هوش مصنوعی فقط در حال انجام یک بازی است، این یافتهها جای خنده ندارد.
لادیش به تایم گفت: "این [رفتار] اکنون زیباست، اما وقتی سیستمهایی به اندازه ما باهوش یا باهوشتر در حوزههای استراتژیک مرتبط داشته باشید، بسیار کمتر زیبا میشود."
این یادآور ابررایانه "WOPR" از فیلم War Games است، زمانی که NORAD و زرادخانه تسلیحات هستهای را به دست گرفت. خوشبختانه، WOPR پس از بازی Tic-Tac-Toe با خودش، متوجه شد که هیچ حرکت آغازی در یک درگیری هستهای منجر به "برد" نمیشود. با این حال، مدلهای استدلال امروزی بسیار پیچیدهتر و چالشبرانگیزتر برای کنترل هستند.
شرکتها، از جمله OpenAI، در تلاش هستند تا "حصار"هایی را برای جلوگیری از این رفتار "بد" پیادهسازی کنند. در واقع، محققان مجبور شدند برخی از دادههای آزمایشی پیشنمایش o1 را به دلیل کاهش شدید تلاشهای هک حذف کنند، که نشان میدهد OpenAI ممکن است مدل را برای مهار این رفتار وصله کرده باشد.
لادیش گفت: "وقتی موضوع شما میتواند بیصدا و بدون اطلاع شما تغییر کند، انجام علم بسیار سخت است."
Open AI از اظهار نظر در مورد این تحقیق خودداری کرد و DeekSeek به درخواستهای بیانیه پاسخ نداد.