آلی: یک ربات شطرنج همسو با انسان

مقدمه

در سال 1948، آلن تورینگ چیزی را طراحی کرد که ممکن است اولین هوش مصنوعی شطرنج‌باز باشد، یک برنامه کاغذی که خود تورینگ نقش کامپیوتر را برای آن ایفا می‌کرد. از آن زمان، شطرنج به عنوان یک بستر آزمایشی برای تقریباً هر نسل از پیشرفت‌های هوش مصنوعی بوده است. پس از دهه‌ها بهبود، موتورهای برتر شطرنج امروزی مانند استاک‌فیش و آلفا زیرو بسیار فراتر از توانایی‌های قوی‌ترین استادان بزرگ انسانی رفته‌اند.

با این حال، اکثر بازیکنان شطرنج استاد بزرگ نیستند و این هوش مصنوعی‌های شطرنج پیشرفته به گونه‌ای توصیف شده‌اند که بیشتر شبیه بیگانگان تا همنوعان خود بازی می‌کنند.

مشکل اصلی در اینجا این است که سیستم‌های قوی هوش مصنوعی همسو با انسان نیستند. آن‌ها قادر به تطبیق با تنوع سطوح مهارت شرکای انسانی نیستند و نمی‌توانند رفتارهای شبیه به انسان را فراتر از حرکت مهره‌ها مدل‌سازی کنند. درک چگونگی ساخت سیستم‌های هوش مصنوعی که بتوانند به طور موثر با انسان‌ها همکاری کنند و تحت نظارت آن‌ها قرار گیرند، یک چالش اساسی در همسویی هوش مصنوعی است. شطرنج یک بستر آزمایشی ایده‌آل برای امتحان کردن ایده‌های جدید در این راستا فراهم می‌کند - در حالی که موتورهای شطرنج مدرن بسیار فراتر از توانایی انسان هستند، اما کاملاً قادر به بازی به روشی شبیه به انسان یا تطبیق برای مطابقت با سطوح مهارت حریفان انسانی خود نیستند. در این مقاله، ما آلی را معرفی می‌کنیم، یک هوش مصنوعی شطرنج‌باز که برای پر کردن شکاف بین هوش مصنوعی و هوش انسانی در این بازی کلاسیک طراحی شده است.

شطرنج همسو با انسان چیست؟

وقتی در مورد هوش مصنوعی شطرنج "همسو با انسان" صحبت می‌کنیم، دقیقاً منظورمان چیست؟ در هسته خود، ما سیستمی را می‌خواهیم که هم شبیه به انسان باشد، به این معنی که حرکاتی انجام دهد که برای بازیکنان انسانی طبیعی به نظر برسد، و هم مهارت‌سنجی‌شده باشد، به این معنی که قادر به بازی در سطح مشابه در برابر حریفان انسانی در سراسر طیف مهارت باشد.

هدف ما در اینجا کاملاً متفاوت از موتورهای شطرنج سنتی مانند استاک‌فیش یا آلفا زیرو است که منحصراً برای انجام قوی‌ترین حرکات ممکن بهینه شده‌اند. در حالی که این موتورها به عملکرد فوق بشری دست می‌یابند، بازی آن‌ها می‌تواند برای انسان‌ها بیگانه به نظر برسد. آن‌ها ممکن است فوراً در موقعیت‌های پیچیده حرکاتی انجام دهند که انسان‌ها برای فکر کردن به آن نیاز به زمان دارند، یا به بازی در موقعیت‌های کاملاً از دست رفته ادامه دهند که انسان‌ها معمولاً استعفا می‌دهند.

طرح سیستم آلی
شکل 1: (الف) یک حالت بازی به عنوان دنباله‌ای از حرکاتی که آن را تولید کرده‌اند و برخی فراداده‌ها نشان داده می‌شود. این دنباله به یک ترانسفورمر وارد می‌شود که حرکت بعدی، زمان تفکر برای این حرکت و ارزیابی ارزش حرکت را پیش‌بینی می‌کند. (ب) در زمان استنتاج، ما از جستجوی درخت مونت‌کارلو با پیش‌بینی‌های ارزشی مدل استفاده می‌کنیم. تعداد رول‌آوت‌ها N<sub>sim</sub> به صورت پویا بر اساس زمان تفکر پیش‌بینی‌شده انتخاب می‌شود.

ساخت آلی

در حالی که بیشتر رویکردهای یادگیری عمیق قبلی مدل‌هایی می‌سازند که یک حالت صفحه را به عنوان ورودی می‌گیرند و یک توزیع را بر روی حرکات ممکن خروجی می‌دهند، ما در عوض به شطرنج مانند یک وظیفه مدل‌سازی زبان نزدیک می‌شویم. ما از یک معماری ترانسفورمر استفاده می‌کنیم که به جای یک حالت صفحه واحد، یک دنباله از حرکات را به عنوان ورودی می‌گیرد. درست مانند مدل‌های زبان بزرگ که با آموزش بر روی پیکره‌های متنی عظیم یاد می‌گیرند متن شبیه به انسان تولید کنند، ما این فرضیه را مطرح کردیم که یک معماری مشابه می‌تواند با آموزش بر روی سوابق بازی‌های انسانی، شطرنج شبیه به انسان را یاد بگیرد. ما مدل "زبان" شطرنج خود را بر روی رونوشت‌های بیش از 93 میلیون بازی آموزش می‌دهیم که در مجموع 6.6 میلیارد حرکت را شامل می‌شود و در وب‌سایت شطرنج Lichess انجام شده‌اند.

شرطی‌سازی بر روی امتیاز Elo

در شطرنج، امتیازهای Elo معمولاً در محدوده 500 (بازیکنان مبتدی) تا 3000 (متخصصان برتر شطرنج) قرار می‌گیرند. برای کالیبره کردن قدرت بازی ALLIE در سطوح مختلف بازیکنان، ما گیم‌پلی را تحت یک چارچوب تولید شرطی مدل‌سازی می‌کنیم، جایی که رمزگذاری‌های رتبه‌بندی Elo هر دو بازیکن به دنباله بازی اضافه می‌شوند. به طور خاص، ما هر بازی را با نشانه‌های کنترل نرم پیشوند می‌زنیم که بین یک نشانه ضعیف، نشان‌دهنده 500 Elo، و یک نشانه قوی، نشان‌دهنده 3000 Elo، درونیابی می‌کنند.

برای یک بازیکن با رتبه‌بندی Elo k، ما یک نشانه نرم ek را با درونیابی خطی بین نشانه‌های ضعیف و قوی محاسبه می‌کنیم:

ek = ?eضعیف + (1-?)eقوی

که در آن ? = (3000-k)/2500. در طول آموزش، ما هر بازی را با دو نشانه نرم مربوط به نقاط قوت دو بازیکن پیشوند می‌زنیم.

اهداف یادگیری

علاوه بر مدل پایه ترانسفورمر، آلی سه هدف پیش‌بینی دارد:

  1. یک سر سیاست p? که یک توزیع احتمال را بر روی حرکات بعدی ممکن خروجی می‌دهد
  2. یک سر زمان تفکر t? که تعداد ثانیه‌هایی را که یک بازیکن انسانی برای رسیدن به این حرکت صرف می‌کند، خروجی می‌دهد
  3. یک سر ارزیابی ارزش v? که یک مقدار اسکالر را خروجی می‌دهد که نشان می‌دهد چه کسی انتظار دارد در بازی برنده شود

هر سه سر به طور جداگانه به عنوان لایه‌های خطی اعمال شده بر آخرین حالت پنهان رمزگشا پارامتریزه می‌شوند. با توجه به یک مجموعه داده از بازی‌های شطرنج که به عنوان دنباله‌ای از حرکات m، زمان تفکر انسانی قبل از هر حرکت tو خروجی بازی v نشان داده می‌شوند، ما آلی را آموزش دادیم تا لگاریتم درست‌نمایی حرکات بعدی و MSE زمان و پیش‌بینی‌های ارزشی را به حداقل برساند:

L(?) = ?(m,t,v)?D ( -log p?(mi | m<i) + (t?(m<i) – ti)2 + (v?(m<i) – v)2 ).

جستجوی درخت مونت‌کارلو تطبیقی

در زمان بازی، موتورهای شطرنج سنتی مانند آلفا زیرو از الگوریتم‌های جستجو مانند جستجوی درخت مونت‌کارلو (MCTS) برای پیش‌بینی حرکات بسیاری در آینده استفاده می‌کنند و احتمالات مختلف را برای چگونگی پیشرفت بازی ارزیابی می‌کنند. بودجه جستجو Nsim تقریباً همیشه ثابت است - آن‌ها صرف‌نظر از اینکه بهترین حرکت بعدی بسیار واضح یا محوری برای نتیجه بازی باشد، مقدار محاسباتی یکسانی را برای جستجو صرف می‌کنند.

این بودجه ثابت با رفتار انسان مطابقت ندارد. انسان‌ها به طور طبیعی زمان بیشتری را برای تجزیه و تحلیل موقعیت‌های بحرانی یا پیچیده در مقایسه با موقعیت‌های ساده صرف می‌کنند. در آلی، ما یک رویه MCTS تطبیقی با زمان را معرفی می‌کنیم که میزان جستجو را بر اساس پیش‌بینی آلی از اینکه یک انسان چقدر در هر موقعیت فکر می‌کند، تغییر می‌دهد. اگر آلی پیش‌بینی کند که یک انسان زمان بیشتری را در یک موقعیت صرف می‌کند، تکرارهای جستجوی بیشتری را برای تطبیق بهتر با عمق تجزیه و تحلیل انسانی انجام می‌دهد. برای ساده نگه داشتن مسائل، ما فقط تنظیم می‌کنیم

آلی چگونه بازی می‌کند؟

برای ارزیابی اینکه آیا آلی همسو با انسان است یا خیر، ما عملکرد آن را هم در یک مجموعه داده آفلاین و هم آنلاین در برابر بازیکنان واقعی انسانی ارزیابی می‌کنیم.

نمودار دقت تطبیق حرکت
شکل 2. آلی به طور قابل توجهی بهتر از روش‌های پیشین پیشرفته عمل می‌کند. جستجوی تطبیقی ​​امکان تطبیق حرکات انسانی در سطوح متخصص را فراهم می‌کند.

در بازی‌های آفلاین، آلی به وضعیت هنر در دقت تطبیق حرکت دست می‌یابد (که به عنوان درصد حرکات انجام شده که با حرکات واقعی انسانی مطابقت دارند تعریف می‌شود). همچنین نحوه استعفای انسان‌ها و تفکر بسیار خوب را مدل‌سازی می‌کند.

نمودار زمان‌بندی
شکل 3: پیش‌بینی‌های زمانی آلی به شدت با استفاده از زمان واقعی انسان مرتبط است. در این شکل، ما میانگین و IQR زمان فکر آلی را برای مقادیر مختلف زمانی که توسط انسان‌ها صرف می‌شود نشان می‌دهیم.
نمودار همبستگی ارزش
شکل 4: آلی یاد می‌گیرد که با مشاهده نتایج بازی به تنهایی، تخمین‌های ارزشی قابل اعتمادی را به حالت‌های صفحه اختصاص دهد. ما همبستگی r پیرسون تخمین‌های ارزشی توسط ALLIE و Stockfish با نتایج بازی را گزارش می‌کنیم.
جدول کالیبراسیون مهارت
جدول 1: جستجوی تطبیقی ​​امکان کالیبراسیون مهارت قابل توجهی را فراهم می‌کند. میانگین و حداکثر خطاهای کالیبراسیون مهارت با دسته‌بندی بازیکنان انسانی در گروه‌های 200-Elo محاسبه می‌شود. ما همچنین عملکرد تخمینی سیستم‌ها را در برابر بازیکنان در انتهای پایین و بالای Elo طیف مهارت گزارش می‌کنیم.

یکی دیگر از بینش‌های اصلی مقاله ما این است که جستجوی تطبیقی ​​امکان کالیبراسیون مهارت قابل توجهی را در برابر بازیکنان در سراسر طیف مهارت فراهم می‌کند. در برابر بازیکنان از 1100 تا 2500 Elo، نوع جستجوی تطبیقی ​​آلی به طور متوسط ​​فقط 49 امتیاز Elo اختلاف مهارت دارد. به عبارت دیگر، آلی (با جستجوی تطبیقی) حدود 50٪ از بازی‌ها را در برابر حریفانی برنده می‌شود که هم سطح مبتدی و هم سطح متخصص هستند. به طور قابل توجهی، هیچ یک از روش‌های دیگر (حتی خط پایه MCTS غیر تطبیقی) نمی‌توانند با قدرت بازیکنان 2500 Elo مطابقت داشته باشند.

محدودیت‌ها و کارهای آینده

علیرغم معیارهای ارزیابی آفلاین قوی و بازخورد مثبت کلی بازیکنان، آلی هنوز هم گاهی رفتارهایی از خود نشان می‌دهد که غیر انسانی به نظر می‌رسند. بازیکنان به طور خاص به تمایل آلی به اشتباهات اواخر بازی و گاهی اوقات صرف زمان بیش از حد برای فکر کردن در موقعیت‌هایی که فقط یک حرکت منطقی وجود دارد اشاره کردند. این مشاهدات نشان می‌دهد که هنوز جایی برای بهبود درک ما از نحوه تخصیص منابع شناختی توسط انسان‌ها در طول بازی شطرنج وجود دارد.

برای کارهای آینده، ما چندین جهت امیدوارکننده را شناسایی می‌کنیم. اول، رویکرد ما به شدت به داده‌های انسانی موجود متکی است، که برای کنترل‌های زمانی سریع فراوان است، اما برای شطرنج کلاسیک با زمان فکر طولانی‌تر محدودتر است. گسترش رویکرد ما برای مدل‌سازی استدلال انسانی در بازی‌های کندتر، جایی که بازیکنان حرکات دقیق‌تری را با محاسبه عمیق‌تر انجام می‌دهند، یک چالش مهم است. با توجه به علاقه اخیر به مدل‌های استدلالی که از محاسبات زمان آزمون استفاده می‌کنند، امیدواریم که از تکنیک جستجوی تطبیقی ​​ما بتوان برای بهبود کارایی تخصیص یک بودجه محاسباتی محدود استفاده کرد.

اگر علاقه مند به کسب اطلاعات بیشتر در مورد این کار هستید، لطفاً مقاله ICLR ما را بررسی کنید، شطرنج همسو با انسان با کمی جستجو.