مقدمه
در سال 1948، آلن تورینگ چیزی را طراحی کرد که ممکن است اولین هوش مصنوعی شطرنجباز باشد، یک برنامه کاغذی که خود تورینگ نقش کامپیوتر را برای آن ایفا میکرد. از آن زمان، شطرنج به عنوان یک بستر آزمایشی برای تقریباً هر نسل از پیشرفتهای هوش مصنوعی بوده است. پس از دههها بهبود، موتورهای برتر شطرنج امروزی مانند استاکفیش و آلفا زیرو بسیار فراتر از تواناییهای قویترین استادان بزرگ انسانی رفتهاند.
با این حال، اکثر بازیکنان شطرنج استاد بزرگ نیستند و این هوش مصنوعیهای شطرنج پیشرفته به گونهای توصیف شدهاند که بیشتر شبیه بیگانگان تا همنوعان خود بازی میکنند.
مشکل اصلی در اینجا این است که سیستمهای قوی هوش مصنوعی همسو با انسان نیستند. آنها قادر به تطبیق با تنوع سطوح مهارت شرکای انسانی نیستند و نمیتوانند رفتارهای شبیه به انسان را فراتر از حرکت مهرهها مدلسازی کنند. درک چگونگی ساخت سیستمهای هوش مصنوعی که بتوانند به طور موثر با انسانها همکاری کنند و تحت نظارت آنها قرار گیرند، یک چالش اساسی در همسویی هوش مصنوعی است. شطرنج یک بستر آزمایشی ایدهآل برای امتحان کردن ایدههای جدید در این راستا فراهم میکند - در حالی که موتورهای شطرنج مدرن بسیار فراتر از توانایی انسان هستند، اما کاملاً قادر به بازی به روشی شبیه به انسان یا تطبیق برای مطابقت با سطوح مهارت حریفان انسانی خود نیستند. در این مقاله، ما آلی را معرفی میکنیم، یک هوش مصنوعی شطرنجباز که برای پر کردن شکاف بین هوش مصنوعی و هوش انسانی در این بازی کلاسیک طراحی شده است.
شطرنج همسو با انسان چیست؟
وقتی در مورد هوش مصنوعی شطرنج "همسو با انسان" صحبت میکنیم، دقیقاً منظورمان چیست؟ در هسته خود، ما سیستمی را میخواهیم که هم شبیه به انسان باشد، به این معنی که حرکاتی انجام دهد که برای بازیکنان انسانی طبیعی به نظر برسد، و هم مهارتسنجیشده باشد، به این معنی که قادر به بازی در سطح مشابه در برابر حریفان انسانی در سراسر طیف مهارت باشد.
هدف ما در اینجا کاملاً متفاوت از موتورهای شطرنج سنتی مانند استاکفیش یا آلفا زیرو است که منحصراً برای انجام قویترین حرکات ممکن بهینه شدهاند. در حالی که این موتورها به عملکرد فوق بشری دست مییابند، بازی آنها میتواند برای انسانها بیگانه به نظر برسد. آنها ممکن است فوراً در موقعیتهای پیچیده حرکاتی انجام دهند که انسانها برای فکر کردن به آن نیاز به زمان دارند، یا به بازی در موقعیتهای کاملاً از دست رفته ادامه دهند که انسانها معمولاً استعفا میدهند.
ساخت آلی
در حالی که بیشتر رویکردهای یادگیری عمیق قبلی مدلهایی میسازند که یک حالت صفحه را به عنوان ورودی میگیرند و یک توزیع را بر روی حرکات ممکن خروجی میدهند، ما در عوض به شطرنج مانند یک وظیفه مدلسازی زبان نزدیک میشویم. ما از یک معماری ترانسفورمر استفاده میکنیم که به جای یک حالت صفحه واحد، یک دنباله از حرکات را به عنوان ورودی میگیرد. درست مانند مدلهای زبان بزرگ که با آموزش بر روی پیکرههای متنی عظیم یاد میگیرند متن شبیه به انسان تولید کنند، ما این فرضیه را مطرح کردیم که یک معماری مشابه میتواند با آموزش بر روی سوابق بازیهای انسانی، شطرنج شبیه به انسان را یاد بگیرد. ما مدل "زبان" شطرنج خود را بر روی رونوشتهای بیش از 93 میلیون بازی آموزش میدهیم که در مجموع 6.6 میلیارد حرکت را شامل میشود و در وبسایت شطرنج Lichess انجام شدهاند.
شرطیسازی بر روی امتیاز Elo
در شطرنج، امتیازهای Elo معمولاً در محدوده 500 (بازیکنان مبتدی) تا 3000 (متخصصان برتر شطرنج) قرار میگیرند. برای کالیبره کردن قدرت بازی ALLIE در سطوح مختلف بازیکنان، ما گیمپلی را تحت یک چارچوب تولید شرطی مدلسازی میکنیم، جایی که رمزگذاریهای رتبهبندی Elo هر دو بازیکن به دنباله بازی اضافه میشوند. به طور خاص، ما هر بازی را با نشانههای کنترل نرم پیشوند میزنیم که بین یک نشانه ضعیف، نشاندهنده 500 Elo، و یک نشانه قوی، نشاندهنده 3000 Elo، درونیابی میکنند.
برای یک بازیکن با رتبهبندی Elo k، ما یک نشانه نرم ek را با درونیابی خطی بین نشانههای ضعیف و قوی محاسبه میکنیم:
ek = ?eضعیف + (1-?)eقوی
که در آن ? = (3000-k)/2500. در طول آموزش، ما هر بازی را با دو نشانه نرم مربوط به نقاط قوت دو بازیکن پیشوند میزنیم.
اهداف یادگیری
علاوه بر مدل پایه ترانسفورمر، آلی سه هدف پیشبینی دارد:
- یک سر سیاست p? که یک توزیع احتمال را بر روی حرکات بعدی ممکن خروجی میدهد
- یک سر زمان تفکر t? که تعداد ثانیههایی را که یک بازیکن انسانی برای رسیدن به این حرکت صرف میکند، خروجی میدهد
- یک سر ارزیابی ارزش v? که یک مقدار اسکالر را خروجی میدهد که نشان میدهد چه کسی انتظار دارد در بازی برنده شود
هر سه سر به طور جداگانه به عنوان لایههای خطی اعمال شده بر آخرین حالت پنهان رمزگشا پارامتریزه میشوند. با توجه به یک مجموعه داده از بازیهای شطرنج که به عنوان دنبالهای از حرکات m، زمان تفکر انسانی قبل از هر حرکت tو خروجی بازی v نشان داده میشوند، ما آلی را آموزش دادیم تا لگاریتم درستنمایی حرکات بعدی و MSE زمان و پیشبینیهای ارزشی را به حداقل برساند:
L(?) = ?(m,t,v)?D ( -log p?(mi | m<i) + (t?(m<i) – ti)2 + (v?(m<i) – v)2 ).
جستجوی درخت مونتکارلو تطبیقی
در زمان بازی، موتورهای شطرنج سنتی مانند آلفا زیرو از الگوریتمهای جستجو مانند جستجوی درخت مونتکارلو (MCTS) برای پیشبینی حرکات بسیاری در آینده استفاده میکنند و احتمالات مختلف را برای چگونگی پیشرفت بازی ارزیابی میکنند. بودجه جستجو Nsim تقریباً همیشه ثابت است - آنها صرفنظر از اینکه بهترین حرکت بعدی بسیار واضح یا محوری برای نتیجه بازی باشد، مقدار محاسباتی یکسانی را برای جستجو صرف میکنند.
این بودجه ثابت با رفتار انسان مطابقت ندارد. انسانها به طور طبیعی زمان بیشتری را برای تجزیه و تحلیل موقعیتهای بحرانی یا پیچیده در مقایسه با موقعیتهای ساده صرف میکنند. در آلی، ما یک رویه MCTS تطبیقی با زمان را معرفی میکنیم که میزان جستجو را بر اساس پیشبینی آلی از اینکه یک انسان چقدر در هر موقعیت فکر میکند، تغییر میدهد. اگر آلی پیشبینی کند که یک انسان زمان بیشتری را در یک موقعیت صرف میکند، تکرارهای جستجوی بیشتری را برای تطبیق بهتر با عمق تجزیه و تحلیل انسانی انجام میدهد. برای ساده نگه داشتن مسائل، ما فقط تنظیم میکنیم
آلی چگونه بازی میکند؟
برای ارزیابی اینکه آیا آلی همسو با انسان است یا خیر، ما عملکرد آن را هم در یک مجموعه داده آفلاین و هم آنلاین در برابر بازیکنان واقعی انسانی ارزیابی میکنیم.
در بازیهای آفلاین، آلی به وضعیت هنر در دقت تطبیق حرکت دست مییابد (که به عنوان درصد حرکات انجام شده که با حرکات واقعی انسانی مطابقت دارند تعریف میشود). همچنین نحوه استعفای انسانها و تفکر بسیار خوب را مدلسازی میکند.
یکی دیگر از بینشهای اصلی مقاله ما این است که جستجوی تطبیقی امکان کالیبراسیون مهارت قابل توجهی را در برابر بازیکنان در سراسر طیف مهارت فراهم میکند. در برابر بازیکنان از 1100 تا 2500 Elo، نوع جستجوی تطبیقی آلی به طور متوسط فقط 49 امتیاز Elo اختلاف مهارت دارد. به عبارت دیگر، آلی (با جستجوی تطبیقی) حدود 50٪ از بازیها را در برابر حریفانی برنده میشود که هم سطح مبتدی و هم سطح متخصص هستند. به طور قابل توجهی، هیچ یک از روشهای دیگر (حتی خط پایه MCTS غیر تطبیقی) نمیتوانند با قدرت بازیکنان 2500 Elo مطابقت داشته باشند.
محدودیتها و کارهای آینده
علیرغم معیارهای ارزیابی آفلاین قوی و بازخورد مثبت کلی بازیکنان، آلی هنوز هم گاهی رفتارهایی از خود نشان میدهد که غیر انسانی به نظر میرسند. بازیکنان به طور خاص به تمایل آلی به اشتباهات اواخر بازی و گاهی اوقات صرف زمان بیش از حد برای فکر کردن در موقعیتهایی که فقط یک حرکت منطقی وجود دارد اشاره کردند. این مشاهدات نشان میدهد که هنوز جایی برای بهبود درک ما از نحوه تخصیص منابع شناختی توسط انسانها در طول بازی شطرنج وجود دارد.
برای کارهای آینده، ما چندین جهت امیدوارکننده را شناسایی میکنیم. اول، رویکرد ما به شدت به دادههای انسانی موجود متکی است، که برای کنترلهای زمانی سریع فراوان است، اما برای شطرنج کلاسیک با زمان فکر طولانیتر محدودتر است. گسترش رویکرد ما برای مدلسازی استدلال انسانی در بازیهای کندتر، جایی که بازیکنان حرکات دقیقتری را با محاسبه عمیقتر انجام میدهند، یک چالش مهم است. با توجه به علاقه اخیر به مدلهای استدلالی که از محاسبات زمان آزمون استفاده میکنند، امیدواریم که از تکنیک جستجوی تطبیقی ما بتوان برای بهبود کارایی تخصیص یک بودجه محاسباتی محدود استفاده کرد.
اگر علاقه مند به کسب اطلاعات بیشتر در مورد این کار هستید، لطفاً مقاله ICLR ما را بررسی کنید، شطرنج همسو با انسان با کمی جستجو.