درک هوش و ایجاد ماشینهای هوشمند از چالشهای بزرگ علمی زمان ما است. توانایی یادگیری از تجربه یک سنگ بنای هوش برای ماشینها و موجودات زنده به طور یکسان است.
در یک گزارش پیشگویانه قابل توجه در سال 1948، آلن تورینگ - پدر علم کامپیوتر مدرن - ساخت ماشینهایی را پیشنهاد کرد که رفتار هوشمندانه از خود نشان میدهند. او همچنین در مورد "آموزش" چنین ماشینهایی "از طریق پاداش و تنبیه" بحث کرد.
ایدههای تورینگ در نهایت منجر به توسعه یادگیری تقویتی، شاخهای از هوش مصنوعی شد. یادگیری تقویتی به طراحی عوامل هوشمند با آموزش آنها برای به حداکثر رساندن پاداشها در حین تعامل با محیط خود میپردازد.
من به عنوان یک پژوهشگر یادگیری ماشین، متوجه شدم که پیشگامان یادگیری تقویتی، اندرو بارتو و ریچارد ساتن جایزه ACM Turing Award 2024 را دریافت کردند.
یادگیری تقویتی چیست؟
مربیان حیوانات میدانند که رفتار حیوانات را میتوان با پاداش دادن به رفتارهای مطلوب تحت تأثیر قرار داد. یک مربی سگ زمانی که سگ یک ترفند را به درستی انجام میدهد، به او جایزه میدهد. این رفتار را تقویت میکند و احتمال اینکه سگ دفعه بعد ترفند را به درستی انجام دهد بیشتر میشود. یادگیری تقویتی این بینش را از روانشناسی حیوانات وام گرفته است.
اما یادگیری تقویتی در مورد آموزش عوامل محاسباتی است، نه حیوانات. عامل میتواند یک عامل نرمافزاری مانند یک برنامه شطرنجبازی باشد. اما عامل همچنین میتواند یک نهاد تجسمیافته مانند یک ربات باشد که یاد میگیرد کارهای خانه را انجام دهد. به طور مشابه، محیط یک عامل میتواند مجازی باشد، مانند صفحه شطرنج یا دنیای طراحی شده در یک بازی ویدیویی. اما همچنین میتواند خانهای باشد که یک ربات در آن کار میکند.
درست مانند حیوانات، یک عامل میتواند جنبههایی از محیط خود را درک کند و اقداماتی را انجام دهد. یک عامل شطرنجبازی میتواند به پیکربندی صفحه شطرنج دسترسی داشته باشد و حرکتهایی انجام دهد. یک ربات میتواند محیط اطراف خود را با دوربین و میکروفون حس کند. میتواند از موتورهای خود برای حرکت در دنیای فیزیکی استفاده کند.
عوامل همچنین اهدافی دارند که طراحان انسانی آنها را در آنها برنامهریزی میکنند. هدف یک عامل شطرنجبازی برنده شدن در بازی است. هدف یک ربات ممکن است کمک به صاحب انسانی خود در انجام کارهای خانه باشد.
مسئله یادگیری تقویتی در هوش مصنوعی این است که چگونه عواملی را طراحی کنیم که با درک و عمل در محیط خود به اهداف خود دست یابند. یادگیری تقویتی ادعای جسورانهای دارد: همه اهداف را میتوان با طراحی یک سیگنال عددی به نام پاداش و وادار کردن عامل به حداکثر رساندن کل مجموع پاداشهایی که دریافت میکند، به دست آورد.
محققان نمیدانند که آیا این ادعا واقعاً درست است یا خیر، زیرا تنوع گستردهای از اهداف ممکن وجود دارد. بنابراین، اغلب به عنوان فرضیه پاداش نامیده میشود.
گاهی اوقات انتخاب یک سیگنال پاداش مربوط به یک هدف آسان است. برای یک عامل شطرنجبازی، پاداش میتواند 1+ برای برد، 0 برای تساوی و 1- برای باخت باشد. مشخص نیست که چگونه یک سیگنال پاداش برای یک دستیار رباتیک خانگی مفید طراحی کنیم. با این وجود، فهرست برنامههایی که در آن محققان یادگیری تقویتی توانستهاند سیگنالهای پاداش خوبی طراحی کنند، در حال افزایش است.
یکی از موفقیتهای بزرگ یادگیری تقویتی در بازی تختهای Go بود. محققان فکر میکردند که Go برای ماشینها برای تسلط بسیار سختتر از شطرنج است. شرکت DeepMind، اکنون Google DeepMind، از یادگیری تقویتی برای ایجاد AlphaGo استفاده کرد. AlphaGo در یک بازی پنج مسابقهای در سال 2016، لی سدول، بازیکن برتر Go را شکست داد.
یک مثال جدیدتر استفاده از یادگیری تقویتی برای مفیدتر کردن چتباتهایی مانند ChatGPT است. یادگیری تقویتی همچنین برای بهبود قابلیتهای استدلال چتباتها استفاده میشود.
ریشههای یادگیری تقویتی
با این حال، هیچ یک از این موفقیتها را نمیشد در دهه 1980 پیشبینی کرد. این زمانی است که بارتو و دانشجوی دکتری آن زمانش، ساتن، یادگیری تقویتی را به عنوان یک چارچوب کلی حل مسئله پیشنهاد کردند. آنها نه تنها از روانشناسی حیوانات، بلکه از زمینه نظریه کنترل، استفاده از بازخورد برای تأثیرگذاری بر رفتار یک سیستم، و بهینهسازی، شاخهای از ریاضیات که به بررسی نحوه انتخاب بهترین گزینه از بین طیف وسیعی از گزینههای موجود میپردازد، الهام گرفتند. آنها مبانی ریاضی را در اختیار جامعه تحقیقاتی قرار دادند که در آزمون زمان مقاومت کردهاند. آنها همچنین الگوریتمهایی را ایجاد کردند که اکنون به ابزارهای استاندارد در این زمینه تبدیل شدهاند.
این یک مزیت نادر برای یک رشته است که پیشگامان وقت بگذارند و یک کتاب درسی بنویسند. نمونههای درخشانی مانند "ماهیت پیوند شیمیایی" توسط لینوس پاولینگ و "هنر برنامهنویسی کامپیوتر" توسط دونالد ای. نات به یاد ماندنی هستند زیرا معدود و انگشتشمار هستند. "یادگیری تقویتی: یک مقدمه" ساتن و بارتو برای اولین بار در سال 1998 منتشر شد. ویرایش دوم در سال 2018 منتشر شد. کتاب آنها بر یک نسل از محققان تأثیر گذاشته است و بیش از 75000 بار به آن استناد شده است.
یادگیری تقویتی همچنین تأثیر غیرمنتظرهای بر علوم اعصاب داشته است. انتقالدهنده عصبی دوپامین نقش کلیدی در رفتارهای ناشی از پاداش در انسانها و حیوانات ایفا میکند. محققان از الگوریتمهای خاصی که در یادگیری تقویتی توسعه یافتهاند برای توضیح یافتههای تجربی در سیستم دوپامین افراد و حیوانات استفاده کردهاند.
کار بنیادین بارتو و ساتن، بینش و حمایت از آنها به رشد یادگیری تقویتی کمک کرده است. کار آنها الهامبخش تعداد زیادی از تحقیقات بوده است، بر برنامههای کاربردی دنیای واقعی تأثیر گذاشته است و سرمایهگذاریهای هنگفتی را از سوی شرکتهای فناوری جذب کرده است. من مطمئن هستم که محققان یادگیری تقویتی با ایستادن بر شانههای آنها به دیدن دورتر ادامه خواهند داد.