آموزش یک سیستم هوش مصنوعی (AI) و آموزش یک سگ یک اصل اساسی مشترک دارند. Westend61 via Getty
                Images
آموزش یک سیستم هوش مصنوعی (AI) و آموزش یک سگ یک اصل اساسی مشترک دارند. Westend61 via Getty Images

یادگیری تقویتی چیست؟ محققی در زمینه هوش مصنوعی روشی کلیدی برای آموزش ماشین‌ها و ارتباط آن با آموزش سگ‌ها را توضیح می‌دهد

یک سگ رباتیک نشسته و به بیننده نگاه می کند
آموزش یک سیستم هوش مصنوعی (AI) و آموزش یک سگ یک اصل اساسی مشترک دارند. Westend61 via Getty Images

درک هوش و ایجاد ماشین‌های هوشمند از چالش‌های بزرگ علمی زمان ما است. توانایی یادگیری از تجربه یک سنگ بنای هوش برای ماشین‌ها و موجودات زنده به طور یکسان است.

در یک گزارش پیشگویانه قابل توجه در سال 1948، آلن تورینگ - پدر علم کامپیوتر مدرن - ساخت ماشین‌هایی را پیشنهاد کرد که رفتار هوشمندانه از خود نشان می‌دهند. او همچنین در مورد "آموزش" چنین ماشین‌هایی "از طریق پاداش و تنبیه" بحث کرد.

ایده‌های تورینگ در نهایت منجر به توسعه یادگیری تقویتی، شاخه‌ای از هوش مصنوعی شد. یادگیری تقویتی به طراحی عوامل هوشمند با آموزش آنها برای به حداکثر رساندن پاداش‌ها در حین تعامل با محیط خود می‌پردازد.

من به عنوان یک پژوهشگر یادگیری ماشین، متوجه شدم که پیشگامان یادگیری تقویتی، اندرو بارتو و ریچارد ساتن جایزه ACM Turing Award 2024 را دریافت کردند.

یادگیری تقویتی چیست؟

مربیان حیوانات می‌دانند که رفتار حیوانات را می‌توان با پاداش دادن به رفتارهای مطلوب تحت تأثیر قرار داد. یک مربی سگ زمانی که سگ یک ترفند را به درستی انجام می‌دهد، به او جایزه می‌دهد. این رفتار را تقویت می‌کند و احتمال اینکه سگ دفعه بعد ترفند را به درستی انجام دهد بیشتر می‌شود. یادگیری تقویتی این بینش را از روانشناسی حیوانات وام گرفته است.

اما یادگیری تقویتی در مورد آموزش عوامل محاسباتی است، نه حیوانات. عامل می‌تواند یک عامل نرم‌افزاری مانند یک برنامه شطرنج‌بازی باشد. اما عامل همچنین می‌تواند یک نهاد تجسم‌یافته مانند یک ربات باشد که یاد می‌گیرد کارهای خانه را انجام دهد. به طور مشابه، محیط یک عامل می‌تواند مجازی باشد، مانند صفحه شطرنج یا دنیای طراحی شده در یک بازی ویدیویی. اما همچنین می‌تواند خانه‌ای باشد که یک ربات در آن کار می‌کند.

درست مانند حیوانات، یک عامل می‌تواند جنبه‌هایی از محیط خود را درک کند و اقداماتی را انجام دهد. یک عامل شطرنج‌بازی می‌تواند به پیکربندی صفحه شطرنج دسترسی داشته باشد و حرکت‌هایی انجام دهد. یک ربات می‌تواند محیط اطراف خود را با دوربین و میکروفون حس کند. می‌تواند از موتورهای خود برای حرکت در دنیای فیزیکی استفاده کند.

عوامل همچنین اهدافی دارند که طراحان انسانی آنها را در آنها برنامه‌ریزی می‌کنند. هدف یک عامل شطرنج‌بازی برنده شدن در بازی است. هدف یک ربات ممکن است کمک به صاحب انسانی خود در انجام کارهای خانه باشد.

مسئله یادگیری تقویتی در هوش مصنوعی این است که چگونه عواملی را طراحی کنیم که با درک و عمل در محیط خود به اهداف خود دست یابند. یادگیری تقویتی ادعای جسورانه‌ای دارد: همه اهداف را می‌توان با طراحی یک سیگنال عددی به نام پاداش و وادار کردن عامل به حداکثر رساندن کل مجموع پاداش‌هایی که دریافت می‌کند، به دست آورد.

محققان نمی‌دانند که آیا این ادعا واقعاً درست است یا خیر، زیرا تنوع گسترده‌ای از اهداف ممکن وجود دارد. بنابراین، اغلب به عنوان فرضیه پاداش نامیده می‌شود.

گاهی اوقات انتخاب یک سیگنال پاداش مربوط به یک هدف آسان است. برای یک عامل شطرنج‌بازی، پاداش می‌تواند 1+ برای برد، 0 برای تساوی و 1- برای باخت باشد. مشخص نیست که چگونه یک سیگنال پاداش برای یک دستیار رباتیک خانگی مفید طراحی کنیم. با این وجود، فهرست برنامه‌هایی که در آن محققان یادگیری تقویتی توانسته‌اند سیگنال‌های پاداش خوبی طراحی کنند، در حال افزایش است.

یکی از موفقیت‌های بزرگ یادگیری تقویتی در بازی تخته‌ای Go بود. محققان فکر می‌کردند که Go برای ماشین‌ها برای تسلط بسیار سخت‌تر از شطرنج است. شرکت DeepMind، اکنون Google DeepMind، از یادگیری تقویتی برای ایجاد AlphaGo استفاده کرد. AlphaGo در یک بازی پنج مسابقه‌ای در سال 2016، لی سدول، بازیکن برتر Go را شکست داد.

یک مثال جدیدتر استفاده از یادگیری تقویتی برای مفیدتر کردن چت‌بات‌هایی مانند ChatGPT است. یادگیری تقویتی همچنین برای بهبود قابلیت‌های استدلال چت‌بات‌ها استفاده می‌شود.

ریشه‌های یادگیری تقویتی

با این حال، هیچ یک از این موفقیت‌ها را نمی‌شد در دهه 1980 پیش‌بینی کرد. این زمانی است که بارتو و دانشجوی دکتری آن زمانش، ساتن، یادگیری تقویتی را به عنوان یک چارچوب کلی حل مسئله پیشنهاد کردند. آنها نه تنها از روانشناسی حیوانات، بلکه از زمینه نظریه کنترل، استفاده از بازخورد برای تأثیرگذاری بر رفتار یک سیستم، و بهینه‌سازی، شاخه‌ای از ریاضیات که به بررسی نحوه انتخاب بهترین گزینه از بین طیف وسیعی از گزینه‌های موجود می‌پردازد، الهام گرفتند. آنها مبانی ریاضی را در اختیار جامعه تحقیقاتی قرار دادند که در آزمون زمان مقاومت کرده‌اند. آنها همچنین الگوریتم‌هایی را ایجاد کردند که اکنون به ابزارهای استاندارد در این زمینه تبدیل شده‌اند.

این یک مزیت نادر برای یک رشته است که پیشگامان وقت بگذارند و یک کتاب درسی بنویسند. نمونه‌های درخشانی مانند "ماهیت پیوند شیمیایی" توسط لینوس پاولینگ و "هنر برنامه‌نویسی کامپیوتر" توسط دونالد ای. نات به یاد ماندنی هستند زیرا معدود و انگشت‌شمار هستند. "یادگیری تقویتی: یک مقدمه" ساتن و بارتو برای اولین بار در سال 1998 منتشر شد. ویرایش دوم در سال 2018 منتشر شد. کتاب آنها بر یک نسل از محققان تأثیر گذاشته است و بیش از 75000 بار به آن استناد شده است.

یادگیری تقویتی همچنین تأثیر غیرمنتظره‌ای بر علوم اعصاب داشته است. انتقال‌دهنده عصبی دوپامین نقش کلیدی در رفتارهای ناشی از پاداش در انسان‌ها و حیوانات ایفا می‌کند. محققان از الگوریتم‌های خاصی که در یادگیری تقویتی توسعه یافته‌اند برای توضیح یافته‌های تجربی در سیستم دوپامین افراد و حیوانات استفاده کرده‌اند.

کار بنیادین بارتو و ساتن، بینش و حمایت از آنها به رشد یادگیری تقویتی کمک کرده است. کار آنها الهام‌بخش تعداد زیادی از تحقیقات بوده است، بر برنامه‌های کاربردی دنیای واقعی تأثیر گذاشته است و سرمایه‌گذاری‌های هنگفتی را از سوی شرکت‌های فناوری جذب کرده است. من مطمئن هستم که محققان یادگیری تقویتی با ایستادن بر شانه‌های آنها به دیدن دورتر ادامه خواهند داد.