دنیای هوش مصنوعی (Artificial Intelligence یا AI) اخیراً مشغول پیشبرد هوش مصنوعی مولد فراتر از آزمایشهای سادهای بوده است که مدلهای هوش مصنوعی به راحتی از آن عبور میکنند. آزمون مشهور تورینگ به نوعی «شکست خورده» است، و بحث و جدال بر سر این که آیا جدیدترین مدلها برای تقلب در آزمونهای معیار که عملکرد را اندازهگیری میکنند، ساخته میشوند یا خیر، بالا گرفته است.
به گفته محققان واحد DeepMind گوگل، مشکل نه در خود آزمونها، بلکه در روش محدود توسعه مدلهای هوش مصنوعی است. دادههایی که برای آموزش هوش مصنوعی استفاده میشوند بسیار محدود و ایستا هستند و هرگز هوش مصنوعی را به تواناییهای جدید و بهتری نخواهند رساند.
در مقالهای که هفته گذشته توسط DeepMind منتشر شد، که بخشی از کتاب آیندهای از انتشارات MIT Press است، محققان پیشنهاد میکنند که هوش مصنوعی باید اجازه داشته باشد تا نوعی «تجربه» داشته باشد، با جهان تعامل داشته باشد تا اهدافی را بر اساس سیگنالهای دریافتی از محیط فرموله کند.
دیوید سیلور و ریچارد ساتون، محققان DeepMind، در این مقاله با عنوان «به عصر تجربه خوش آمدید» (Welcome to the Era of Experience) مینویسند: «هنگامی که پتانسیل کامل یادگیری تجربی مهار شود، قابلیتهای جدید باورنکردنی به وجود خواهند آمد.»
این دو محقق از بزرگان این حوزه هستند. سیلور بیشتر به دلیل رهبری تحقیقاتی که منجر به AlphaZero، مدل هوش مصنوعی DeepMind که انسانها را در بازیهای شطرنج و Go شکست داد، مشهور است. ساتون یکی از دو توسعهدهنده برنده جایزه تورینگ رویکرد هوش مصنوعی به نام یادگیری تقویتی (Reinforcement Learning) است که سیلور و تیمش از آن برای ایجاد AlphaZero استفاده کردند.
رویکردی که این دو محقق از آن حمایت میکنند، بر پایه یادگیری تقویتی و درسهای AlphaZero استوار است. این رویکرد «جریانها» (Streams) نامیده میشود و هدف آن رفع کاستیهای مدلهای زبانی بزرگ (Large Language Models یا LLMs) امروزی است که صرفاً برای پاسخ به سؤالات فردی انسان توسعه یافتهاند.
سیلور و ساتون پیشنهاد میکنند که مدت کوتاهی پس از ظهور ناگهانی AlphaZero و پیشین آن، AlphaGo، ابزارهای هوش مصنوعی مولد، مانند ChatGPT، روی صحنه آمدند و یادگیری تقویتی را «دور انداختند». این حرکت هم مزایا و هم معایبی داشت.
هوش مصنوعی مولد پیشرفت مهمی بود زیرا استفاده AlphaZero از یادگیری تقویتی محدود به کاربردهای محدودی بود. این فناوری نمیتوانست فراتر از بازیهای «اطلاعات کامل»، مانند شطرنج، که در آن همه قوانین مشخص هستند، برود.
از سوی دیگر، مدلهای هوش مصنوعی مولد میتوانند ورودیهای خودبهخودی از انسانها را که قبلاً هرگز با آن مواجه نشدهاند، بدون قوانین صریح در مورد چگونگی به نتیجه رسیدن امور، مدیریت کنند.
با این حال، دور انداختن یادگیری تقویتی به این معنی بود که «چیزی در این انتقال از دست رفت: توانایی یک عامل برای خود-کشف دانش خود»، آنها مینویسند.
در عوض، آنها مشاهده میکنند که LLMها «[متکی] بر پیشداوری انسانی» یا آنچه انسان در مرحله درخواست میخواهد، هستند. این رویکرد بسیار محدود است. آنها پیشنهاد میکنند که قضاوت انسانی «یک سقف غیرقابل نفوذ بر عملکرد عامل تحمیل میکند: عامل نمیتواند استراتژیهای بهتری را که توسط ارزیاب انسانی دست کم گرفته شدهاند، کشف کند.»
نه تنها قضاوت انسانی یک مانع است، بلکه ماهیت کوتاه و مختصر تعاملات درخواستی هرگز به مدل هوش مصنوعی اجازه نمیدهد تا فراتر از پرسش و پاسخ پیشرفت کند.
محققان مینویسند: «در عصر دادههای انسانی، هوش مصنوعی مبتنی بر زبان عمدتاً بر قسمتهای کوتاه تعامل متمرکز شده است: به عنوان مثال، یک کاربر سؤالی میپرسد و (شاید پس از چند مرحله تفکر یا اقدامات استفاده از ابزار) عامل پاسخ میدهد.»
«هدف عامل منحصراً دستیابی به نتایج در قسمت فعلی است، مانند پاسخ مستقیم به سؤال کاربر.»
هیچ حافظهای وجود ندارد، هیچ پیوستگی بین قطعههای تعامل در درخواست وجود ندارد. سیلور و ساتون مینویسند: «به طور معمول، اطلاعات کمی از یک قسمت به قسمت دیگر منتقل میشود و از هرگونه انطباق در طول زمان جلوگیری میکند.»
با این حال، در عصر پیشنهادی آنها، «عاملها به جای قطعههای کوتاه تعامل، در جریانهایی از تجربه زندگی خواهند کرد.»
سیلور و ساتون بین جریانها و انسانهایی که در طول یک عمر تجربه انباشته شده یاد میگیرند، و نحوه عمل آنها بر اساس اهداف بلندمدت، نه فقط وظیفه فوری، قیاس میکنند.
آنها مینویسند: «عاملهای قدرتمند باید جریان تجربه خود را داشته باشند که مانند انسانها در یک مقیاس زمانی طولانی پیش میرود.»
سیلور و ساتون استدلال میکنند که «فناوری امروزی» برای شروع ساخت جریانها کافی است. در واقع، مراحل اولیه در این راه را میتوان در پیشرفتهایی مانند عاملهای هوش مصنوعی مرورگر وب، از جمله تحقیقات عمیق OpenAI مشاهده کرد.
آنها مینویسند: «اخیراً، موج جدیدی از عاملهای نمونه اولیه شروع به تعامل با رایانهها به روشی کلیتر کردهاند، با استفاده از همان رابطی که انسانها برای کار با رایانه استفاده میکنند.»
عامل مرورگر «انتقال از ارتباط منحصراً ممتاز انسانی به تعاملات بسیار مستقلتر که در آن عامل قادر به عمل مستقل در جهان است» را نشان میدهد.
سیلور و ساتون پیشنهاد میکنند، همانطور که عاملهای هوش مصنوعی فراتر از مرور وب حرکت میکنند، به راهی برای تعامل و یادگیری از جهان نیاز دارند.
آنها پیشنهاد میکنند که عاملهای هوش مصنوعی در جریانها از طریق همان اصل یادگیری تقویتی AlphaZero یاد خواهند گرفت. به ماشین یک مدل از جهان داده میشود که در آن تعامل میکند، شبیه یک صفحه شطرنج، و مجموعهای از قوانین.
همانطور که عامل هوش مصنوعی به کاوش میپردازد و اقداماتی انجام میدهد، بازخوردی را به عنوان «پاداش» دریافت میکند. این پاداشها مدل هوش مصنوعی را در مورد اینکه چه چیزی در بین اقدامات ممکن در یک شرایط معین کم و بیش ارزشمند است، آموزش میدهند.
سیلور و ساتون پیشنهاد میکنند، اگر به عامل اجازه داده شود به دنبال آن بگردد، جهان پر از «سیگنالهای» مختلف است که این پاداشها را ارائه میدهند.
«اگر نه از دادههای انسانی، پاداشها از کجا میآیند؟ هنگامی که عاملها از طریق فضاهای عملی و مشاهدهای غنی به جهان متصل شوند، کمبودی در سیگنالهای زمینی برای فراهم کردن مبنایی برای پاداش وجود نخواهد داشت. در واقع، جهان مملو از مقادیری مانند هزینه، نرخ خطا، گرسنگی، بهرهوری، معیارهای سلامت، معیارهای آب و هوا، سود، فروش، نتایج امتحان، موفقیت، بازدید، عملکرد، سهام، لایک، درآمد، لذت/درد، شاخصهای اقتصادی، دقت، قدرت، فاصله، سرعت، کارایی یا مصرف انرژی است. علاوه بر این، سیگنالهای بیشماری دیگری ناشی از وقوع رویدادهای خاص یا از ویژگیهای مشتقشده از توالیهای خام مشاهدات و اقدامات وجود دارد.»
برای شروع عامل هوش مصنوعی از یک مبنا، توسعهدهندگان هوش مصنوعی ممکن است از یک شبیهسازی «مدل جهانی» استفاده کنند. مدل جهانی به یک مدل هوش مصنوعی اجازه میدهد تا پیشبینیهایی انجام دهد، آن پیشبینیها را در دنیای واقعی آزمایش کند و سپس از سیگنالهای پاداش برای واقعیتر کردن مدل استفاده کند.
آنها مینویسند: «همانطور که عامل به تعامل با جهان در طول جریان تجربه خود ادامه میدهد، مدل دینامیک آن به طور مداوم به روز میشود تا هر گونه خطایی را در پیشبینیهای خود تصحیح کند.»
سیلور و ساتون هنوز انتظار دارند که انسانها نقشی در تعریف اهداف داشته باشند، که برای آن سیگنالها و پاداشها برای هدایت عامل خدمت میکنند. به عنوان مثال، یک کاربر ممکن است یک هدف کلی مانند «بهبود تناسب اندام من» را مشخص کند، و تابع پاداش ممکن است تابعی از ضربان قلب، مدت خواب و قدمهای برداشته شده کاربر را برگرداند. یا کاربر ممکن است هدف «به من در یادگیری زبان اسپانیایی کمک کن» را مشخص کند، و تابع پاداش میتواند نتایج امتحان اسپانیایی کاربر را برگرداند.
بازخورد انسان به «هدف سطح بالا» تبدیل میشود که همه چیز در خدمت آن است.
محققان مینویسند که عاملهای هوش مصنوعی با آن قابلیتهای بلندمدت به عنوان دستیارهای هوش مصنوعی بهتر خواهند بود. آنها میتوانند خواب و رژیم غذایی یک فرد را در طول ماهها یا سالها پیگیری کنند و توصیههای بهداشتی ارائه دهند که محدود به روندهای اخیر نباشد. چنین عاملهایی همچنین میتوانند دستیارهای آموزشی باشند که دانشآموزان را در یک بازه زمانی طولانی پیگیری میکنند.
آنها پیشنهاد میکنند: «یک عامل علمی میتواند اهداف بلندپروازانهای مانند کشف یک ماده جدید یا کاهش دی اکسید کربن را دنبال کند.» «چنین عاملی میتواند مشاهدات دنیای واقعی را در یک دوره طولانی تجزیه و تحلیل کند، شبیهسازیهایی را توسعه داده و اجرا کند و آزمایشها یا مداخلات دنیای واقعی را پیشنهاد دهد.»
محققان پیشنهاد میکنند که ورود مدلهای هوش مصنوعی «متفکر» یا «استدلالی»، مانند Gemini، R1 DeepSeek و o1 OpenAI، ممکن است توسط عاملهای تجربی پیشی گرفته شود. مشکل عاملهای استدلالی این است که وقتی خروجی پرمحتوایی درباره مراحل رسیدن به یک پاسخ تولید میکنند، از زبان انسانی «تقلید» میکنند، و تفکر انسانی میتواند با فرضیات تعبیهشده خود محدود شود.
آنها پیشنهاد میکنند: «به عنوان مثال، اگر یک عامل برای استدلال با استفاده از افکار انسانی و پاسخهای متخصصان از 5000 سال پیش آموزش دیده بود، ممکن است در مورد یک مسئله فیزیکی از نظر زندهانگاری استدلال کرده باشد.» «1000 سال پیش، ممکن است از نظر الهی استدلال کرده باشد. 300 سال پیش، ممکن است از نظر مکانیک نیوتنی استدلال کرده باشد. و 50 سال پیش، از نظر مکانیک کوانتومی.»
محققان مینویسند که چنین عاملهایی «قابلیتهای بیسابقهای را باز خواهند کرد» و منجر به «آیندهای عمیقاً متفاوت از هر آنچه که قبلاً دیدهایم» میشوند.
با این حال، آنها پیشنهاد میکنند که خطرات بسیار، بسیار زیادی نیز وجود دارد. این خطرات فقط بر روی عاملهای هوش مصنوعی متمرکز نیستند که کار انسانی را منسوخ میکنند، اگرچه آنها خاطرنشان میکنند که از دست دادن شغل یک خطر است. آنها مینویسند، عاملهایی که «میتوانند به طور مستقل با جهان در دورههای طولانی برای دستیابی به اهداف بلندمدت تعامل داشته باشند»، چشمانداز فرصتهای کمتری برای انسانها برای «مداخله و میانجیگری در اقدامات عامل» را افزایش میدهند.
آنها پیشنهاد میکنند، از جنبه مثبت، عاملی که میتواند سازگار شود، بر خلاف مدلهای هوش مصنوعی ثابت امروزی، «میتواند تشخیص دهد که چه زمانی رفتار آن باعث نگرانی، نارضایتی یا پریشانی انسان میشود و به طور سازگارانه رفتار خود را برای اجتناب از این پیامدهای منفی تعدیل کند.»
سیلور و ساتون با کنار گذاشتن جزئیات، اطمینان دارند که تجربه جریانها اطلاعات بسیار بیشتری در مورد جهان تولید میکند که همه دادههای ویکیپدیا و Reddit را که برای آموزش هوش مصنوعی امروزی استفاده میشود، تحت الشعاع قرار خواهد داد. عاملهای مبتنی بر جریان ممکن است حتی از هوش انسانی فراتر بروند و به ورود هوش مصنوعی عمومی یا فوق هوش اشاره کنند.
محققان مینویسند: «دادههای تجربی مقیاس و کیفیت دادههای تولید شده توسط انسان را تحت الشعاع قرار خواهند داد.» «این تغییر پارادایم، همراه با پیشرفتهای الگوریتمی در RL [یادگیری تقویتی]، در بسیاری از حوزهها قابلیتهای جدیدی را باز خواهد کرد که از قابلیتهای possessed by any human پیشی میگیرند.»
سیلور همچنین این موضوع را در یک پادکست DeepMind در این ماه بررسی کرد.