worawit chutrakunwanit/Getty Images
worawit chutrakunwanit/Getty Images

واحد DeepMind گوگل می‌گوید هوش مصنوعی فراتر از دانش بشری رشد کرده است

رویکرد عاملی جدیدی به نام «جریان‌ها» به مدل‌های هوش مصنوعی اجازه می‌دهد تا از تجربه محیط بدون «پیش‌داوری انسانی بیاموزند.

دنیای هوش مصنوعی (Artificial Intelligence یا AI) اخیراً مشغول پیشبرد هوش مصنوعی مولد فراتر از آزمایش‌های ساده‌ای بوده است که مدل‌های هوش مصنوعی به راحتی از آن عبور می‌کنند. آزمون مشهور تورینگ به نوعی «شکست خورده» است، و بحث و جدال بر سر این که آیا جدیدترین مدل‌ها برای تقلب در آزمون‌های معیار که عملکرد را اندازه‌گیری می‌کنند، ساخته می‌شوند یا خیر، بالا گرفته است.

به گفته محققان واحد DeepMind گوگل، مشکل نه در خود آزمون‌ها، بلکه در روش محدود توسعه مدل‌های هوش مصنوعی است. داده‌هایی که برای آموزش هوش مصنوعی استفاده می‌شوند بسیار محدود و ایستا هستند و هرگز هوش مصنوعی را به توانایی‌های جدید و بهتری نخواهند رساند.

در مقاله‌ای که هفته گذشته توسط DeepMind منتشر شد، که بخشی از کتاب آینده‌ای از انتشارات MIT Press است، محققان پیشنهاد می‌کنند که هوش مصنوعی باید اجازه داشته باشد تا نوعی «تجربه» داشته باشد، با جهان تعامل داشته باشد تا اهدافی را بر اساس سیگنال‌های دریافتی از محیط فرموله کند.

دیوید سیلور و ریچارد ساتون، محققان DeepMind، در این مقاله با عنوان «به عصر تجربه خوش آمدید» (Welcome to the Era of Experience) می‌نویسند: «هنگامی که پتانسیل کامل یادگیری تجربی مهار شود، قابلیت‌های جدید باورنکردنی به وجود خواهند آمد.»

این دو محقق از بزرگان این حوزه هستند. سیلور بیشتر به دلیل رهبری تحقیقاتی که منجر به AlphaZero، مدل هوش مصنوعی DeepMind که انسان‌ها را در بازی‌های شطرنج و Go شکست داد، مشهور است. ساتون یکی از دو توسعه‌دهنده برنده جایزه تورینگ رویکرد هوش مصنوعی به نام یادگیری تقویتی (Reinforcement Learning) است که سیلور و تیمش از آن برای ایجاد AlphaZero استفاده کردند.

رویکردی که این دو محقق از آن حمایت می‌کنند، بر پایه یادگیری تقویتی و درس‌های AlphaZero استوار است. این رویکرد «جریان‌ها» (Streams) نامیده می‌شود و هدف آن رفع کاستی‌های مدل‌های زبانی بزرگ (Large Language Models یا LLMs) امروزی است که صرفاً برای پاسخ به سؤالات فردی انسان توسعه یافته‌اند.

سیلور و ساتون پیشنهاد می‌کنند که مدت کوتاهی پس از ظهور ناگهانی AlphaZero و پیشین آن، AlphaGo، ابزارهای هوش مصنوعی مولد، مانند ChatGPT، روی صحنه آمدند و یادگیری تقویتی را «دور انداختند». این حرکت هم مزایا و هم معایبی داشت.

هوش مصنوعی مولد پیشرفت مهمی بود زیرا استفاده AlphaZero از یادگیری تقویتی محدود به کاربردهای محدودی بود. این فناوری نمی‌توانست فراتر از بازی‌های «اطلاعات کامل»، مانند شطرنج، که در آن همه قوانین مشخص هستند، برود.

از سوی دیگر، مدل‌های هوش مصنوعی مولد می‌توانند ورودی‌های خودبه‌خودی از انسان‌ها را که قبلاً هرگز با آن مواجه نشده‌اند، بدون قوانین صریح در مورد چگونگی به نتیجه رسیدن امور، مدیریت کنند.

با این حال، دور انداختن یادگیری تقویتی به این معنی بود که «چیزی در این انتقال از دست رفت: توانایی یک عامل برای خود-کشف دانش خود»، آن‌ها می‌نویسند.

در عوض، آن‌ها مشاهده می‌کنند که LLMها «[متکی] بر پیش‌داوری انسانی» یا آنچه انسان در مرحله درخواست می‌خواهد، هستند. این رویکرد بسیار محدود است. آن‌ها پیشنهاد می‌کنند که قضاوت انسانی «یک سقف غیرقابل نفوذ بر عملکرد عامل تحمیل می‌کند: عامل نمی‌تواند استراتژی‌های بهتری را که توسط ارزیاب انسانی دست کم گرفته شده‌اند، کشف کند.»

نه تنها قضاوت انسانی یک مانع است، بلکه ماهیت کوتاه و مختصر تعاملات درخواستی هرگز به مدل هوش مصنوعی اجازه نمی‌دهد تا فراتر از پرسش و پاسخ پیشرفت کند.

محققان می‌نویسند: «در عصر داده‌های انسانی، هوش مصنوعی مبتنی بر زبان عمدتاً بر قسمت‌های کوتاه تعامل متمرکز شده است: به عنوان مثال، یک کاربر سؤالی می‌پرسد و (شاید پس از چند مرحله تفکر یا اقدامات استفاده از ابزار) عامل پاسخ می‌دهد.»

«هدف عامل منحصراً دستیابی به نتایج در قسمت فعلی است، مانند پاسخ مستقیم به سؤال کاربر.»

هیچ حافظه‌ای وجود ندارد، هیچ پیوستگی بین قطعه‌های تعامل در درخواست وجود ندارد. سیلور و ساتون می‌نویسند: «به طور معمول، اطلاعات کمی از یک قسمت به قسمت دیگر منتقل می‌شود و از هرگونه انطباق در طول زمان جلوگیری می‌کند.»

با این حال، در عصر پیشنهادی آن‌ها، «عامل‌ها به جای قطعه‌های کوتاه تعامل، در جریان‌هایی از تجربه زندگی خواهند کرد.»

سیلور و ساتون بین جریان‌ها و انسان‌هایی که در طول یک عمر تجربه انباشته شده یاد می‌گیرند، و نحوه عمل آن‌ها بر اساس اهداف بلندمدت، نه فقط وظیفه فوری، قیاس می‌کنند.

آن‌ها می‌نویسند: «عامل‌های قدرتمند باید جریان تجربه خود را داشته باشند که مانند انسان‌ها در یک مقیاس زمانی طولانی پیش می‌رود.»

سیلور و ساتون استدلال می‌کنند که «فناوری امروزی» برای شروع ساخت جریان‌ها کافی است. در واقع، مراحل اولیه در این راه را می‌توان در پیشرفت‌هایی مانند عامل‌های هوش مصنوعی مرورگر وب، از جمله تحقیقات عمیق OpenAI مشاهده کرد.

آن‌ها می‌نویسند: «اخیراً، موج جدیدی از عامل‌های نمونه اولیه شروع به تعامل با رایانه‌ها به روشی کلی‌تر کرده‌اند، با استفاده از همان رابطی که انسان‌ها برای کار با رایانه استفاده می‌کنند.»

عامل مرورگر «انتقال از ارتباط منحصراً ممتاز انسانی به تعاملات بسیار مستقل‌تر که در آن عامل قادر به عمل مستقل در جهان است» را نشان می‌دهد.

سیلور و ساتون پیشنهاد می‌کنند، همانطور که عامل‌های هوش مصنوعی فراتر از مرور وب حرکت می‌کنند، به راهی برای تعامل و یادگیری از جهان نیاز دارند.

آن‌ها پیشنهاد می‌کنند که عامل‌های هوش مصنوعی در جریان‌ها از طریق همان اصل یادگیری تقویتی AlphaZero یاد خواهند گرفت. به ماشین یک مدل از جهان داده می‌شود که در آن تعامل می‌کند، شبیه یک صفحه شطرنج، و مجموعه‌ای از قوانین.

همانطور که عامل هوش مصنوعی به کاوش می‌پردازد و اقداماتی انجام می‌دهد، بازخوردی را به عنوان «پاداش» دریافت می‌کند. این پاداش‌ها مدل هوش مصنوعی را در مورد اینکه چه چیزی در بین اقدامات ممکن در یک شرایط معین کم و بیش ارزشمند است، آموزش می‌دهند.

سیلور و ساتون پیشنهاد می‌کنند، اگر به عامل اجازه داده شود به دنبال آن بگردد، جهان پر از «سیگنال‌های» مختلف است که این پاداش‌ها را ارائه می‌دهند.

«اگر نه از داده‌های انسانی، پاداش‌ها از کجا می‌آیند؟ هنگامی که عامل‌ها از طریق فضاهای عملی و مشاهده‌ای غنی به جهان متصل شوند، کمبودی در سیگنال‌های زمینی برای فراهم کردن مبنایی برای پاداش وجود نخواهد داشت. در واقع، جهان مملو از مقادیری مانند هزینه، نرخ خطا، گرسنگی، بهره‌وری، معیارهای سلامت، معیارهای آب و هوا، سود، فروش، نتایج امتحان، موفقیت، بازدید، عملکرد، سهام، لایک، درآمد، لذت/درد، شاخص‌های اقتصادی، دقت، قدرت، فاصله، سرعت، کارایی یا مصرف انرژی است. علاوه بر این، سیگنال‌های بی‌شماری دیگری ناشی از وقوع رویدادهای خاص یا از ویژگی‌های مشتق‌شده از توالی‌های خام مشاهدات و اقدامات وجود دارد.»

برای شروع عامل هوش مصنوعی از یک مبنا، توسعه‌دهندگان هوش مصنوعی ممکن است از یک شبیه‌سازی «مدل جهانی» استفاده کنند. مدل جهانی به یک مدل هوش مصنوعی اجازه می‌دهد تا پیش‌بینی‌هایی انجام دهد، آن پیش‌بینی‌ها را در دنیای واقعی آزمایش کند و سپس از سیگنال‌های پاداش برای واقعی‌تر کردن مدل استفاده کند.

آن‌ها می‌نویسند: «همانطور که عامل به تعامل با جهان در طول جریان تجربه خود ادامه می‌دهد، مدل دینامیک آن به طور مداوم به روز می‌شود تا هر گونه خطایی را در پیش‌بینی‌های خود تصحیح کند.»

سیلور و ساتون هنوز انتظار دارند که انسان‌ها نقشی در تعریف اهداف داشته باشند، که برای آن سیگنال‌ها و پاداش‌ها برای هدایت عامل خدمت می‌کنند. به عنوان مثال، یک کاربر ممکن است یک هدف کلی مانند «بهبود تناسب اندام من» را مشخص کند، و تابع پاداش ممکن است تابعی از ضربان قلب، مدت خواب و قدم‌های برداشته شده کاربر را برگرداند. یا کاربر ممکن است هدف «به من در یادگیری زبان اسپانیایی کمک کن» را مشخص کند، و تابع پاداش می‌تواند نتایج امتحان اسپانیایی کاربر را برگرداند.

بازخورد انسان به «هدف سطح بالا» تبدیل می‌شود که همه چیز در خدمت آن است.

محققان می‌نویسند که عامل‌های هوش مصنوعی با آن قابلیت‌های بلندمدت به عنوان دستیارهای هوش مصنوعی بهتر خواهند بود. آن‌ها می‌توانند خواب و رژیم غذایی یک فرد را در طول ماه‌ها یا سال‌ها پیگیری کنند و توصیه‌های بهداشتی ارائه دهند که محدود به روندهای اخیر نباشد. چنین عامل‌هایی همچنین می‌توانند دستیارهای آموزشی باشند که دانش‌آموزان را در یک بازه زمانی طولانی پیگیری می‌کنند.

آن‌ها پیشنهاد می‌کنند: «یک عامل علمی می‌تواند اهداف بلندپروازانه‌ای مانند کشف یک ماده جدید یا کاهش دی اکسید کربن را دنبال کند.» «چنین عاملی می‌تواند مشاهدات دنیای واقعی را در یک دوره طولانی تجزیه و تحلیل کند، شبیه‌سازی‌هایی را توسعه داده و اجرا کند و آزمایش‌ها یا مداخلات دنیای واقعی را پیشنهاد دهد.»

محققان پیشنهاد می‌کنند که ورود مدل‌های هوش مصنوعی «متفکر» یا «استدلالی»، مانند Gemini، R1 DeepSeek و o1 OpenAI، ممکن است توسط عامل‌های تجربی پیشی گرفته شود. مشکل عامل‌های استدلالی این است که وقتی خروجی پرمحتوایی درباره مراحل رسیدن به یک پاسخ تولید می‌کنند، از زبان انسانی «تقلید» می‌کنند، و تفکر انسانی می‌تواند با فرضیات تعبیه‌شده خود محدود شود.

آن‌ها پیشنهاد می‌کنند: «به عنوان مثال، اگر یک عامل برای استدلال با استفاده از افکار انسانی و پاسخ‌های متخصصان از 5000 سال پیش آموزش دیده بود، ممکن است در مورد یک مسئله فیزیکی از نظر زنده‌انگاری استدلال کرده باشد.» «1000 سال پیش، ممکن است از نظر الهی استدلال کرده باشد. 300 سال پیش، ممکن است از نظر مکانیک نیوتنی استدلال کرده باشد. و 50 سال پیش، از نظر مکانیک کوانتومی.»

محققان می‌نویسند که چنین عامل‌هایی «قابلیت‌های بی‌سابقه‌ای را باز خواهند کرد» و منجر به «آینده‌ای عمیقاً متفاوت از هر آنچه که قبلاً دیده‌ایم» می‌شوند.

با این حال، آن‌ها پیشنهاد می‌کنند که خطرات بسیار، بسیار زیادی نیز وجود دارد. این خطرات فقط بر روی عامل‌های هوش مصنوعی متمرکز نیستند که کار انسانی را منسوخ می‌کنند، اگرچه آن‌ها خاطرنشان می‌کنند که از دست دادن شغل یک خطر است. آن‌ها می‌نویسند، عامل‌هایی که «می‌توانند به طور مستقل با جهان در دوره‌های طولانی برای دستیابی به اهداف بلندمدت تعامل داشته باشند»، چشم‌انداز فرصت‌های کمتری برای انسان‌ها برای «مداخله و میانجیگری در اقدامات عامل» را افزایش می‌دهند.

آن‌ها پیشنهاد می‌کنند، از جنبه مثبت، عاملی که می‌تواند سازگار شود، بر خلاف مدل‌های هوش مصنوعی ثابت امروزی، «می‌تواند تشخیص دهد که چه زمانی رفتار آن باعث نگرانی، نارضایتی یا پریشانی انسان می‌شود و به طور سازگارانه رفتار خود را برای اجتناب از این پیامدهای منفی تعدیل کند.»

سیلور و ساتون با کنار گذاشتن جزئیات، اطمینان دارند که تجربه جریان‌ها اطلاعات بسیار بیشتری در مورد جهان تولید می‌کند که همه داده‌های ویکی‌پدیا و Reddit را که برای آموزش هوش مصنوعی امروزی استفاده می‌شود، تحت الشعاع قرار خواهد داد. عامل‌های مبتنی بر جریان ممکن است حتی از هوش انسانی فراتر بروند و به ورود هوش مصنوعی عمومی یا فوق هوش اشاره کنند.

محققان می‌نویسند: «داده‌های تجربی مقیاس و کیفیت داده‌های تولید شده توسط انسان را تحت الشعاع قرار خواهند داد.» «این تغییر پارادایم، همراه با پیشرفت‌های الگوریتمی در RL [یادگیری تقویتی]، در بسیاری از حوزه‌ها قابلیت‌های جدیدی را باز خواهد کرد که از قابلیت‌های possessed by any human پیشی می‌گیرند.»

سیلور همچنین این موضوع را در یک پادکست DeepMind در این ماه بررسی کرد.