گروهی متشکل از سه پژوهشگر هوش مصنوعی در گوگل دیپمایند (Google DeepMind) گوگل، با همکاری یکی از همکارانشان از دانشگاه تورنتو، گزارش میدهند که الگوریتم هوش مصنوعی Dreamer میتواند با تسلط بر بازی ماینکرفت در مدت زمان کوتاه، یاد بگیرد که چگونه خود را بهبود بخشد. آنها در مطالعهشان که در مجله Nature منتشر شده است، نشان دادند که Danijar Hafner، Jurgis Pasukonis، Timothy Lillicrap و Jimmy Ba این برنامه هوش مصنوعی را طوری برنامهریزی کردند که بدون آموزش قبلی، بازی ماینکرفت را انجام دهد و تنها در ۹ روز به سطح حرفهای برسد.
در طول چندین سال گذشته، دانشمندان علوم کامپیوتر چیزهای زیادی در مورد چگونگی استفاده از یادگیری عمیق (deep learning) برای آموزش برنامههای هوش مصنوعی جهت انجام فعالیتهای به ظاهر هوشمندانه مانند پاسخ دادن به سوالات، آموختهاند. پژوهشگران همچنین دریافتهاند که برنامههای هوش مصنوعی را میتوان برای انجام بازیها آموزش داد تا عملکردی بهتر از انسانها داشته باشند. این تحقیق به حوزه انجام بازیهای ویدیویی نیز گسترش یافته است؛ حوزهای که ممکن است در ابتدا زائد به نظر برسد، چرا که چه دستاوردی میتوان از تماشای بازی یک کامپیوتر در برابر کامپیوتر دیگر انتظار داشت؟
در این مطالعه جدید، پژوهشگران دریافتند که این کار میتواند پیشرفتهای مهمی را به همراه داشته باشد، مانند کمک به یک برنامه هوش مصنوعی برای یادگیری و بهبود تواناییهای خود در یک دوره زمانی کوتاه. این قابلیت میتواند ابزارهای لازم برای عملکرد مؤثر رباتها در دنیای واقعی را فراهم کند.
در این پژوهش، محققان Dreamer را برای انجام بازی ویدیویی محبوب ماینکرفت برنامهریزی کردند. این کار از طریق ایجاد یک سیستم پاداش انجام شد که بهطور مشخص برای یافتن الماس طراحی شده بود. با این رویکرد، برنامه نیازی به آموزش مستقیم نحوه انجام بازی نداشت؛ تنها کافی بود پارامترهایی را که میتوانست در چارچوب آنها عمل کند، بشناسد. یکی از این پارامترها، قابلیت تصور یک دنیای مجازی در آینده بود.
پس از آنکه الگوریتم نحوه بازی ماینکرفت را آموخت، پژوهشگران یک محدودیت جدید به آن افزودند: به الگوریتم فقط اجازه داده شد تحت هر سناریوی مشخص، به مدت ۳۰ دقیقه بازی کند. پس از این زمان، بازی با یک جهان مجازی کاملاً جدید مجدداً آغاز میشد. با استفاده از این روش، پژوهشگران مشاهده کردند که الگوریتم به سرعت پیشرفت کرد و تنها پس از ۹ روز بازی کردن، به سطح مهارت حرفهای دست یافت.
پژوهشگران خاطرنشان میکنند که سرعت یادگیری این الگوریتم بسیار چشمگیر است و نشاندهنده پیشرفت مهمی در زمینه توسعه هوش مصنوعی است. آنها معتقدند که چنین سیستمی میتواند به طور بالقوه به رباتها در یادگیری سریع وظایف در دنیای واقعی کمک کند، بدون آنکه نیاز به ساعتها آموزش از سوی انسان باشد.
در نتیجهگیری، گروه پژوهشی پیشنهاد میکند که یافتههای آنها نشان میدهد که میتوان یک برنامه هوش مصنوعی ساخت که قادر به یادگیری خودبهخودی از طریق تجربه باشد، حتی در یک محیط پیچیده مانند ماینکرفت، و این کار را در بازه زمانی بسیار کوتاهی انجام دهد.
اطلاعات بیشتر: Danijar Hafner و همکاران، یادگیری برای بهبود در طول عمر عامل، Nature (2025). DOI: 10.1038/s41586-025-08744-2
اطلاعات مجله: Nature
ارائه شده توسط Tech Xplore