فرآیند آموزش Dreamer. اعتبار: Nature (2025). DOI: 10.1038/s41586-025-08744-2
فرآیند آموزش Dreamer. اعتبار: Nature (2025). DOI: 10.1038/s41586-025-08744-2

هوش مصنوعی Dreamer گوگل با تسلط بر ماینکرفت، خودبهبودی را می‌آموزد

گروهی متشکل از سه پژوهشگر هوش مصنوعی در گوگل دیپ‌مایند (Google DeepMind) گوگل، با همکاری یکی از همکارانشان از دانشگاه تورنتو، گزارش می‌دهند که الگوریتم هوش مصنوعی Dreamer می‌تواند با تسلط بر بازی ماینکرفت در مدت زمان کوتاه، یاد بگیرد که چگونه خود را بهبود بخشد. آن‌ها در مطالعه‌شان که در مجله Nature منتشر شده است، نشان دادند که Danijar Hafner، Jurgis Pasukonis، Timothy Lillicrap و Jimmy Ba این برنامه هوش مصنوعی را طوری برنامه‌ریزی کردند که بدون آموزش قبلی، بازی ماینکرفت را انجام دهد و تنها در ۹ روز به سطح حرفه‌ای برسد.

در طول چندین سال گذشته، دانشمندان علوم کامپیوتر چیزهای زیادی در مورد چگونگی استفاده از (deep learning) برای آموزش برنامه‌های هوش مصنوعی جهت انجام فعالیت‌های به ظاهر هوشمندانه مانند پاسخ دادن به سوالات، آموخته‌اند. پژوهشگران همچنین دریافته‌اند که برنامه‌های هوش مصنوعی را می‌توان برای انجام بازی‌ها آموزش داد تا عملکردی بهتر از انسان‌ها داشته باشند. این تحقیق به حوزه نیز گسترش یافته است؛ حوزه‌ای که ممکن است در ابتدا زائد به نظر برسد، چرا که چه دستاوردی می‌توان از تماشای بازی یک کامپیوتر در برابر کامپیوتر دیگر انتظار داشت؟

در این مطالعه جدید، پژوهشگران دریافتند که این کار می‌تواند پیشرفت‌های مهمی را به همراه داشته باشد، مانند کمک به یک برنامه هوش مصنوعی برای یادگیری و بهبود توانایی‌های خود در یک دوره زمانی کوتاه. این قابلیت می‌تواند ابزارهای لازم برای عملکرد مؤثر ربات‌ها در دنیای واقعی را فراهم کند.

در این پژوهش، محققان Dreamer را برای انجام بازی ویدیویی محبوب ماینکرفت برنامه‌ریزی کردند. این کار از طریق ایجاد یک سیستم پاداش انجام شد که به‌طور مشخص برای یافتن الماس طراحی شده بود. با این رویکرد، برنامه نیازی به آموزش مستقیم نحوه انجام بازی نداشت؛ تنها کافی بود پارامترهایی را که می‌توانست در چارچوب آن‌ها عمل کند، بشناسد. یکی از این پارامترها، قابلیت تصور یک دنیای مجازی در آینده بود.

پس از آنکه الگوریتم نحوه بازی ماینکرفت را آموخت، پژوهشگران یک محدودیت جدید به آن افزودند: به الگوریتم فقط اجازه داده شد تحت هر سناریوی مشخص، به مدت ۳۰ دقیقه بازی کند. پس از این زمان، بازی با یک جهان مجازی کاملاً جدید مجدداً آغاز می‌شد. با استفاده از این روش، پژوهشگران مشاهده کردند که الگوریتم به سرعت پیشرفت کرد و تنها پس از ۹ روز بازی کردن، به سطح مهارت حرفه‌ای دست یافت.

هوش مصنوعی Dreamer در حال یادگیری ساخت کلنگ الماسی در ماینکرفت
هوش مصنوعی Dreamer یاد می‌گیرد که چگونه یک کلنگ الماسی در ماینکرفت بسازد. اعتبار: Nature (2025). DOI: 10.1038/s41586-025-08744-2

پژوهشگران خاطرنشان می‌کنند که سرعت یادگیری این الگوریتم بسیار چشمگیر است و نشان‌دهنده پیشرفت مهمی در زمینه توسعه هوش مصنوعی است. آن‌ها معتقدند که چنین سیستمی می‌تواند به طور بالقوه به ربات‌ها در یادگیری سریع وظایف در دنیای واقعی کمک کند، بدون آنکه نیاز به ساعت‌ها آموزش از سوی انسان باشد.

در نتیجه‌گیری، گروه پژوهشی پیشنهاد می‌کند که یافته‌های آن‌ها نشان می‌دهد که می‌توان یک برنامه هوش مصنوعی ساخت که قادر به یادگیری خودبه‌خودی از طریق تجربه باشد، حتی در یک محیط پیچیده مانند ماینکرفت، و این کار را در بازه زمانی بسیار کوتاهی انجام دهد.

اطلاعات بیشتر: Danijar Hafner و همکاران، یادگیری برای بهبود در طول عمر عامل، Nature (2025). DOI: 10.1038/s41586-025-08744-2

اطلاعات مجله: Nature

ارائه شده توسط Tech Xplore