یک مدل جدید هوش مصنوعی از مایکروسافت می‌تواند نمایش‌های گیم‌پلی سازگار را برای چند دقیقه در یک زمان تولید کند.
 مایکروسافت
یک مدل جدید هوش مصنوعی از مایکروسافت می‌تواند نمایش‌های گیم‌پلی سازگار را برای چند دقیقه در یک زمان تولید کند. مایکروسافت

هوش مصنوعی Muse مایکروسافت بازی‌های ویدیویی را به‌سرعت ویرایش می‌کند

Muse یک اثبات مفهوم برای گیم‌پلی سازگارتر هوش مصنوعی است

تا به حال، هوش مصنوعی تنها لبه‌های صنعت بازی را با ابزارهایی برای هنر، موسیقی، نوشتن، کدنویسی و سایر عناصری که بازی‌های ویدیویی را تشکیل می‌دهند، لمس کرده است. اما اگر یک مدل هوش مصنوعی بتواند نمونه‌هایی از گیم‌پلی را از یک اسکرین‌شات واحد تولید کند چه؟

این ایده پشت Muse مایکروسافت است، یک مدل ترانسفورمر با ۱.۶ میلیارد پارامتر که روی ۵۰۰,۰۰۰ ساعت داده بازیکن آموزش داده شده است. نتیجه یک مدلی است که وقتی با یک اسکرین‌شات از بازی درخواست می‌شود، می‌تواند نمونه‌های متعددی از گیم‌پلی را تولید کند که می‌تواند تا چند دقیقه طول بکشد.

جولیان توگلیوس (Julian Togelius)، استادیار علوم کامپیوتر در دانشگاه نیویورک و بنیانگذار شرکت تست بازی با هوش مصنوعی Modl.ai، می‌گوید: «آنها اساساً یک موتور بازی عصبی را آموزش داده‌اند که انسجام و دقت زمانی بی‌سابقه‌ای دارد. این پیامدهای گسترده‌ای دارد و چیزی است که می‌توانم ببینم در آینده به عنوان بخشی از توسعه بازی به طور کلی استفاده می‌شود.»

Muse مایکروسافت چگونه کار می‌کند

Muse (همچنین به عنوان مدل جهان و کنش انسانی یا WHAM شناخته می‌شود) بر روی داده‌های گیم‌پلی انسانی از بازی اکشن چندنفره Bleeding Edge آموزش داده شده است. محققان یک سری مدل‌ها را بر روی آن داده‌ها آموزش دادند، که از ۱۵ میلیون تا ۱.۶ میلیارد پارامتر متغیر بودند. بزرگترین آنها، که بهترین عملکرد را داشت، تمرکز اصلی مقاله منتشر شده در فوریه در Nature است.

اگرچه نوآورانه است، اما Muse اولین مدل هوش مصنوعی نیست که قادر به تولید گیم‌پلی باشد. پیشینیان قابل توجه عبارتند از Genie گوگل دیپ‌مایند، GameGen-X تنسنت و GameNGen. این مدل‌های قبلی گیم‌پلی بصری جذابی را تولید می‌کنند و در بسیاری از موارد، این کار را با نرخ فریم و وضوح بالاتری نسبت به Muse انجام می‌دهند.

با این حال، رویکرد مایکروسافت به توسعه Muse چندین مزیت منحصر به فرد را ارائه می‌دهد.

برخلاف مدل‌های قبلی، Muse بر روی داده‌های گیم‌پلی انسانی دنیای واقعی آموزش داده شده است که شامل داده‌های تصویر از گیم‌پلی و ورودی‌های کنترلر مربوطه است. مایکروسافت توانست از طریق Ninja Theory، یک توسعه‌دهنده بازی متعلق به Xbox Game Studios مایکروسافت، به این داده‌ها دسترسی پیدا کند. در مقابل، Genie و GameGen-X به ورودی‌های کنترلر دسترسی نداشتند و در عوض بر روی داده‌های تصویر در دسترس عموم از بازی‌های مختلف آموزش دیدند.

Muse همچنین از یک معماری ترانسفورمر خودرگرسیو استفاده می‌کند که برای مدلی که تصاویر تولید می‌کند (گیم‌پلی، مانند ویدیو، مجموعه‌ای از تصاویر به ترتیب است) غیرمعمول است. Muse گیم‌پلی را به عنوان دنباله‌ای از نشانه‌های گسسته تولید می‌کند که تصاویر و کنش‌های کنترلر را به هم پیوند می‌دهند. در حالی که Genie از معماری ترانسفورمر استفاده می‌کند، ورودی کنترلر را مدل‌سازی نمی‌کند. در همین حال، GameNGen و GameGen-X از مدل‌های انتشار تخصصی برای تولید گیم‌پلی استفاده می‌کنند و دوباره ورودی کنترلر را مدل‌سازی نمی‌کنند.

کاتجا هوفمن (Katja Hofmann)، مدیر ارشد تحقیقات در Microsoft Research، می‌گوید: «آنچه تاکنون دیده‌ایم این است که نتوانسته‌ایم با مدل‌های انتشار به انسجامی که با مدل‌های خودرگرسیو داریم، دست پیدا کنیم.»

محققان یک فرانت‌اند به نام WHAM Demonstrator ساختند تا انسجام مدل را به نمایش بگذارند. می‌توان از آن برای درخواست از Muse با یک اسکرین‌شات استفاده کرد، که سپس چندین «ادامه» از گیم‌پلی را تولید می‌کند، که هر کدام پیش‌بینی متفاوتی از آنچه ممکن است رخ دهد ارائه می‌دهند. Muse و WHAM Demonstrator برای دانلود از HuggingFace در دسترس هستند.

پس از تولید، کاربران می‌توانند ادامه‌ها را با یک کنترلر بازی کشف کنند. حتی می‌توان اشیایی را که مدل با آنها آشنا است، مستقیماً به داخل گیم‌پلی کشید و رها کرد. گیم‌پلی به‌روزرسانی می‌شود تا شیء را شامل شود، که بخشی از دنیای بازی می‌شود. این اشیاء با نرخ موفقیت ۸۵ تا ۹۸ درصد، بسته به شیء درج شده، پابرجا ماندند.

طراحی مدل جهانی و کنش انسانی مایکروسافت که برای تغییر صحنه‌های بازی ویدیویی، محیط و حرکات شخصیت استفاده می‌شود.
کاربران Muse می‌توانند رفتار شخصیت‌های غیرقابل بازی (NPC) و محیط را با کشیدن مستقیم روی فریم، به صورت بصری تغییر دهند. از منابع تصویر یا ویدیو نیز می‌توان برای تأثیرگذاری و متعاقباً انتخاب از بین تولیدات صحنه استفاده کرد. Anssi Kanervisto، Dave Bignell و همکاران

ساخت مدل‌های جهانی

اعلامیه مایکروسافت مراقب بود که Muse را یک تولیدکننده کامل بازی هوش مصنوعی نخواند، و دلیل خوبی هم داشت. در حالی که کلیپ‌های گیم‌پلی تولید شده آن حتی در طول چند دقیقه گیم‌پلی به طرز چشمگیری سازگار هستند، کلیپ‌ها با رزولوشن تنها ۳۸۰ در ۱۸۰ پیکسل و ۱۰ فریم در ثانیه تولید می‌شوند، که برای یک تجربه گیم‌پلی لذت‌بخش بسیار کم است. Muse همچنین محدود به تولید گیم‌پلی مشابه Bleeding Edge است.

این انتخاب‌ها برای قابل مدیریت نگه داشتن Muse انجام شد. هوفمن می‌گوید Muse آموزش داده شده است تا «کوچک‌ترین مدل‌های ممکن باشد که می‌توانیم با آنها نشان دهیم چه چیزی ممکن است». به همین دلیل، او معتقد است که جایی برای بهبود کیفیت مدل وجود دارد.

Muse به جای اینکه خود را به عنوان جایگزینی برای بازی‌ها معرفی کند، به عنوان ابزاری برای توسعه‌دهندگانی در نظر گرفته شده است که به دنبال تکرار ایده‌های گیم‌پلی هستند. هوفمن می‌گوید: «شما می‌توانید یک نوع حلقه تکراری ایجاد کنید. می‌توانید شاخه‌های متعددی از پیش‌بینی‌ها ایجاد کنید. می‌توانید به عقب برگردید، می‌توانید تغییراتی را در حین پرواز ایجاد کنید.»

Muse همچنین نشان دهنده پیشرفت به سوی ایجاد "مدل‌های جهانی" پیشرفته است که پویایی یک محیط واقعی یا شبیه‌سازی شده را به تصویر می‌کشند.

مدل‌هایی که گیم‌پلی را تولید می‌کنند، مانند Muse و Genie، یاد می‌گیرند که گیم‌پلی را در چندین حالت که شامل گرافیک سه‌بعدی، گرافیک دوبعدی، فیزیک و صدا می‌شود، پیش‌بینی کنند. این بدان معناست که مدل‌های هوش مصنوعی می‌توانند آموزش ببینند تا درک کلی‌تری از یک محیط پیچیده تشکیل دهند و به جای مجموعه‌ای از بخش‌های مجزا، یک مدل جهانی جامع‌تر تشکیل دهند.

هوفمن می‌گوید: «در گذشته، برای آموزش یک مدل روی چیزی خاص، مانند موسیقی جاز، باید آموزش می‌دادید تا تئوری موسیقی را درک کند، تا قوانین و بینش‌های زیادی داشته باشید. ما اکنون دستورالعملی برای آموزش مدل‌های هوش مصنوعی مولد بر روی این داده‌های ساخت‌یافته بسیار پیچیده بدون دستکاری زیاد قوانین زیربنای این سیستم‌ها داریم.»

توگلیوس امکانات مشابهی را می‌بیند. او می‌گوید که از مدلی مانند Muse می‌توان برای تکرار گیم‌پلی نه تنها با تولید گیم‌پلی، بلکه با ایجاد مدل‌های جهانی که یک محیط را شبیه‌سازی می‌کنند، استفاده کرد. این به نوبه خود می‌تواند امکانات جدیدی را برای کاوش و آزمایش آن محیط باز کند، مانند رها کردن عوامل هوش مصنوعی برای تعامل و یادگیری در مدل جهانی.

او می‌گوید: «این پیامدهای زیادی برای بازی‌ها و همچنین برای چیزهای خارج از بازی‌ها دارد.»