تا به حال، هوش مصنوعی تنها لبههای صنعت بازی را با ابزارهایی برای هنر، موسیقی، نوشتن، کدنویسی و سایر عناصری که بازیهای ویدیویی را تشکیل میدهند، لمس کرده است. اما اگر یک مدل هوش مصنوعی بتواند نمونههایی از گیمپلی را از یک اسکرینشات واحد تولید کند چه؟
این ایده پشت Muse مایکروسافت است، یک مدل ترانسفورمر با ۱.۶ میلیارد پارامتر که روی ۵۰۰,۰۰۰ ساعت داده بازیکن آموزش داده شده است. نتیجه یک مدلی است که وقتی با یک اسکرینشات از بازی درخواست میشود، میتواند نمونههای متعددی از گیمپلی را تولید کند که میتواند تا چند دقیقه طول بکشد.
جولیان توگلیوس (Julian Togelius)، استادیار علوم کامپیوتر در دانشگاه نیویورک و بنیانگذار شرکت تست بازی با هوش مصنوعی Modl.ai، میگوید: «آنها اساساً یک موتور بازی عصبی را آموزش دادهاند که انسجام و دقت زمانی بیسابقهای دارد. این پیامدهای گستردهای دارد و چیزی است که میتوانم ببینم در آینده به عنوان بخشی از توسعه بازی به طور کلی استفاده میشود.»
Muse مایکروسافت چگونه کار میکند
Muse (همچنین به عنوان مدل جهان و کنش انسانی یا WHAM شناخته میشود) بر روی دادههای گیمپلی انسانی از بازی اکشن چندنفره Bleeding Edge آموزش داده شده است. محققان یک سری مدلها را بر روی آن دادهها آموزش دادند، که از ۱۵ میلیون تا ۱.۶ میلیارد پارامتر متغیر بودند. بزرگترین آنها، که بهترین عملکرد را داشت، تمرکز اصلی مقاله منتشر شده در فوریه در Nature است.
اگرچه نوآورانه است، اما Muse اولین مدل هوش مصنوعی نیست که قادر به تولید گیمپلی باشد. پیشینیان قابل توجه عبارتند از Genie گوگل دیپمایند، GameGen-X تنسنت و GameNGen. این مدلهای قبلی گیمپلی بصری جذابی را تولید میکنند و در بسیاری از موارد، این کار را با نرخ فریم و وضوح بالاتری نسبت به Muse انجام میدهند.
با این حال، رویکرد مایکروسافت به توسعه Muse چندین مزیت منحصر به فرد را ارائه میدهد.
برخلاف مدلهای قبلی، Muse بر روی دادههای گیمپلی انسانی دنیای واقعی آموزش داده شده است که شامل دادههای تصویر از گیمپلی و ورودیهای کنترلر مربوطه است. مایکروسافت توانست از طریق Ninja Theory، یک توسعهدهنده بازی متعلق به Xbox Game Studios مایکروسافت، به این دادهها دسترسی پیدا کند. در مقابل، Genie و GameGen-X به ورودیهای کنترلر دسترسی نداشتند و در عوض بر روی دادههای تصویر در دسترس عموم از بازیهای مختلف آموزش دیدند.
Muse همچنین از یک معماری ترانسفورمر خودرگرسیو استفاده میکند که برای مدلی که تصاویر تولید میکند (گیمپلی، مانند ویدیو، مجموعهای از تصاویر به ترتیب است) غیرمعمول است. Muse گیمپلی را به عنوان دنبالهای از نشانههای گسسته تولید میکند که تصاویر و کنشهای کنترلر را به هم پیوند میدهند. در حالی که Genie از معماری ترانسفورمر استفاده میکند، ورودی کنترلر را مدلسازی نمیکند. در همین حال، GameNGen و GameGen-X از مدلهای انتشار تخصصی برای تولید گیمپلی استفاده میکنند و دوباره ورودی کنترلر را مدلسازی نمیکنند.
کاتجا هوفمن (Katja Hofmann)، مدیر ارشد تحقیقات در Microsoft Research، میگوید: «آنچه تاکنون دیدهایم این است که نتوانستهایم با مدلهای انتشار به انسجامی که با مدلهای خودرگرسیو داریم، دست پیدا کنیم.»
محققان یک فرانتاند به نام WHAM Demonstrator ساختند تا انسجام مدل را به نمایش بگذارند. میتوان از آن برای درخواست از Muse با یک اسکرینشات استفاده کرد، که سپس چندین «ادامه» از گیمپلی را تولید میکند، که هر کدام پیشبینی متفاوتی از آنچه ممکن است رخ دهد ارائه میدهند. Muse و WHAM Demonstrator برای دانلود از HuggingFace در دسترس هستند.
پس از تولید، کاربران میتوانند ادامهها را با یک کنترلر بازی کشف کنند. حتی میتوان اشیایی را که مدل با آنها آشنا است، مستقیماً به داخل گیمپلی کشید و رها کرد. گیمپلی بهروزرسانی میشود تا شیء را شامل شود، که بخشی از دنیای بازی میشود. این اشیاء با نرخ موفقیت ۸۵ تا ۹۸ درصد، بسته به شیء درج شده، پابرجا ماندند.
ساخت مدلهای جهانی
اعلامیه مایکروسافت مراقب بود که Muse را یک تولیدکننده کامل بازی هوش مصنوعی نخواند، و دلیل خوبی هم داشت. در حالی که کلیپهای گیمپلی تولید شده آن حتی در طول چند دقیقه گیمپلی به طرز چشمگیری سازگار هستند، کلیپها با رزولوشن تنها ۳۸۰ در ۱۸۰ پیکسل و ۱۰ فریم در ثانیه تولید میشوند، که برای یک تجربه گیمپلی لذتبخش بسیار کم است. Muse همچنین محدود به تولید گیمپلی مشابه Bleeding Edge است.
این انتخابها برای قابل مدیریت نگه داشتن Muse انجام شد. هوفمن میگوید Muse آموزش داده شده است تا «کوچکترین مدلهای ممکن باشد که میتوانیم با آنها نشان دهیم چه چیزی ممکن است». به همین دلیل، او معتقد است که جایی برای بهبود کیفیت مدل وجود دارد.
Muse به جای اینکه خود را به عنوان جایگزینی برای بازیها معرفی کند، به عنوان ابزاری برای توسعهدهندگانی در نظر گرفته شده است که به دنبال تکرار ایدههای گیمپلی هستند. هوفمن میگوید: «شما میتوانید یک نوع حلقه تکراری ایجاد کنید. میتوانید شاخههای متعددی از پیشبینیها ایجاد کنید. میتوانید به عقب برگردید، میتوانید تغییراتی را در حین پرواز ایجاد کنید.»
Muse همچنین نشان دهنده پیشرفت به سوی ایجاد "مدلهای جهانی" پیشرفته است که پویایی یک محیط واقعی یا شبیهسازی شده را به تصویر میکشند.
مدلهایی که گیمپلی را تولید میکنند، مانند Muse و Genie، یاد میگیرند که گیمپلی را در چندین حالت که شامل گرافیک سهبعدی، گرافیک دوبعدی، فیزیک و صدا میشود، پیشبینی کنند. این بدان معناست که مدلهای هوش مصنوعی میتوانند آموزش ببینند تا درک کلیتری از یک محیط پیچیده تشکیل دهند و به جای مجموعهای از بخشهای مجزا، یک مدل جهانی جامعتر تشکیل دهند.
هوفمن میگوید: «در گذشته، برای آموزش یک مدل روی چیزی خاص، مانند موسیقی جاز، باید آموزش میدادید تا تئوری موسیقی را درک کند، تا قوانین و بینشهای زیادی داشته باشید. ما اکنون دستورالعملی برای آموزش مدلهای هوش مصنوعی مولد بر روی این دادههای ساختیافته بسیار پیچیده بدون دستکاری زیاد قوانین زیربنای این سیستمها داریم.»
توگلیوس امکانات مشابهی را میبیند. او میگوید که از مدلی مانند Muse میتوان برای تکرار گیمپلی نه تنها با تولید گیمپلی، بلکه با ایجاد مدلهای جهانی که یک محیط را شبیهسازی میکنند، استفاده کرد. این به نوبه خود میتواند امکانات جدیدی را برای کاوش و آزمایش آن محیط باز کند، مانند رها کردن عوامل هوش مصنوعی برای تعامل و یادگیری در مدل جهانی.
او میگوید: «این پیامدهای زیادی برای بازیها و همچنین برای چیزهای خارج از بازیها دارد.»