Microsoft y Xbox anunciaron recientemente un nuevo avance en la aplicación de la inteligencia artificial (IA) para la industria de los videojuegos. El sistema, llamado World and Human Action Model (WHAM), fue presentado a través de un artículo científico en la revista Nature.
Este modelo se diseñó para generar y predecir secuencias de juego, transformando tanto las imágenes de la pantalla como las acciones del jugador en cadenas de tokens.
Con ello se busca ofrecer a los estudios de desarrollo la posibilidad de explorar diversas continuaciones narrativas y mecánicas de manera coherente, sin perder control sobre la dirección creativa de sus proyectos.
LEA TAMBIÉN

El componente principal de WHAM es una arquitectura transformadora que integra un enfoque parecido a los modelos GPT-2. La novedad radica en la forma de convertir cada imagen de juego —llamada “frame”— en un bloque de tokens mediante un mecanismo denominado VQGAN, el cual reduce el contenido visual a un espacio discreto.
De manera simultánea, se encodean también las acciones del jugador, que pueden abarcar desde presionar botones hasta mover los joysticks del control. Así, el modelo maneja secuencias de miles de tokens que representan cada segundo de gameplay.
Para entrenar WHAM, se utilizaron datos de partidas humanas extraídas del videojuego Bleeding Edge. Estos datos comprenden varios millones de fotogramas capturados a lo largo de diferentes mapas y sesiones de juego. El resultado es un sistema capaz de proyectar cómo evolucionaría la partida tras los movimientos del usuario, evaluando posibilidades múltiples en cada instante.
LEA TAMBIÉN

Este enfoque busca cubrir tres requisitos identificados en una serie de entrevistas a 27 profesionales de la industria. El primero es la consistencia, que asegura el respeto de las físicas y el mantenimiento de la identidad de los personajes, evitando “saltos” o deformaciones repentinas.
El segundo es la diversidad, orientada a producir varios cursos de acción que enriquezcan la etapa inicial de diseño. Por último, se incluyó la persistencia, por la cual los cambios manuales introducidos por el usuario (como objetos añadidos o la reubicación de personajes) permanecen en iteraciones futuras, evitando así que la IA los omita.
En la práctica, WHAM verifica la coherencia de las secuencias mediante métricas como el Fréchet Video Distance, que compara la consistencia de los videos generados con ejemplos de juego real.
Para medir la amplitud de comportamientos, se revisan las acciones simuladas y se contrastan con los datos humanos, usando distancias de distribución que revelan si el modelo abarca la misma variedad de movimientos. Además, diversas pruebas de inserción de objetos y personajes permiten constatar qué tanto los elementos editados se mantienen en la continuidad del mundo virtual.
Según se describe en la publicación, este desarrollo ofrece un prototipo que, además de cumplir funciones de generación de contenido, sirve como base para futuras herramientas.
La intención final es combinar la capacidad de exploración de la IA con la experiencia y la intuición de los diseñadores, de modo que los equipos creativos conserven el control en cada iteración.
Microsoft y Xbox señalan que la prioridad está en la fase de preproducción y prototipado, aunque dejan abierta la posibilidad de expandir esta tecnología hacia la automatización de tareas complejas en el futuro, siempre con el enfoque de apoyar la visión creativa humana.