Dos equipos de jugadores, rojo y azul. El equipo azul tiene unos segundos para esconderse. Cuando comienza la partida el equipo rojo se mueve por el escenario en búsqueda de miembros azules. Si algún jugador rojo ve a un jugador azul, gana la partida. Todos los jugadores pueden interaccionar con objetos del escenario, como cajas, barreras y rampas para ocultarse o encontrar al otro. Ningún jugador recibe instrucciones específicas, aprenden por medio de su experiencia. Éste es el increíble resultado:
No hay incentivos explícitos para que los jugadores interactúen con los objetos del entorno. La única supervisión que se da es a través del objetivo del escondite. Los jugadores reciben una recompensa por equipo: a los escondidos se les da una recompensa de +1 si todos los escondidos están escondidos y -1 si algún escondido es visto por un buscador. A los buscadores se les da la recompensa opuesta: -1 si todos los jugadores azules permanecen ocultos y +1 en caso contrario. Para confinar el comportamiento de los jugadores a un espacio razonable, los agentes son penalizados si se alejan demasiado del área de juego. Durante la fase de preparación, todos los agentes reciben una recompensa nula.
Al principio el equipo azul no tiene ni idea de esconderse, quedando a simple vista de los rojos. En siguientes iteraciones comienzan a descubrir que se pueden ocultar detrás de objetos, como cajas. Pero rápidamente el equipo rojo descubre que pueden verlos tras ellas.
En su aprendizaje autodidacta el equipo azul descubre que puede taponar las puertas del entorno virtual con las cajas, creando un refugio seguro. El equipo rojo, por su parte, acaba aprendiendo a usar rampas que había en el entorno para colarse en dicho habitáculo.
Las estrategias de unos y otros se van volviendo cada vez más complejas, tanto en esconderse como en encontrar al escondido. Los jugadores del mismo equipo aprenden a cooperar, usan los límites del entorno a su favor o incluso encuentran “Bugs” para ganar.
Este tipo de aprendizajes ha abierto una nueva disciplina en el desarrollo de videojuegos, pero sus aplicaciones van más allá del ocio. Los nuevos métodos de aprendizaje en IA sorprenden cada día.
Podéis ver más detalles de esta investigación en:
Emergent Tool Use from Multi-Agent Interaction
Y recordad, ninguno de los agentes tenían instrucciones de cómo buscar o esconderse. Aprenden con prueba y error…