Los investigadores del MIT han desarrollado un bot equipado con inteligencia artificial que puede vencer a los jugadores humanos en juegos multijugador en línea en los que los roles y los motivos de los jugadores se mantienen en secreto.
Muchos bots de juegos se han creado para mantenerse al día con jugadores humanos. A principios de este año, un equipo de la Universidad Carnegie Mellon desarrolló el primer bot del mundo que puede vencer a los profesionales en el póker multijugador. AlphaGo de DeepMind fue noticia en 2016 por vencer a un jugador profesional de GoTambién se han construido varios bots para vencer a los jugadores de ajedrez profesionales o unir fuerzas en juegos cooperativos como capturar la bandera en línea. Sin embargo, en estos juegos, el bot conoce a sus oponentes y compañeros de equipo desde el principio.
En la Conferencia sobre Sistemas de Procesamiento de Información Neural el próximo mes, los investigadores presentarán DeepRole, el primer bot de juegos que puede ganar juegos en línea para jugadores múltiples en los que las lealtades del equipo de los participantes inicialmente no están claras. El bot está diseñado con un nuevo "razonamiento deductivo"agregado a un algoritmo de IA comúnmente utilizado para jugar póker. Esto lo ayuda a razonar sobre acciones parcialmente observables, para determinar la probabilidad de que un jugador dado sea un compañero u oponente. Al hacerlo, aprende rápidamente con quién aliarse y qué acciones tomarpara asegurar la victoria de su equipo.
Los investigadores enfrentaron a DeepRole contra jugadores humanos en más de 4,000 rondas del juego en línea "The Resistance: Avalon". En este juego, los jugadores intentan deducir los roles secretos de sus compañeros a medida que avanza el juego, mientras que al mismo tiempo ocultan sus propios roles.Como compañero de equipo y oponente, DeepRole siempre superó a los jugadores humanos.
"Si reemplaza a un compañero humano con un bot, puede esperar una mayor tasa de victorias para su equipo. Los bots son mejores socios", dice el primer autor Jack Serrino '18, que se especializó en ingeniería eléctrica y ciencias de la computación en el MIT y esun ávido jugador de "Avalon" en línea.
El trabajo es parte de un proyecto más amplio para modelar mejor cómo los humanos toman decisiones socialmente informadas. Hacerlo podría ayudar a construir robots que entiendan, aprendan y trabajen mejor con los humanos.
"Los humanos aprendemos y cooperamos con otros, y eso nos permite lograr juntos cosas que ninguno de nosotros puede lograr solo", dice el coautor Max Kleiman-Weiner, un postdoc en el Centro de Cerebros, Mentes y Máquinas y elDepartamento de Cerebro y Ciencias Cognitivas en el MIT y en la Universidad de Harvard. "Los juegos como 'Avalon' imitan mejor los entornos sociales dinámicos que los humanos experimentan en la vida cotidiana. Tienes que descubrir quién está en tu equipo y trabajará contigo, ya sea tuprimer día de jardín de infantes u otro día en su oficina "
Junto con Serrino y Kleiman-Weiner en el papel están David C. Parkes de Harvard y Joshua B. Tenenbaum, profesor de ciencias cognitivas computacionales y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y el Centro de Cerebros, Mentes y Máquinas.
bot deductivo
En "Avalon", tres jugadores son asignados aleatoria y secretamente a un equipo de "resistencia" y dos jugadores a un equipo "espía". Ambos jugadores espías conocen los roles de todos los jugadores.
Durante cada ronda, un jugador propone un subconjunto de dos o tres jugadores para ejecutar una misión. Todos los jugadores votan simultáneamente y públicamente para aprobar o desaprobar el subconjunto. Si una mayoría lo aprueba, el subconjunto determina en secreto si la misión tendrá éxito o no.Si se eligen dos "éxitos", la misión tiene éxito; si se selecciona un "fracaso", la misión falla. Los jugadores de la Resistencia siempre deben elegir tener éxito, pero los jugadores espías pueden elegir cualquier resultado.
El equipo de resistencia gana después de tres misiones exitosas; el equipo espía gana después de tres misiones fallidas.
Ganar el juego básicamente se reduce a deducir quién es resistencia o espía, y votar por sus colaboradores. Pero en realidad eso es más complejo desde el punto de vista computacional que jugar ajedrez y póker. "Es un juego de información imperfecta", dice Kleiman-Weiner. "UstedNi siquiera estás seguro de contra quién estás en contra cuando comienzas, así que hay una fase de descubrimiento adicional para encontrar con quién cooperar ".
DeepRole utiliza un algoritmo de planificación del juego llamado "minimización de arrepentimiento contrafactual" CFR, que aprende a jugar un juego jugando repetidamente contra sí mismo aumentado con un razonamiento deductivo. En cada punto del juego, CFR mira hacia adelante para crearun "árbol de juego" de decisión de líneas y nodos que describe las posibles acciones futuras de cada jugador. Los árboles de juego representan todas las acciones líneas posibles que cada jugador puede tomar en cada punto de decisión futuro. Al jugar potencialmente miles de millones de simulaciones de juego, CFR señala quélas acciones aumentaron o disminuyeron sus posibilidades de ganar, y revisan iterativamente su estrategia para incluir más buenas decisiones. Eventualmente, planea una estrategia óptima que, en el peor de los casos, se vincula contra cualquier oponente.
CFR funciona bien para juegos como el póker, con acciones públicas, como apostar dinero y tirar una mano, pero tiene dificultades cuando las acciones son secretas. El CFR de los investigadores combina acciones públicas y consecuencias de acciones privadas para determinar si los jugadores sonresistencia o espía.
El bot se entrena jugando contra sí mismo como resistencia y como espía. Cuando juega un juego en línea, utiliza su árbol de juego para estimar lo que cada jugador hará. El árbol de juego representa una estrategia que le da a cada jugador la mayor probabilidadpara ganar como un rol asignado. Los nodos del árbol contienen "valores contrafácticos", que son básicamente estimaciones de una recompensa que el jugador recibe si juega esa estrategia dada.
En cada misión, el bot observa cómo jugó cada persona en comparación con el árbol del juego. Si, a lo largo del juego, un jugador toma suficientes decisiones que son inconsistentes con las expectativas del bot, entonces el jugador probablemente esté jugando como el otro rolEventualmente, el bot asigna una alta probabilidad para el papel de cada jugador. Estas probabilidades se utilizan para actualizar la estrategia del bot para aumentar sus posibilidades de victoria.
Simultáneamente, utiliza esta misma técnica para estimar cómo un observador en tercera persona podría interpretar sus propias acciones. Esto lo ayuda a estimar cómo pueden reaccionar otros jugadores, ayudándolo a tomar decisiones más inteligentes ". Si se trata de una misión de dos jugadores quefalla, los otros jugadores saben que un jugador es un espía. El robot probablemente no propondrá el mismo equipo en futuras misiones, ya que sabe que los otros jugadores piensan que es malo ", dice Serrino.
Idioma: la próxima frontera
Curiosamente, el bot no necesitaba comunicarse con otros jugadores, que generalmente es un componente clave del juego. "Avalon" permite a los jugadores chatear en un módulo de texto durante el juego. "Pero resulta que nuestro bot pudofunciona bien con un equipo de otros humanos mientras solo observa las acciones de los jugadores ", dice Kleiman-Weiner." Esto es interesante, porque uno podría pensar que juegos como este requieren estrategias de comunicación complicadas ".
A continuación, los investigadores pueden permitir que el bot se comunique durante los juegos con texto simple, como decir que un jugador es bueno o malo. Eso implicaría asignar texto a la probabilidad correlacionada de que un jugador es resistencia o espía, que el bot ya usapara tomar sus decisiones. Más allá de eso, un futuro robot podría estar equipado con capacidades de comunicación más complejas, lo que le permitirá jugar juegos de deducción social con mucho lenguaje, como el popular juego "Werewolf", que implican varios minutos de discusión ypersuadir a otros jugadores sobre quién está en los equipos buenos y malos.
"El lenguaje es definitivamente la próxima frontera", dice Serrino. "Pero hay muchos desafíos para atacar en esos juegos, donde la comunicación es tan clave".
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :