Un programa de inteligencia artificial desarrollado por la Universidad Carnegie Mellon en colaboración con Facebook AI ha derrotado a profesionales líderes en el póker Texas Hold'em sin límite de seis jugadores, la forma de póker más popular del mundo.
La IA, llamada Pluribus, derrotó al profesional de póker Darren Elias, quien tiene el récord de la mayoría de los títulos del World Poker Tour, y Chris "Jesus" Ferguson, ganador de seis eventos de la Serie Mundial de Poker. Cada profesional jugó por separado 5,000 manos de póker contracinco copias de Pluribus.
En otro experimento que involucró a 13 profesionales, todos los cuales ganaron más de $ 1 millón jugando al póker, Pluribus jugó cinco profesionales a la vez por un total de 10,000 manos y nuevamente salió victorioso.
"Pluribus logró un rendimiento sobrehumano en el póker multijugador, que es un hito reconocido en inteligencia artificial y en teoría de juegos que ha estado abierto durante décadas", dijo Tuomas Sandholm, profesor de informática de Angel Jordan, quien desarrolló Pluribus con Noam Brown, que está terminando su doctorado en el Departamento de Ciencias de la Computación de Carnegie Mellon como científico investigador en Facebook AI. "Hasta ahora, los hitos sobrehumanos de la IA en el razonamiento estratégico se han limitado a la competencia de dos partes. La capacidad de vencer a otros cinco jugadores enun juego tan complicado abre nuevas oportunidades para usar la IA para resolver una amplia variedad de problemas del mundo real ".
"Jugar un juego de seis jugadores en lugar de cara a cara requiere cambios fundamentales en la forma en que la IA desarrolla su estrategia de juego", dijo Brown, quien se unió a Facebook AI el año pasado. "Estamos eufóricos con su rendimiento y creemos que algunosde las estrategias de juego de Pluribus podría incluso cambiar la forma en que los profesionales juegan el juego "
Los algoritmos de Pluribus crearon algunas características sorprendentes en su estrategia. Por ejemplo, la mayoría de los jugadores humanos evitan las "apuestas donk", es decir, terminar una ronda con una llamada pero luego comenzar la siguiente ronda con una apuesta. Se ve como un punto débilmovimiento que generalmente no tiene sentido estratégico, pero Pluribus hizo apuestas donk mucho más a menudo que los profesionales que derrotó.
"Su mayor fortaleza es su capacidad para usar estrategias mixtas", dijo Elias la semana pasada mientras se preparaba para el evento principal de la Serie Mundial de Poker de 2019. "Eso es lo mismo que los humanos intentan hacer. Es una cuestión de ejecución para los humanos".- hacer esto de una manera perfectamente aleatoria y hacerlo de manera consistente. La mayoría de la gente simplemente no puede "
Pluribus registró una sólida victoria con significación estadística, lo cual es particularmente impresionante dada su oposición, dijo Elias. "El bot no solo estaba jugando contra algunos profesionales de la mitad del camino. Estaba jugando contra algunos de los mejores jugadores del mundo"."
Michael "Gags" Gagliano, quien ha ganado casi $ 2 millones en ganancias profesionales, también compitió contra Pluribus.
"Fue increíblemente fascinante jugar contra el bot de póker y ver algunas de las estrategias que eligió", dijo Gagliano. "Hubo varias jugadas que los humanos simplemente no están haciendo en absoluto, especialmente en relación con el tamaño de sus apuestas. Bots / AIson una parte importante en la evolución del póker, y fue increíble tener experiencia de primera mano en este gran paso hacia el futuro "
Sandholm ha liderado un equipo de investigación que estudia póker en la computadora durante más de 16 años. Él y Brown desarrollaron anteriormente Libratus, que hace dos años venció decisivamente a cuatro profesionales del póker jugando un total combinado de 120,000 manos de Texas Hold'em sin límite,una versión para dos jugadores del juego.
Los juegos como el ajedrez y el Go han servido durante mucho tiempo como hitos para la investigación de IA. En esos juegos, todos los jugadores conocen el estado del tablero y todas las piezas. Pero el póker es un desafío mayor porque es una información incompletajuego; los jugadores no pueden estar seguros de qué cartas están en juego y los oponentes pueden y farolearán. Eso hace que sea un desafío de IA más difícil y más relevante para muchos problemas del mundo real que involucran a múltiples partes e información faltante.
Todas las IA que mostraron habilidades sobrehumanas en los juegos de dos jugadores lo hicieron al aproximar lo que se llama un equilibrio de Nash. Nombrado por el difunto alumno de Carnegie Mellon y el premio Nobel John Forbes Nash Jr., un equilibrio de Nash es un par de estrategias uno por jugador donde ninguno de los jugadores puede beneficiarse al cambiar de estrategia, siempre y cuando la estrategia del otro jugador siga siendo la misma. Aunque la estrategia de la IA solo garantiza un resultado no peor que un empate, la IA sale victoriosa si su oponente hace errores de cálculo y no puedemantener el equilibrio
En un juego con más de dos jugadores, jugar un equilibrio de Nash puede ser una estrategia perdedora. Por lo tanto, Pluribus prescinde de las garantías teóricas de éxito y desarrolla estrategias que, sin embargo, le permiten superar constantemente a los oponentes.
Pluribus primero calcula una estrategia de "plano" al jugar seis copias de sí mismo, que es suficiente para la primera ronda de apuestas. A partir de ese momento, Pluribus realiza una búsqueda más detallada de posibles movimientos en una abstracción más precisa del juego.Mira hacia adelante varios movimientos mientras lo hace, pero no requiere mirar hacia adelante hasta el final del juego, lo que sería computacionalmente prohibitivo. La búsqueda limitada con anticipación es un enfoque estándar en los juegos de información perfecta, pero es extremadamente desafiante enjuegos de información imperfecta. Un nuevo algoritmo de búsqueda de búsqueda limitada es el principal avance que permitió a Pluribus lograr el póker multijugador sobrehumano.
Específicamente, la búsqueda es una solución de juego de información imperfecta de un subjuego de anticipación limitada. En las hojas de ese subjuego, la IA considera cinco posibles estrategias de continuación que cada oponente y él mismo podrían adoptar para el resto del juego. El númeroLas posibles estrategias de continuación son mucho mayores, pero los investigadores descubrieron que su algoritmo solo necesita considerar cinco estrategias de continuación por jugador en cada hoja para calcular una estrategia general fuerte y equilibrada.
Pluribus también busca ser impredecible. Por ejemplo, apostar tendría sentido si la IA tuviera la mejor mano posible, pero si la IA apuesta solo cuando tiene la mejor mano, los oponentes se darán cuenta rápidamente. Entonces Pluribus calcula cómo seríaactuar con todas las manos posibles que pueda tener y luego calcular una estrategia equilibrada en todas esas posibilidades.
Aunque el póker es un juego increíblemente complicado, Pluribus hizo un uso eficiente de la computación. Las IA que han alcanzado hitos recientes en los juegos han utilizado una gran cantidad de servidores y / o granjas de GPU; Libratus usó alrededor de 15 millones de horas centrales para desarrollar sus estrategias y, durante el juego en vivo, usó 1,400 núcleos de CPU. Pluribus calculó su estrategia de plan en ocho días usando solo 12,400 horas centrales y usó solo 28 núcleos durante el juego en vivo.
Fuente de la historia :
Materiales proporcionado por Universidad Carnegie Mellon . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :