Libratus, una inteligencia artificial que derrotó a cuatro de los mejores jugadores profesionales de póker en el Texas Hold'em sin límite a principios de este año, utiliza un enfoque triple para dominar un juego con más puntos de decisión que átomos en el universo, según los investigadores de Carnegie MellonInforme universitario.
En un artículo publicado en línea por la revista ciencia , Tuomas Sandholm, profesor de ciencias de la computación, y Noam Brown, un estudiante de doctorado en el Departamento de Ciencias de la Computación, detallan cómo su inteligencia artificial fue capaz de lograr un rendimiento sobrehumano al dividir el juego en partes manejables desde el punto de vista computacional y, en función de suel juego de los oponentes, corrige posibles debilidades en su estrategia durante la competencia.
Los programas de IA han derrotado a los mejores humanos en damas, ajedrez y Go, todos juegos desafiantes, pero en los que ambos jugadores conocen el estado exacto del juego en todo momento. Los jugadores de póker, por el contrario, se enfrentan a información oculta: quécartas que tienen sus oponentes y si un oponente está faroleando.
En una competencia de 20 días que involucró a 120,000 manos en Rivers Casino en Pittsburgh durante enero de 2017, Libratus se convirtió en la primera IA en derrotar a los mejores jugadores humanos en el Texas Hold'em sin límites: el punto de referencia principal y el desafío de larga dataproblema para la resolución de juegos de información imperfecta por IA.
Libratus venció a cada uno de los jugadores individualmente en el juego de dos jugadores y colectivamente acumuló más de $ 1.8 millones en fichas. Medido en ciegas milli-big por mano mbb / mano, un estándar utilizado por investigadores de IA de juegos de información imperfecta,Libratus derrotó decisivamente a los humanos por 147 mmb / mano. En la jerga del póker, esto es 14.7 ciegas grandes por juego
"Las técnicas en Libratus no utilizan conocimiento de dominio experto o datos humanos y no son específicas del póker", dijeron Sandholm y Brown en el documento. "Por lo tanto, se aplican a una gran cantidad de juegos de información imperfecta".Fueron omnipresentes en las interacciones estratégicas del mundo real, señalaron, incluida la negociación comercial, la ciberseguridad, las finanzas, los precios estratégicos y las aplicaciones militares.
Libratus incluye tres módulos principales, el primero de los cuales calcula una abstracción del juego que es más pequeña y más fácil de resolver que considerando todos los 10161 el número 1 seguido de 161 ceros posibles puntos de decisión en el juego. Luego crea supropia estrategia detallada para las primeras rondas de Texas Hold'em y una estrategia aproximada para las rondas posteriores. Esta estrategia se llama estrategia de plan.
Un ejemplo de estas abstracciones en el póker es agrupar manos similares y tratarlas de manera idéntica.
"Intuitivamente, hay poca diferencia entre una escalera de color King-high y una de Queen-high", dijo Brown. "Tratar esas manos como idénticas reduce la complejidad del juego y, por lo tanto, hace que sea más fácil computacionalmente"., tamaños de apuesta similares también se pueden agrupar.
Pero en las rondas finales del juego, un segundo módulo construye una nueva abstracción más fina basada en el estado del juego. También calcula una estrategia para este subjuego en tiempo real que equilibra estrategias en diferentes subjuegos usando el planoestrategia de orientación: algo que debe hacerse para lograr una resolución segura de los subjuegos. Durante la competencia de enero, Libratus realizó este cálculo utilizando la computadora Bridges del Centro de Supercomputación de Pittsburgh.
Cada vez que un oponente realiza un movimiento que no está en la abstracción, el módulo calcula una solución para este subjuego que incluye el movimiento del oponente. Sandholm y Brown llaman a esto resolución de subjuego anidado.
DeepStack, una IA creada por la Universidad de Alberta para jugar Texas Hold'em sin límites, también incluye un algoritmo similar, llamado resolución continua; DeepStack aún no se ha probado contra los mejores jugadores profesionales, sin embargo.
El tercer módulo está diseñado para mejorar la estrategia del plan a medida que avanza la competencia. Por lo general, dijo Sandholm, las IA usan el aprendizaje automático para encontrar errores en la estrategia del oponente y explotarlos. Pero eso también abre la IA a la explotación si el oponente cambia de estrategia.
En cambio, el módulo de mejora automática de Libratus analiza los tamaños de las apuestas de los oponentes para detectar posibles agujeros en la estrategia de proyecto de Libratus. Luego, Libratus agrega estas ramas de decisión que faltan, calcula estrategias para ellos y las agrega al proyecto.
Además de vencer a los profesionales humanos, Libratus fue evaluado contra las mejores IAs de póker anteriores. Estas incluyeron Baby Tartanian8, un bot desarrollado por Sandholm y Brown que ganó la Competencia Anual de Poker de Computadoras 2016 realizada en conjunto con la Asociación para el Avance deConferencia Anual de Inteligencia Artificial.
Mientras que Baby Tartanian8 venció a las siguientes dos IAs más fuertes en la competencia por 12 más / menos 10 mbb / mano y 24 más / menos 20 mbb / mano, Libratus superó a Baby Tartanian8 por 63 más / menos 28 mbb/ hand. Los autores anotaron que DeepStack no se ha probado contra otras IA.
"Las técnicas que desarrollamos son en gran medida independientes del dominio y, por lo tanto, pueden aplicarse a otras interacciones estratégicas de información imperfecta, incluidas las aplicaciones no recreativas", concluyeron Sandholm y Brown. "Debido a la ubicuidad de la información oculta en el mundo real estratégicointeracciones, creemos que el paradigma introducido en Libratus será fundamental para el crecimiento futuro y la aplicación generalizada de la IA ".
La tecnología ha sido licenciada exclusivamente a Strategic Machine, Inc., una empresa fundada por Sandholm para aplicar tecnologías de razonamiento estratégico a muchas aplicaciones diferentes.
Fuente de la historia :
Materiales proporcionado por Universidad Carnegie Mellon . Original escrito por Byron Spice. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :