La Prensa Canallesca.......de la mañana: Las máquinas ya saben marcarse un farol y ganar al póquer

Desarrollado en colaboración con Facebook, el programa Pluribus ha logrado por primera vez vencer a los humanos en partidas complejas de Texas Hold'em con seis jugadores

Montaje a partir del cuadro 'Los jugadores de cartas' ('Les joueurs de cartes'), de Paul Cézanne. LUIS PAREJO

Los sistemas de inteligencia artificial (IA) siguen refinando sus capacidades y superando etapas. Más de 20 años después de que Deep Blue batiese a Garry Kásparov, las máquinas han derrotado a los mejores jugadores del mundo en una amplia variedad de retos. Pero el póquer era, hasta ahora, uno de los pocos que se les resistía. Investigadores de la Universidad Carnegie Mellon de Pittsburgh han diseñado un programa de IA que ha sido capaz de dominar a los mejores profesionales en varias series de partidas de Texas Hold'em de seis jugadores, la variedad más popular en todo el mundo. Los detalles se describen este jueves en la revista Science.

El póquer cuenta con una dificultad para la aplicación de IA que otros juegos como el ajedrez no tienen. Se trata de un escenario de 'información asimétrica'; dado que algunas de las cartas sobre la mesa permanecen cubiertas, el jugador sólo puede conocer una parte de lo que está sucediendo. Así que para ganar necesita interpretar o intuir el comportamiento de los otros jugadores, lo que incluye identificar cuándo un rival se está marcando un farol. Y engañarle con faroles propios. En concreto el Texas Hold'em en su versión multijugador es una variante especialmente compleja, ya que los participantes desarrollan estrategias de apuestas que siguen a lo largo de decenas de manos.

Según explican los investigadores, la combinación de sistemas de aprendizaje reforzado con nuevos algoritmos ha sido clave para que la máquina pueda superar a los humanos. Bautizado como Pluribus y desarrollado en colaboración con Facebook, el sistema descubre cómo ganar jugando una y otra vez contra sí mismo. "Hasta ahora, los grandes logros de la IA sobrehumana en materia de razonamiento estratégico se habían limitado a competiciones de dos jugadores", señala Tuomas Sandholm, profesor de informática en la universidad norteamericana. "Pero la capacidad de vencer a otros cinco jugadores en un juego tan complejo abre nuevas oportunidades de utilizar IA para resolver una amplia variedad de problemas del mundo real".

Innovar para ganar

Para la primera ronda de apuestas Pluribus esboza una estrategia en base a partidas simuladas que juega contra seis copias de sí mismo. A partir de ese momento, realiza búsquedas más detalladas de posibles movimientos para cada etapa del juego. La diferencia con anteriores versiones es que, aunque planea con varias manos de antelación, no elabora una simulación hasta el fin de la partida, como puede ocurrir con el ajedrez o el Go, dado que en el póquer la cantidad de variables es inabarcable.

De hecho, los algoritmos de Pluribus han desarrollado algunos reflejos que sorprenden incluso a sus creadores. La mayoría de los jugadores de póquer profesionales evitan un tipo de apuestas (llamadas donk bets, en argot) que en apariencia son ilógicas. Su único objetivo es desestabilizar a los jugadores que dominan una mano, pero son raras en los jugadores consagrados. Sin embargo Pluribus las utiliza con relativa frecuencia. "Su mayor fortaleza es su habilidad para usar estrategias mixtas", ha declarado Darren Elias, jugador que posee el récord de títulos del World Poker Tour y uno de los rivales derrotados por Pluribus. "Es lo mismo que intentamos hacer los humanos, pero para nosotros hay un problema de ejecución; hacer esto de una manera perfectamente aleatoria y de manera consistente es muy complicado".

Para ganar, los sistemas de IA suelen adoptar un modelo que en teoría de juegos se llama equilibrio de Nash o equilibrio del miedo. Se trata de un marco que asume que los jugadores están aplicando su mejor estrategia y que ambos conocen la táctica del oponente,. Sin embargo en un escenario multijugador, ésta puede no ser eficaz, así que Pluribus crea otras estrategias que le permiten superar sistemáticamente a todos sus oponentes. Un aspecto que podría aplicarse a negociaciones complejas en escenarios reales, por ejemplo. Según los científicos, el algoritmo sólo necesita considerar cinco posibles movimientos para cada oponente, antes de diseñar su propia estrategia general.

Faroles de IA

Por otra parte Pluribus sabe que para ganar en el póquer también se necesita ser impredecible. Si un jugador apuesta únicamente cuando tiene la mejor mano posible, los oponentes rápidamente identifican la tendencia. Así que la IA no sólo calcula las probabilidades de cada mano, sino que además equilibra su comportamiento general para desestabilizar a los rivales, lo que le lleva a marcarse faroles, como cualquier otro jugador.

En 2017, Libratus -un programa de Inteligencia Artificial creada por el propio Sandholm y su equipo- ya derrotó a los mejores jugadores del mundo en un torneo de 20 días, en una versión de Texas Hold'em para dos jugadores. "Jugar a un juego de seis jugadores en lugar de enfrentarse cara a cara requiere cambios fundamentales en la forma en que la IA desarrolla su estrategia de juego", explica Noam Brown, estudiante de doctorado en el Departamento de Ciencias de la Computación de Carnegie Mellon e investigador de IA para Facebook. "De hecho, creemos que algunas de las estrategias de juego de Pluribus podrían incluso cambiar la forma en la que juegan los profesionales".

AMADO HERRERO @AmadoHerrero París

https://www.elmundo.es/ciencia-y-salud/ciencia/2019/07/11/5d275f80fdddff55738b4674.html

La Prensa Canallesca.......de la mañana

sábado, 13 de julio de 2019

Las máquinas ya saben marcarse un farol y ganar al póquer

No hay comentarios:

Publicar un comentario