Montaje a partir del cuadro 'Los jugadores de cartas' ('Les joueurs de
cartes'), de Paul Cézanne. LUIS PAREJO
Los sistemas de inteligencia artificial (IA) siguen
refinando sus capacidades y superando etapas. Más de 20 años después de que
Deep Blue batiese a Garry Kásparov, las máquinas han derrotado a los mejores
jugadores del mundo en una amplia variedad de retos. Pero el póquer era, hasta
ahora, uno de los pocos que se les resistía. Investigadores de la Universidad
Carnegie Mellon de Pittsburgh han diseñado un programa de IA que ha sido capaz
de dominar a los mejores profesionales en varias series de partidas de Texas
Hold'em de seis jugadores, la variedad más popular en todo el mundo. Los
detalles se describen este jueves en la revista Science.
El póquer cuenta con una dificultad para la aplicación
de IA que otros juegos como el ajedrez no tienen. Se trata de un escenario de
'información asimétrica'; dado que algunas de las cartas sobre la mesa
permanecen cubiertas, el jugador sólo puede conocer una parte de lo que está
sucediendo. Así que para ganar necesita interpretar o intuir el comportamiento
de los otros jugadores, lo que incluye identificar cuándo un rival se está
marcando un farol. Y engañarle con faroles propios. En concreto el Texas Hold'em
en su versión multijugador es una variante especialmente compleja, ya que los
participantes desarrollan estrategias de apuestas que siguen a lo largo de
decenas de manos.
Según explican los investigadores, la combinación de
sistemas de aprendizaje reforzado con nuevos algoritmos ha sido clave para que
la máquina pueda superar a los humanos. Bautizado como Pluribus y desarrollado
en colaboración con Facebook, el sistema descubre cómo ganar jugando una y otra
vez contra sí mismo. "Hasta ahora, los grandes logros de la IA sobrehumana
en materia de razonamiento estratégico se habían limitado a competiciones de
dos jugadores", señala Tuomas Sandholm, profesor de informática en la
universidad norteamericana. "Pero la capacidad de vencer a otros cinco
jugadores en un juego tan complejo abre nuevas oportunidades de utilizar IA
para resolver una amplia variedad de problemas del mundo real".
Innovar para ganar
Para la primera ronda de apuestas Pluribus esboza una
estrategia en base a partidas simuladas que juega contra seis copias de sí
mismo. A partir de ese momento, realiza búsquedas más detalladas de posibles
movimientos para cada etapa del juego. La diferencia con anteriores versiones
es que, aunque planea con varias manos de antelación, no elabora una simulación
hasta el fin de la partida, como puede ocurrir con el ajedrez o el Go, dado que en el póquer la cantidad de variables es
inabarcable.
De hecho, los algoritmos de Pluribus han desarrollado
algunos reflejos que sorprenden incluso a sus creadores. La mayoría de los
jugadores de póquer profesionales evitan un tipo de apuestas (llamadas donk
bets, en argot) que en apariencia son ilógicas. Su único objetivo es desestabilizar
a los jugadores que dominan una mano, pero son raras en los jugadores
consagrados. Sin embargo Pluribus las utiliza con relativa frecuencia. "Su
mayor fortaleza es su habilidad para usar estrategias mixtas", ha
declarado Darren Elias, jugador que posee el récord de títulos del World Poker
Tour y uno de los rivales derrotados por Pluribus. "Es lo mismo que
intentamos hacer los humanos, pero para nosotros hay un problema de ejecución;
hacer esto de una manera perfectamente aleatoria y de manera consistente es muy
complicado".
Para ganar, los sistemas de IA suelen adoptar un
modelo que en teoría de juegos se llama equilibrio de Nash o equilibrio del
miedo. Se trata de un marco que asume que los jugadores están aplicando su
mejor estrategia y que ambos conocen la táctica del oponente,. Sin embargo en
un escenario multijugador, ésta puede no ser eficaz, así que Pluribus crea
otras estrategias que le permiten superar sistemáticamente a todos sus
oponentes. Un aspecto que podría aplicarse a negociaciones complejas en
escenarios reales, por ejemplo. Según los científicos, el algoritmo sólo
necesita considerar cinco posibles movimientos para cada oponente, antes de
diseñar su propia estrategia general.
Faroles de IA
Por otra parte Pluribus sabe que para ganar en el
póquer también se necesita ser impredecible. Si un jugador apuesta únicamente
cuando tiene la mejor mano posible, los oponentes rápidamente identifican la
tendencia. Así que la IA no sólo calcula las probabilidades de cada mano, sino
que además equilibra su comportamiento general para desestabilizar a los
rivales, lo que le lleva a marcarse faroles, como cualquier otro jugador.
En 2017, Libratus -un programa de Inteligencia
Artificial creada por el propio Sandholm y su equipo- ya derrotó a los mejores
jugadores del mundo en un torneo de 20 días, en una versión de Texas Hold'em
para dos jugadores. "Jugar a un juego de seis jugadores en lugar de
enfrentarse cara a cara requiere cambios fundamentales en la forma en que la IA
desarrolla su estrategia de juego", explica Noam Brown, estudiante de
doctorado en el Departamento de Ciencias de la Computación de Carnegie Mellon e
investigador de IA para Facebook. "De hecho, creemos que algunas de las
estrategias de juego de Pluribus podrían incluso cambiar la forma en la que
juegan los profesionales".
No hay comentarios:
Publicar un comentario