Facebook AI Pluribus défait les meilleurs pros du poker au Texas Hold'em à 6 joueurs

Cette vidéo montre des exemples de mains de l'expérience Pluribuss contre des joueurs de poker professionnels. Les cartes sont révélées pour mieux comprendre la stratégie de Pluribus. Avec l'aimable autorisation de l'Université Carnegie-Mellon.

Les IA de poker sont généralement bonnes contre des adversaires humains lorsque le jeu est limité à deux joueurs. Maintenant, les chercheurs de l'Université Carnegie Mellon et de Facebook ont ​​élevé la barre avec un Pluribus baptisé par l'IA, dans lequel 15 joueurs humains professionnels au Texas Hold'em avec six joueurs sans limite ont concouru et ont gagné. Les chercheurs décrivent comment ils ont réalisé cet exploit dans un nouvel article de Science.

Avec plus de 5 000 mains chacune, cinq pièces d'IA ont réuni deux des meilleurs joueurs professionnels: Chris "Jesus" Ferguson, six fois vainqueur des World Series of Poker, et Darren Elias, qui détient actuellement le record du plus grand nombre de tournois du World Poker Tour. , Pluribus les a vaincus tous les deux. La même chose s’est produite lors d’une deuxième expérience dans laquelle Pluribus a affronté cinq professionnels sur un pool de 13 joueurs humains pour 10 000 mains.

Tuomas Sandholm, co-auteur de l'Université Carnegie Mellon, a passé 16 ans à explorer les défis uniques que le poker apporte à l'IA. No-Limit Texas Hold'em est un jeu appelé "Information imparfaite" car il y a des cartes cachées (tenues dans les mains de l'adversaire) et il n'y a aucune restriction sur le montant de la mise que vous pouvez faire. , En revanche, le statut des échecs et des lots du plateau et de tous les personnages est connu de tous les joueurs. Les joueurs de poker peuvent occasionnellement bluffer (et le faire), c'est donc aussi un jeu d'informations trompeuses

En 2015, la première version de Sandholm d'un jeu de poker nommé Claudico est apparue sur Brains Vs. Tournoi d'intelligence artificielle au tournoi Texas Hold'em face à quatre joueurs professionnels avec seulement deux joueurs en main River Casino à Pittsburgh. Après 80 000 mains jouées en deux semaines, Claudico n'a pas encore atteint le seuil statistique permettant d'expliquer la victoire: la marge doit être suffisamment grande pour permettre à 99,98% des joueurs de s'assurer que la victoire de l'IA n'est pas accidentelle.

Sandholm et al, En 2017, un autre KI nommé Libratus a suivi. Cette fois, l'IA ne s'est pas concentrée sur l'exploitation des erreurs de ses adversaires, mais sur l'amélioration de son propre jeu – une approche apparemment plus fiable. "Nous avons essayé de combler les lacunes de notre propre stratégie car cela rend notre jeu plus sûr et plus sûr", a déclaré Sandholm à IEEE Spectrum à l'époque. "Lorsque vous exploitez vos adversaires, vous êtes de plus en plus ouvert à l'exploitation." Les chercheurs ont également augmenté le nombre de jeux joués à 120 000.

L'intelligence artificielle a prévalu, alors même que les quatre joueurs humains essayaient de conspirer contre elle, et ont accepté de réaliser des enjeux étranges pour confondre Libratus. Ars 'Sam Machkovech a écrit à l'époque: "Libratus a gagné contre 120 000 mains de poker combinées contre quatre professionnels du poker en ligne, ses 1,7 million de dollars combinés avec autant de mains le rôle principal: la victoire avec une signification statistique. "

Le pro du poker en ligne Dong Kim a lancé un programme d'intelligence artificielle appelé Claudico en 2015. Il a perdu 2017 en raison d'un programme mis à jour, Libratus.
agrandir / Le pro du poker en ligne Dong Kim a lancé un programme d'intelligence artificielle appelé Claudico en 2015. Il a perdu 2017 en raison d'un programme mis à jour, Libratus.

Université Carnegie Mellon

Mais Libratus a toujours joué en heads-up contre un autre joueur. Un casse-tête beaucoup plus difficile consiste à jouer au poker avec plusieurs joueurs. C’est la raison pour laquelle Pluribus s’appuie sur ses travaux précédents avec Libratus et offre quelques nouvelles fonctionnalités importantes qui lui permettent de développer des stratégies gagnantes dans les jeux multijoueurs.

Sandholm et son doctorant, Noam Brown, titulaire d'un doctorat de la recherche artificielle sur l'intelligence artificielle (FAIR) de Facebook, ont utilisé les approches d'abstraction d'action et d'abstraction d'information pour réduire le nombre d'actions différentes dont l'IA doit tenir compte. stratégie. Chaque fois que Pluribus atteint un point dans le jeu, il doit agir, il forme un sous-jeu – une représentation qui fournit une abstraction plus fine du jeu réel, similaire à un modèle, explique Sandholm.

"Cela remonte quelques actions et fait une sorte de réflexion théorique sur le jeu", a-t-il déclaré. À chaque fois, Pluribus doit développer quatre stratégies de continuation pour chacun des cinq joueurs humains via un nouvel algorithme de recherche avec une anticipation limitée. Selon Sandholm, cela donne "au total quatre à six millions de stratégies de continuation différentes".

Comme Libratus, Pluribus n’utilise aucun algorithme spécifique au poker. Il apprend simplement les règles de ce jeu d'informations imparfait et ensuite joue contre lui-même pour développer sa propre stratégie gagnante. Pluribus a donc découvert par lui-même qu'il était préférable de développer une stratégie de jeu mixte et imprévisible – la sagesse conventionnelle des meilleurs joueurs humains d'aujourd'hui. "Nous n'avons même pas dit:" La stratégie doit être définie au hasard ", a déclaré Sandholm. "L'algorithme a automatiquement découvert qu'il devrait être randomisé, et comment et avec quelles probabilités dans quelles situations."

En fait, Pluribus a confirmé un peu la sagesse conventionnelle du poker: ce n'est tout simplement pas une bonne idée de "boiter" dans une main, ce qui signifie appeler la big blind au lieu de coucher ou d'élever – à moins, bien sûr, de jouer à petite échelle. aveugle, si un simple appel coûte la moitié moins que les autres joueurs. Alors que les joueurs humains évitent généralement ce que l’on appelle "les paris sur le donk" – un joueur termine un tour avec un appel mais le tour suivant commence par un pari – Pluribus a placé Donk beaucoup plus souvent que ses adversaires humains.

"D'une certaine manière, Pluribus joue comme les humains", a déclaré Sandholm. "À d'autres égards, il joue complètement les stratégies martiennes." En particulier, Pluribus fait des tailles d'utilisation inhabituelles et est meilleur pour la randomisation.

"Sa plus grande force réside dans sa capacité à appliquer des stratégies mixtes", a déclaré Elias, l'un des joueurs professionnels ayant participé à l'expérience avec Pluribus. "C'est la même chose que les gens essaient, c'est une question d'exécution pour les gens – de manière complètement aléatoire et cohérente, la plupart des gens ne peuvent tout simplement pas."

"Ces IA ont vraiment montré que le jeu avait une profondeur supplémentaire que les gens ne comprenaient pas."

"C'était incroyablement fascinant de jouer contre le poker et de voir certaines des stratégies qu'il a choisies", a déclaré Michael "Gags" Gagliano, un autre joueur de poker participant. "Il y a des jeux que les gens ne font pas du tout, en particulier en termes de taille de pari, les bots / IA jouent un rôle important dans le développement du poker et c'était incroyable de pouvoir faire l'expérience de première main dans ce grand pas vers l'avenir. "

Ce type d'intelligence artificielle pourrait être utilisé pour développer des médicaments qui, par exemple, capturent des bactéries résistantes aux antibiotiques, ou pour améliorer la cybersécurité ou les systèmes robotiques militaires. Sandholm cite la négociation ou la tarification multipartite – tels que Amazon, Walmart et Target – comme une application spécifique cherchant à compenser les prix les plus compétitifs. Un autre exemple est les dépenses optimales des médias pour les campagnes politiques et les stratégies d'enchères aux enchères. Sandholm a déjà cédé une grande partie de la technologie de poker développée dans son laboratoire à deux startups: Strategic Machine et Strategy Robot. Le premier démarrage est intéressant pour les jeux et autres applications de divertissement. Strategy Robot se concentre sur les applications de défense et de renseignement.

Lorsque Libratus a battu des joueurs humains en 2017, on se demandait si le poker pouvait toujours être considéré comme un jeu d'adresse et si les jeux en ligne seraient bientôt dominés par des robots déguisés. Certains ont convenu que Libratus avait besoin d’un énorme matériel informatique pour analyser son jeu et trouver une façon de l’améliorer: 15 millions d’heures et 1400 cœurs de cœur de processeur au cours du match. Cependant, Pluribus nécessite une capacité de traitement bien inférieure, car sa stratégie de plan directeur peut être complétée en seulement huit jours avec seulement 12 400 heures de base et 28 cœurs en jeu réel. Alors, est-ce le coup de grâce pour le poker basé sur les compétences?

L'algorithme a eu un tel succès que les chercheurs ont décidé de ne pas publier son code, craignant qu'il ne soit utilisé pour vider les caisses enregistreuses des sociétés de poker en ligne. "Cela pourrait être très dangereux pour la communauté du poker", a déclaré Noam Brown, un ancien étudiant de la CMU qui a aidé à développer l'algorithme, a déclaré à Technology Review.

Sandholm reconnaît le risque de défier les robots sur les forums de poker en ligne, mais la destruction du poker n'a jamais été son objectif, et il pense toujours que c'est un jeu d'adresse. "J'ai adoré le jeu parce que ces IA ont vraiment montré qu'il existait une profondeur de jeu supplémentaire que les gens ne comprenaient pas, même les plus brillants joueurs professionnels jouant des millions de mains", a-t-il déclaré. "J'espère donc que cela ajoutera à l'excitation du poker en tant que jeu récréatif."

DOI: science, 2019. 10.1126 / science.aay2400 (À propos des DOI).

Image d'annonce de Steve Grayson / WireImage / Getty Images

Facebook AI Pluribus défait les meilleurs pros du poker au Texas Hold'em à 6 joueurs
4.9 (98%) 32 votes
 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *