Pluribus, ou comment une intelligence artificielle développée par Facebook est parvenue à vaincre des champions de poker

Il y a eu Deep Blue pour les échecsAlphaGo pour le jeu de Go, il y a maintenant Pluribus pour le poker. L’intelligence artificielle, en partie développée par Facebook, est parvenue à vaincre plusieurs professionnels du poker ; notamment deux grands champions : Darren Elias et Chris Ferguson. C’est une étape majeure dans la recherche sur l’intelligence artificielle et en théorie des jeux. Une autre IA surdouée au poker, Libratus, avait réussi à battre les meilleurs joueurs de la discipline en match un contre un. Mais c’est la première fois que l’IA parvient à gagner des matchs à 6 joueurs, affrontant et vainquant ainsi les 5 autres joueurs, et gérant des événements imprévisibles et spécifiques au jeu comme le bluff.

Image Pixabay Poker

Une première dans le monde de l’IA

Passer du développement d’une intelligence artificielle pour des matchs à 2 joueurs à celui d’une intelligence artificielle pour des matchs à 6 joueurs, c’est comme passer de la création de site avec WordPress à la création de site entièrement à la main, en utilisant plusieurs langages. Le poker comporte une part bien plus importante d’aléatoire que le jeu de go ou les échecs. Par exemple : on ne voit pas en temps réel les cartes en main des autres joueurs, contrairement aux deux jeux de plateau, où l’on peut observer la disposition des pièces à tout moment. Aussi, on obtient des informations trompeuses, dû au fait que les autres joueurs peuvent bluffer. C’est donc un défi de taille que les chercheurs de Facebook et de l’université Carnegie-Mellon ont relevé.

La technique utilisée par Pluribus

Calculer toutes les possibilités de parties à 6 joueurs est impossible, même pour une machine. Les chercheurs ont donc du utiliser de nombreux stratagèmes pour obtenir ces résultats. Tout d’abord, l’IA fait abstraction de certains détails, et considère par exemple que deux mises différentes de quelques dollars seulement (par exemple 100$ et 105$), sont équivalentes. Cela va permettre à Pluribus de fonctionner correctement et de réduire drastiquement le nombre de facteurs qu’elle doit prendre en compte. 

Image Facebook Fonctionnement Pluribus

L’intelligence artificielle de Facebook se base sur le principe du Machine Learning, un domaine reconnu de l’IA. Ceci lui a permis d’apprendre et de s’améliorer seule : elle s’est entraînée à jouer contre elle-même, arrivant à développer des stratégies assez surprenantes. Ainsi, le nom exact de son programme d’apprentissage est « minimisation du regret contre-factuel de Monte Carlo ». Le terme « minimisation du regret » signifiant qu’à la fin de chaque partie, Pluribus va retourner explorer toutes les issues de partie possibles qu’elle aurait pu envisager au cours de celle-ci, ces éventualités sont organisées avec la méthode « Monte-Carlo », qui les organise à l’aide d’un arbre, où chaque feuille est un résultat. Le terme « contre-factuel » désigne quant à lui le fait que les résultats obtenus lors de l’exploration sont particuliers du fait que l’IA joue contre elle-même. 

Mais la force de Pluribus réside dans les stratégies qu’elle utilise : l’intelligence artificielle possède plusieurs stratégies pour chaque situation à laquelle elle peut faire face, et est capable de changer de stratégie lorsqu’elle le juge nécessaire. Cela empêche donc ses adversaires de comprendre la façon dont elle joue. Elle sait se montrer imprévisible : les chercheurs appellent cela « l’aléatoire cohérent ».

Les conséquences de cette prouesse

Grâce au fait que l’intelligence de Pluribus soit entièrement basée sur elle-même et exempté de toute donnée humaine, la manière dont elle joue est probablement optimale. Le coût de son entraînement a été très faible comparé aux plusieurs millions habituels pour développer une intelligence artificielle : autour de 150 dollars d’après les chercheurs. Une IA si puissante qui nécessite si peu d’entraînement peut donc espérer révolutionner de nombreux domaines. Celui de l’automobile par exemple, avec des voitures autonomes bien coordonnées qui réussiraient à ne pas créer de bouchons lors de périodes de gros trafics routiers, ou encore en cybersécurité, avec un logiciel de défense qui testerait des milliers d’attaques différentes, en se renforçant du moyen de protection adapté à chaque test.

Pour plus d’informations sur la stratégie et les parties qu’a joué Pluribus, je vous invite à consulter l’article officiel du blog Facebook : https://ai.facebook.com/blog/pluribus-first-ai-to-beat-pros-in-6-player-poker/.

Laisse un commentaire !