Apprendre à jouer aux jeux à deux joueurs à information parfaite sans connaissance - GREYC mad Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Apprendre à jouer aux jeux à deux joueurs à information parfaite sans connaissance

Résumé

In this paper, several techniques for learning game states evaluation functions by reinforcement are proposed. The first is to learn the values of the game tree instead of restricting oneself to the value of the root. The second is to replace the classic gain of a game (+1 / −1) with a heuris-tic favoring quick wins and slow defeats. The third corrects some evaluation functions taking into account the resolution of states. The fourth is a new action selection distribution. Finally, the fifth is a modification of the minimax with unbounded depth extending the best sequences of actions to the terminal states. In addition, we propose another variant of the unbounded minimax, which plays the safest action instead of playing the best action. The experiments conducted suggest that this improves the level of play during confrontations. Finally, we apply these different techniques to design a program-player to the Hex game (size 11) reaching the level of Mohex 2.0 with reinforcement learning from self-play without knowledge.
Dans cet article, plusieurs techniques pour l'apprentissage par renforcement de fonctions d'évaluation d'états de jeu sont proposées. La première consiste à apprendre les va-leurs de l'arbre de jeu au lieu de se restreindre à la va-leur de la racine. La seconde consiste à remplacer le gain classique d'un jeu (+1 / −1) par une heuristique favo-risant les victoires rapides et les défaites lentes. La troi-sième permet de corriger certaines fonctions d'évaluation en tenant compte de la résolution des états. La quatrième est une nouvelle distribution de sélection d'actions. Enfin, la cinquième est une modification du minimax à profon-deur non bornée étendant les meilleures séquences d'ac-tions jusqu'aux états terminaux. En outre, nous proposons une autre variante du minimax non borné, qui joue l'ac-tion la plus sure au lieu de jouer la meilleure action. Les expériences menées suggèrent que cela améliore le niveau de jeux lors des confrontations. Enfin, nous appliquons ces différentes techniques pour concevoir un programme-joueur au jeu de Hex (taille 11) atteignant le niveau de Mohex 2.0 à la suite d'un apprentissage par renforcement contre soi-même sans utilisation de connaissance.
Fichier principal
Vignette du fichier
paper 6.pdf (253.61 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02328750 , version 1 (23-10-2019)

Identifiants

  • HAL Id : hal-02328750 , version 1

Citer

Quentin Cohen-Solal. Apprendre à jouer aux jeux à deux joueurs à information parfaite sans connaissance. Conférence Nationale en Intelligence Artificielle, Jul 2019, Toulouse, France. ⟨hal-02328750⟩
119 Consultations
367 Téléchargements

Partager

Gmail Facebook X LinkedIn More