Apprendre à jouer aux jeux à deux joueurs à information parfaite sans connaissance

Quentin Cohen-Solal

Communication Dans Un Congrès Année : 2019

Apprendre à jouer aux jeux à deux joueurs à information parfaite sans connaissance

(1)

Quentin Cohen-Solal

Fonction : Auteur
PersonId : 969307

Equipe MAD - Laboratoire GREYC - UMR6072

Résumé

In this paper, several techniques for learning game states evaluation functions by reinforcement are proposed. The first is to learn the values of the game tree instead of restricting oneself to the value of the root. The second is to replace the classic gain of a game (+1 / −1) with a heuris-tic favoring quick wins and slow defeats. The third corrects some evaluation functions taking into account the resolution of states. The fourth is a new action selection distribution. Finally, the fifth is a modification of the minimax with unbounded depth extending the best sequences of actions to the terminal states. In addition, we propose another variant of the unbounded minimax, which plays the safest action instead of playing the best action. The experiments conducted suggest that this improves the level of play during confrontations. Finally, we apply these different techniques to design a program-player to the Hex game (size 11) reaching the level of Mohex 2.0 with reinforcement learning from self-play without knowledge.

Dans cet article, plusieurs techniques pour l'apprentissage par renforcement de fonctions d'évaluation d'états de jeu sont proposées. La première consiste à apprendre les va-leurs de l'arbre de jeu au lieu de se restreindre à la va-leur de la racine. La seconde consiste à remplacer le gain classique d'un jeu (+1 / −1) par une heuristique favo-risant les victoires rapides et les défaites lentes. La troi-sième permet de corriger certaines fonctions d'évaluation en tenant compte de la résolution des états. La quatrième est une nouvelle distribution de sélection d'actions. Enfin, la cinquième est une modification du minimax à profon-deur non bornée étendant les meilleures séquences d'ac-tions jusqu'aux états terminaux. En outre, nous proposons une autre variante du minimax non borné, qui joue l'ac-tion la plus sure au lieu de jouer la meilleure action. Les expériences menées suggèrent que cela améliore le niveau de jeux lors des confrontations. Enfin, nous appliquons ces différentes techniques pour concevoir un programme-joueur au jeu de Hex (taille 11) atteignant le niveau de Mohex 2.0 à la suite d'un apprentissage par renforcement contre soi-même sans utilisation de connaissance.

Mots clés

Sequential Decision Games Planning Learning Reinfor- cement Unbound Minimax Décision séquentielle, Jeux, Planification, Apprentissage, Renforcement, Minimax non borné

Domaines

Informatique [cs]

Fichier principal

paper 6.pdf (253.61 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Jérôme LANG : Connectez-vous pour contacter le contributeur

https://hal.science/hal-02328750

Soumis le : mercredi 23 octobre 2019-12:18:47

Dernière modification le : mercredi 20 mars 2024-16:20:04

Archivage à long terme le : vendredi 24 janvier 2020-17:37:01

Dates et versions

hal-02328750 , version 1 (23-10-2019)

Identifiants

HAL Id : hal-02328750 , version 1

Citer

Quentin Cohen-Solal. Apprendre à jouer aux jeux à deux joueurs à information parfaite sans connaissance. Conférence Nationale en Intelligence Artificielle, Jul 2019, Toulouse, France. ⟨hal-02328750⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS GREYC GREYC-MAD COMUE-NORMANDIE ENSICAEN UNICAEN

119 Consultations

367 Téléchargements

Apprendre à jouer aux jeux à deux joueurs à information parfaite sans connaissance

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager