Affronter une IA en papier

Thématiques

  • Intelligence artificielle
  • Apprentissage automatique par renforcement

Participants 2

Durée 30 min

Public Dès 8 ans

Prérequis Aucun. Préférable si les personnes connaissent déjà les règles des échecs.

Matériel

  • Échiquier de 3 cases sur 3
  • 6 pions, 3 blancs et 3 noirs
  • 24 boîtes (type boîtes d’allumettes)
  • 55 perles de couleur (4 couleurs, 14 perles par couleur)

Préparation

  • Imprimer les documents résumant les règles du jeu
  • Ranger les perles dans les boîtes correspondantes

Déroulé

Règles du jeu (5 min)

Mise en place. On joue sur un échiquier de 3 cases sur 3, avec 6 pions, 3 blancs et 3 noirs, initialement placés sur les rangées en haut et en bas de l’échiquier. Comme aux échecs, les blancs commencent.

Déplacements. Les pions se déplacent comme aux échecs, sans le double pas. Ils avancent donc en ligne droite, seulement si la case devant eux est libre. Si une case en diagonale est occupée par un pion adverse, on peut le manger, prendre sa place et l’enlever du jeu.

Victoire. Un joueur gagne dès qu’au moins une des conditions suivantes est remplie :

  • Il a mangé tous les pions adverses,
  • Un de ses pions a traversé le terrain, il a atteint la rangée de départ adverse,
  • Son adversaire n’a plus aucun coup à jouer, ses pions sont bloqués.

Deux participants peuvent s’affronter pour mieux prendre en main les règles.

L’intelligence artificielle (5 min)

L’humain joue les pions blancs. L’IA joue les noirs. Pour jouer ce rôle, il suffit de suivre les étapes suivantes :

Trouver la boîte correspondant à l’état du jeu. L’IA est constituée de 24 boîtes, correspondant aux 24 états possibles (position des pions) du jeu. Il faut donc trouver la boîte où les pions sont dans la même position que sur l’échiquier réel. Attention, si un état semble manquer parmi les boîtes disponibles, chercher son miroir : les deux positions étant équivalentes pour le jeu, elles sont regroupées en une seule boîte.

Tirer un coup au sort. Sur la boîte choisie précédemment sont dessinées des flèches. Chacune représente un coup possible pour l’IA. La boîte contient des perles colorées, une par flèche. Pour connaître le coup de l’IA, tirer au hasard une perle de la boîte, regarder sa couleur, et jouer le coup désigné par la flèche de même couleur. Laissez la perle sortie à côté de la boîte.

Remettre certaines perles dans leur boîte. À la fin de la partie,

  • Si l’IA perd, retirer du jeu la dernière perle sortie et replacer toutes les autres dans leur boîte,
  • Si l’IA gagne, remettre toutes les perles dans leur boîte.

S’il faut tirer une perle dans une boîte vide, on considère que l’IA abandonne. L’humain gagne donc la partie, et on retire du jeu la dernière perle sortie, celle qui a amené à cette boîte vide.

Entraînement (15 min)

Les participants jouent à tour de rôle contre l’IA, pendant environ une dizaine de parties. Si au début, la victoire est facile, l’IA va vite devenir imbattable. Le jeu est fait de telle sorte que si les noirs (ici l’IA) ne fait que des coups parfaits, les blancs ne peuvent pas gagner.

Conclusion (5 min)

À l'instar d'un enfant qui vient de se brûler en mettant sa main dans le feu à qui l'on interdit de jouer avec le feu, on empêche l'IA de rejouer ce coup qui l'a faite perdre. Petit à petit, tous les coups perdants sont ôtés des possibilités de l'IA. Il ne lui restera que des coups gagnants. Le jeu est ainsi fait qu'en jouant parfaitement, le second joueur ne peut pas perdre.

L'IA apprend via un système de récompenses et de punitions. Dans notre exemple, il s'agit uniquement de punitions. On demande à l'IA de jouer une partie. Si elle perd, on la punit de façon qu'elle ne reproduise plus l'erreur qu'elle a commise pour perdre. À force elle ne commet plus d'erreur.

Nous aurions également pu procéder par récompenses. Lorsque que l'IA gagne, on rajoute une perle de la couleur du coup gagnant dans la dernière boîte. Ainsi, l'IA a plus de chance de reproduire ce coup gagnant plus tard. Notez que les perles des coups perdant restent présentes, il y a donc une petite chance pour que ces coups soient joués même après cent parties. On peut donc cumuler les deux approches : récompenser en rajoutant des perles gagnantes et punir en enlevant les perles perdantes.

Le procédé ainsi mit en valeur se nomme l'apprentissage par renforcement (plus connu avec l'anglais reinforcement __ learning ou RL).

Ressources

Ressources en ligne