Un programme bat le champion d'Europe du jeu de go, 5-0

eatsalad · #76

Oubliez les robots tueurs, le danger de l'IA viendra de nos propres biais :

Forget Killer Robots—Bias Is the Real AI Danger

"Giannandrea has good reason to highlight the potential for bias to creep into AI. Google is among several big companies touting the AI capabilities of its cloud computing platforms to all sorts of businesses. These cloud-based machine-learning systems are designed to be a lot easier to use than the underlying algorithms. This will help make the technology more accessible, but it could also make it easier for bias to creep in. It will be important to also offer tutorials and tools to help less experienced data scientists and engineers identify and remove bias from their training data."

Invité · #77

La version d'Alpha Go qui a battu Lee Sedol s'est elle même fait battre 100-0 par la nouvelle version "AlphaGo Zero".

Le truc semble être de ne pas lui faire apprendre à jouer à partir de parties humaines mais de laisser l'algorithme trouver lui même les bonnes stratégies.

Bref en enlevant l'humain de l'équation le système apprend plus vite et mieux.

https://www.youtube.com/watch?v=tXlM99xPQC8

I.

neuneutrinos · #78

J'attends de voir une IA sur un RTS.
et battre des joueurs pro ;)

jean7 · #79

Invité a écrit : 14 nov. 2017, 17:21La version d'Alpha Go qui a battu Lee Sedol s'est elle même fait battre 100-0 par la nouvelle version "AlphaGo Zero".

Le truc semble être de ne pas lui faire apprendre à jouer à partir de parties humaines mais de laisser l'algorithme trouver lui même les bonnes stratégies.

Bref en enlevant l'humain de l'équation le système apprend plus vite et mieux.

Les questions que je me pose :
Si on fait jouer AlphaGo Zero contre un duplicata AlphaGo Zero b.
- L'un d'eux prendra-t-il le dessus au bout d'un certain nombre de parties ?
- Sera-t-il un bien meilleur joueur de go ?
- Les parties seront-elles de plus en plus complexes et évoluées ?

Christian · #80

jean7 a écrit : 15 nov. 2017, 02:41 Les questions que je me pose :
Si on fait jouer AlphaGo Zero contre un duplicata AlphaGo Zero b.
- L'un d'eux prendra-t-il le dessus au bout d'un certain nombre de parties ?
- Sera-t-il un bien meilleur joueur de go ?
- Les parties seront-elles de plus en plus complexes et évoluées ?

Il me semble que AlphaGo Zero est construit de cette façon: il a appris en jouant contre lui-même.

Invité · #81

@jean7, @Christian

C'est totalement surprenant que le système fasse un saut de géant quand on a cessé de lui fournir des exemples de parties de champions humains.

Ça semble un fort indice de la direction que prendra l'IA... un apprentissage autonome sans guide.

I.

neuneutrinos · #82

Juste un détails.. .
Ce n'est pas une IA. C'est un abus de langage pour faire vendre du papier.

C'est grosso-modo un algorithme d'apprentissage optimisé pour le jeu de GO.

L'apprentissage c'est globalement le fait d'affiner les statistiques.
en favorisant les coups gagnants au détriments des coups perdants.

Mais cette stratégie posé problème lorsque l'on ne connais pas tout le temps les coups de l'adversaire ( RTS par exemple )
là on s'aperçoit que le mot "intelligences est vite dit...

thewild · #83

neuneutrinos a écrit : 14 nov. 2017, 17:24J'attends de voir une IA sur un RTS.
et battre des joueurs pro

OpenAI a déjà battu des joueurs professionnels cet été sur DOTA 2 . OpenAI

Sinon pour ton dernier post, je ne suis pas sûr que tu aies bien compris ce qu'était AlphaGo. C'est justement une vraie IA, qui n'a plus rien à voir avec les programmes comme Deep Blue d'IBM pour les échecs. Ce genre d'algorithme statistique ne pourrait pas battre un champion du monde de Go, l'arbre des possibles est trop grand et il serait incapable d'estimer correctement la qualité d'un coup.

neuneutrinos · #84

Il est optimisé pour éviter de faire toutes les parties possibles. Mais en test un grand nombre "au hasard" par une méthode similaire à la méthode de monte carlos
Avec un choix optimisé pour le jeu de GO.

Pour openAi et dota2, c'était du 1v1.
Donc des que les joueurs se voit. Il possède toute les informations.

Mais mon petit coeur à envie de voir des matchs de ce genre :D

eatsalad · #85

Ca me donne envie de faire une partie de DOTA2, mais bon se faire traiter de gros noob par des gamins de 15 ans va surement calmer mes ardeurs !

thewild · #86

neuneutrinos a écrit : 15 nov. 2017, 09:55 Il est optimisé pour éviter de faire toutes les parties possibles. Mais en test un grand nombre "au hasard" par une méthode similaire à la méthode de monte carlos
Avec un choux optimisé pour le jeu de GO.

Oui, enfin c'est plus compliqué que ça. Il en teste un grand nombre mais chaque coup dans chaque partie et choisi par une vraie IA, et la valeur de chaque position est aussi estimée par une vraie IA. C'est plus une vraie IA aidée par un algorithme que l'inverse.
En fait, c'est une pure IA, mais qui prend sa décision en se basant sur un nombre important de simulations.

Pour openAi et dota2, c'était du 1v1.
Donc des que les joueurs se voit. Il possède toute les informations.

Tu disais du RTS, ça en est non ? Tu rajoutes des spécificités à chaque fois.

Mais je ne sais pas pourquoi tu te focalises sur le manque d'information. Ce n'est vraiment pas un problème pour une IA, au contraire elles excellent dans ce domaine. Sans cette capacité à extrapoler l'information manquante, les voitures autonomes feraient un carnage à chaque trajet.

neuneutrinos · #87

Je trouve que c'est un bon début.
Mais qu'en 1 v 1 c'est presque limité de parler de stratégie.

C'est mensonger de dire qu'une IA sait jouer à Dota pour le moment.

Il y a des cas où on peut faire une prédiction fiable. et des cas où la prédiction fonctionne en général pas trop mal mais des fois ça ne fonctionne pas.
biais de raisonnement pour un être vivant :D

Comment évite-t-on les erreurs ?
Avec de l'information et en apprenant à traiter l'information.
Les véhicules autonomes sont bourrés de capteurs, bien plus que le simple champ visuel...

Or cette caractéristique est un challenge de taille dans un jeu temps réel où une information peut rester caché et forcer un mauvais comportement.

Et pour dota, il y a une composante de jeu d'équipe qui n'aide pas.

#88

neuneutrinos a écrit : 15 nov. 2017, 08:57
L'apprentissage c'est globalement le fait d'affiner les statistiques.
en favorisant les coups gagnants au détriments des coups perdants.

Mais cette stratégie posé problème lorsque l'on ne connais pas tout le temps les coups de l'adversaire ( RTS par exemple )
là on s'aperçoit que le mot "intelligences est vite dit...

Le poker no limit est aussi a information incomplete et ce genre de programme bat deja les meilleurs humain en 1v1.

neuneutrinos · #89

Pour le poker à une information incomplète et c'est un beau tour de force !

J'avais entendu que le Poker était un jeu résolu mais je ne me suis pas penché dessus. J'étais un algo d'apprentissage ?

#90

neuneutrinos a écrit : 15 nov. 2017, 11:27 Pour le poker à une information incomplète et c'est un beau tour de force !

J'avais entendu que le Poker était un jeu résolu mais je ne me suis pas penché dessus. J'étais un algo d'apprentissage ?

C'est un peu a cheval entre les deux. En tout cas , c'est un algorithme auto-généré, et auto-amelioré.
https://www.ijcai.org/proceedings/2017/0772.pdf

Je ne crois pas que le poker soit totalement resolu. Il me semble que le 1v1 pot limit l'est. Quand on ajoute des joueurs ou que les mises ne sont pas limitées, la complexité augmente enormément.

eatsalad · #91

spin-up a écrit : 15 nov. 2017, 12:00 C'est un peu a cheval entre les deux. En tout cas , c'est un algorithme auto-généré, et auto-amelioré.
https://www.ijcai.org/proceedings/2017/0772.pdf

Je ne crois pas que le poker soit totalement resolu. Il me semble que le 1v1 pot limit l'est. Quand on ajoute des joueurs ou que les mises ne sont pas limitées, la complexité augmente enormément.

La machine a l'avantage de ne pas subir la pression psychologique d'une mise importante, ca doit aider un peu non ?

#92

neuneutrinos a écrit : 15 nov. 2017, 09:55 Il est optimisé pour éviter de faire toutes les parties possibles. Mais en test un grand nombre "au hasard" par une méthode similaire à la méthode de monte carlos

D'une conférence de Hassabis, j'ai retenu qu'il réalise environ 25 000 parties de Go contre lui-même en un peu plus de 10 minutes. Je ne suis pas sûr, par contre, que la composante qui analyse ces parties (pour en tirer des infos sur quel côté joue le mieux) soit de type monte-carlo. Hassabis disait que AlphaGo Zero avait en quelque sorte reproduit 3000 ans d'expérience humaine du Go en environ 72h avant de passer à une autre étape

L'équipe développe d'autres systèmes. Par exemple, un système capable de reproduire des scènes visuelles tridimensionnelles à partie d'images bidimensionnelles de manière autonome, sans être programmer pour. Ce qui est fascinant c'est la manière "évolutive" dont le programme trie les versions moins effectives de lui-même pour arriver à faire preuve d'une forme de créativité.

Créativité qui sert l'humain en retour. Par exemple Lee Sedol a connu une longue séquence invaincu après s'être fait battre par AlphaGo. D'une part parce que ces adversaires humains sont moins forts mais, d'autre part, parce qu'il s'est inspiré de la manière de jouer d'AlphaGo.

Jean-François

#93

eatsalad a écrit : 15 nov. 2017, 12:01 La machine a l'avantage de ne pas subir la pression psychologique d'une mise importante, ca doit aider un peu non ?

Ca existe mais les joueurs professionnels ne sont en général pas affectés par la peur de miser. Et les adversaires de Libratus n'ont pas joué d'argent réel contre lui.

eatsalad · #94

spin-up a écrit : 15 nov. 2017, 12:28
eatsalad a écrit : 15 nov. 2017, 12:01 La machine a l'avantage de ne pas subir la pression psychologique d'une mise importante, ca doit aider un peu non ?
Ca existe mais les joueurs professionnels ne sont en général pas affectés par la peur de miser. Et les adversaires de Libratus n'ont pas joué d'argent réel contre lui.

Ha ok !
Du coup la force de l'ia réside dans le rapide apprentissage de la façon de jouer de ses adversaires.

#95

eatsalad a écrit : 15 nov. 2017, 13:07 Ha ok !
Du coup la force de l'ia réside dans le rapide apprentissage de la façon de jouer de ses adversaires.

Apparemment non.
Au poker de haut niveau, pour gagner, il faut jouer de facon optimale, etre capable d'exploiter les tendances qu'on identifie chez l'adversaire, mais il faut aussi savoir se rendre inexploitable.

Libratus est composé de 3 modules:
Un module qui calcule l'equilibre de Nash du jeu, c'est a dire la facon optimale de jouer face a un joueur parfait. Ce module est basé sur de l'auto-apprentissage (des milliards de mains jouées contre lui meme)
Un solveur, qui construit et module la strategie au fil du jeu.
Un tracker qui analyse tous les coups joués précédemment pour reperer et reparer ses failles. L'IA n'appprend pas vraiment la facon de jouer de ses adversaires, mais si une strategie adverse la met en defaut, l'IA s'adaptera pour que ca ne soit plus le cas.

Par contre pour revenir sur l'aspect psychologique, le fait que l'IA ne ressente pas la fatigue et ne perde jamais de concentration est un gros avantage sur un jeu avec une faible marge.

eatsalad · #96

Merci pour les précisions, bien intéressant.

Ca m'a amené à lire ca : What is an intuitive explanation of counterfactual regret minimization?

Bon, la question que je me pose maintenant est : est-ce que si on remplace Trump le « vieux » et Kim le « petit gros » par des AI, on serait moins en danger ?

Vathar · #97

thewild a écrit : 15 nov. 2017, 10:24
Pour openAi et dota2, c'était du 1v1.
Donc des que les joueurs se voit. Il possède toute les informations.
Tu disais du RTS, ça en est non ? Tu rajoutes des spécificités à chaque fois.

DOTA n'est pas un RTS, qui implique une gestion de plusieurs unités (pour la dimension strategique) en temps réel (d'ou le nom). Un joueur de DOTA contrôle son personnage (et éventuellement quelques invocations annexes), pas une armée de dizaines/centaines d'unités. Ceci dit, ce serait probablement un argument en faveur de l'IA, qui peut réaliser plus d'actions par minute (APM) et complètement ridiculiser un humain en terme de microgestion.

Par contre ce qui me "chagrine" sur l'exemple de DOTA, c'est qu'il s'agit d'un jeu d'équipe. Avoir un IA qui bat un humain 1 contre 1 c'est comme avoir un robot qui battrait un joueur humain 1 contre 1 au basketball, pas vraiment la formule traditionnelle pour le jeu.

Christian · #98

eatsalad a écrit : 15 nov. 2017, 15:13 Bon, la question que je me pose maintenant est : est-ce que si on remplace Trump le « vieux » et Kim le « petit gros » par des AI, on serait moins en danger ?

Déjà vu: Colossus: The Forbin Project.

jean7 · #99

Christian a écrit : 15 nov. 2017, 04:03Il me semble que AlphaGo Zero est construit de cette façon: il a appris en jouant contre lui-même.

C'est différent.

Ce que je me demande c'est si en clonant AlphaGo Zero en un AlphaGo Zero b, et en les faisant jouer exclusivement l'un avec l'autre on constaterait à certaines échéances une suprématie flagrante de l'une sur l'autre.

Je veux dire que ces entités ne seraient au point de départ différentes que par leur cloisonnement physique.
Jouant l'une en permanence avec l'autre, elles devraient logiquement toujours acquérir la même conaissance des mêmes parties et en tirer les mêmes conclusions...
ou pas.

Je connais très peu le jeu de go et moins encore le fonctionnement des AI.
Mais il me semble qu'elles doivent faire des choix hasardeux (entre plusieurs coups de bénéfice calculé égaux) pour gagner et que deux processeurs d'une même série ne peuvent être parfaitement identiques.
Est-ce que ça peut suffire pour créer une divergence visible a terme ?

Est-il évident, ou certain, que le résultat d'une telle expérience soit connu à l'avance ?
Ça a d'ailleurs sans doute déjà été fait avec d'autres AI pour d'autres jeux ?

Invité · #100

jean7 a écrit : 16 nov. 2017, 01:15 Ce que je me demande c'est si en clonant AlphaGo Zero en un AlphaGo Zero b, et en les faisant jouer exclusivement l'un avec l'autre on constaterait à certaines échéances une suprématie flagrante de l'une sur l'autre.

Je veux dire que ces entités ne seraient au point de départ différentes que par leur cloisonnement physique.
Jouant l'une en permanence avec l'autre, elles devraient logiquement toujours acquérir la même conaissance des mêmes parties et en tirer les mêmes conclusions...
ou pas.

Salut.

L'algorithme fait une évaluation probabiliste des positions. En faisant jouer une version contre une copie identique (à l'initialisation aléatoires des paramètres près), je pense que les deux s'amélioreraient sensiblement au même rythme.

Est-ce que les différences basées sur les conditions aléatoires du départ et sur les évaluations probabilistes des positions permettraient à l'une des deux de devenir beaucoup plus forte que l'autre ? Ça me semble assez peu probable.

I.

Forum Sceptique

Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Re: Un programme bat le champion d'Europe du jeu de go, 5-0

Qui est en ligne ?