Ten tijde van vorig jaar veroverde Google DeepMind’s AlphaGo de wereld van de kunstmatige intelligentie (AI) door te laten zien dat een computerprogramma ’s werelds beste menselijke Go-spelers kan verslaan.
Maar in een demonstratie van het koortsachtige tempo van de vooruitgang in de moderne AI, zijn deze week in Nature details gepubliceerd over een nieuwe mijlpaal die is bereikt door een verbeterde versie genaamd AlphaGo Zero.
Met minder rekenkracht en slechts drie dagen trainingstijd versloeg AlphaGo Zero de oorspronkelijke AlphaGo in een wedstrijd van 100 spellen met 100 tegen 0. Het was niet eens de moeite waard om mensen te laten komen.
Leren om Go te spelen
Go is een strategisch spel tussen twee spelers die om de beurt “stenen” op een bord van 19×19 plaatsen. Het doel is om een groter gebied van het bord te omsingelen dan de tegenstander.
Go is voor computers een veel grotere uitdaging gebleken dan schaken om onder de knie te krijgen. Er zijn veel meer mogelijke zetten in elke positie bij Go dan bij schaken, en veel meer mogelijke partijen.
De oorspronkelijke AlphaGo leerde eerst door 30 miljoen zetten van deskundig menselijk spel te bestuderen. Daarna ging het verder dan menselijke expertise door vele partijen tegen zichzelf te spelen, wat maanden computertijd kostte.
In tegenstelling daarmee heeft AlphaGo Zero nooit mensen zien spelen. In plaats daarvan begon het met alleen de regels van het spel te kennen. Na een relatief bescheiden vijf miljoen zelfspelletjes, die slechts drie dagen in beslag namen op een kleinere computer dan de oorspronkelijke AlphaGo, leerde het super-AlphaGo-prestaties.
Fascinerend genoeg bootste het leerproces ruwweg enkele van de stadia na die mensen doorlopen wanneer ze Go onder de knie krijgen. AlphaGo Zero leerde snel om naïeve kortetermijndoelen te verwerpen en ontwikkelde meer strategisch denken, waarbij het veel van de bewegingspatronen genereerde die vaak door menselijke experts op topniveau worden gebruikt.
Maar opmerkelijk genoeg begon het toen sommige van deze patronen te verwerpen ten gunste van nieuwe strategieën die nog nooit eerder waren gezien in menselijk spel.
Verder dan menselijk spel
AlphaGo Zero bereikte deze prestatie door het probleem anders te benaderen dan het oorspronkelijke AlphaGo. Beide versies maken gebruik van een combinatie van twee van de krachtigste algoritmen die AI momenteel voeden: deep learning en reinforcement learning.
Om een spel als Go te spelen, zijn er twee basisdingen die het programma moet leren. Het eerste is een beleid: de waarschijnlijkheid van het doen van elk van de mogelijke zetten in een gegeven positie. Het tweede is een waarde: de waarschijnlijkheid dat een bepaalde positie wordt gewonnen.
In de pure versterkingsleer-aanpak van AlphaGo Zero was de enige informatie die beschikbaar was om het beleid en de waarden te leren, voor het programma om te voorspellen wie er uiteindelijk zou winnen. Om deze voorspelling te doen, gebruikte het zijn huidige beleid en waarden, maar in het begin waren deze willekeurig.
Dit is duidelijk een meer uitdagende aanpak dan de oorspronkelijke AlphaGo, die gebruik maakte van deskundige menselijke zetten om een voorsprong op het leren te krijgen. Maar de eerdere versie leerde beleid en waarden met afzonderlijke neurale netwerken.
De algoritmische doorbraak in AlphaGo Zero was om uit te vinden hoe deze konden worden gecombineerd in slechts één netwerk. Hierdoor kon het proces van trainen door zelf te spelen sterk worden vereenvoudigd, en werd het haalbaar om met een schone lei te beginnen in plaats van eerst te leren wat deskundige mensen zouden doen.
Elo-rating is een veelgebruikte maatstaf voor de prestaties van spelers in spellen als Go en schaken. De beste menselijke speler tot nu toe, Ke Jie, heeft momenteel een Elo-rating van ongeveer 3.700.
AlphaGo Zero trainde drie dagen en haalde een Elo-rating van meer dan 4.000, terwijl een uitgebreide versie van hetzelfde algoritme 40 dagen trainde en bijna 5.200 haalde.
Dit is een verbazingwekkend grote stap voorwaarts ten opzichte van de beste mens – veel groter dan de huidige kloof tussen de beste menselijke schaker Magnus Carlsen (ongeveer 2.800) en het schaakprogramma (ongeveer 3.400).
De volgende uitdaging
AlphaGo Zero is een belangrijke stap voorwaarts voor AI omdat het de haalbaarheid aantoont van puur reinforcement learning, niet gecorrumpeerd door enige menselijke sturing. Dit neemt de noodzaak weg van veel deskundige menselijke kennis om te beginnen, die in sommige domeinen moeilijk te verkrijgen kan zijn.
Het betekent ook dat het algoritme vrij is om compleet nieuwe benaderingen te ontwikkelen die veel moeilijker te vinden zouden zijn geweest als het in eerste instantie beperkt was geweest tot “denken binnen de menselijke kaders”. Opmerkelijk genoeg blijkt deze strategie ook rekenkundig efficiënter te zijn.
Maar Go is een strak begrensd spel met perfecte informatie, zonder de rommeligheid van de meeste echte wereldproblemen. Voor het trainen van AlphaGo Zero moesten miljoenen spellen nauwkeurig worden gesimuleerd, volgens de regels van Go.
Voor veel praktische problemen zijn zulke simulaties rekenkundig onhaalbaar, of zijn de regels zelf minder duidelijk.
Er moeten nog veel meer problemen worden opgelost om een AI voor algemeen gebruik te creëren, een AI die een breed scala aan praktische problemen kan aanpakken zonder domeinspecifieke menselijke tussenkomst.
Maar ook al heeft de mens de strijd met Go-algoritmen nu volledig verloren, gelukkig is AI (in tegenstelling tot Go) geen zero-sum game. Veel van AlphaGo Zero’s spellen zijn inmiddels gepubliceerd, waardoor menselijke Go-spelers een leven lang inspiratie kunnen opdoen.
Het allerbelangrijkste is dat AlphaGo Zero een stap is in de richting van een wereld waarin mensen krachtige AI’s kunnen inzetten om onvoorstelbaar (voor mensen) creatieve oplossingen te vinden voor lastige problemen. In de wereld van AI is er nog nooit een beter moment geweest om ervoor te gaan.