Dit spelletje is niet langer voor mensen…

Eeuwenlang was het klassieke oosterse bordspel Go (zie kader) het domein van slimme mensen. Maar daar begon een paar jaar geleden geleden verandering in te komen. Toen kwam Google namelijk op de proppen met een algoritme dat gespecialiseerd was in het spelen van Go. En dat hebben we geweten. In 2015 versloeg AlphaGo Lee regerend Go-wereldkampioen Lee Sedol: van de vijf potjes die ze samen speelden, verloor Sedol er vier. En in 2016 moest ook de Europees kampioen Fan Hui in AlphaGo zijn meerdere erkennen: hij verloor alle vijf de potjes. En eerder dit jaar rekende AlphaGo af met de beste Go-speler ter wereld Ke Jie. Dat was echter een nipte overwinning: AlphaGo versloeg Ke Jie met een half puntje verschil.

Over Go

Het bordspel bestaat uit negentien bij negentien lijnen die samen 361 kruispunten vormen. Spelers mogen om beurten een zwarte of witte steen op een leeg kruispunt leggen. Het doel? Gebieden op het bord veroveren door ze te omsingelen met stenen van de eigen kleur. Gemiddeld kan een speler op het moment dat deze aan zet is, kiezen uit zo’n 200 stappen (tien keer meer dan tijdens schaken) en zijn in het spel meer uitkomsten mogelijk dan er atomen in het universum zijn.

AlphaGo Zero
Voor wie – op basis van dat laatste potje – goede hoop heeft dat menselijke Go-spelers het algoritme nog eens te slim af zijn, hebben we nu slecht nieuws. AlphaGo heeft namelijk een opvolger gekregen: AlphaGo Zero. En die opvolger heeft zich in enkele weken tijd ontpopt tot een betere Go-speler dan het algoritme dat eerder dit jaar nog nét iets te sterk was voor Ke Jie. Sterker nog: AlphaGo Zero heeft dat algoritme verpulvert: het won met 100-0. En daarmee zijn wij mensen nu officieel kansloos.

Zelf geleerd
Het nieuwe algoritme wordt beschreven in het blad Nature en is volgens onderzoekers waarschijnlijk de beste Go-speler ooit. Nog opmerkelijker is de manier waarop AlphaGo Zero zo goed is geworden. Want het algoritme heeft zich het bordspelletje zonder data afkomstig van mensen eigen gemaakt.

Miljoenen potjes Go
De voorgangers van AlphaGo Zero leerden Go door eerst te kijken hoe mensen te werk gingen. “We vertelden ze: in deze specifieke positie, deed een menselijke expert deze zet,” zo vertelt hoofdonderzoeker David Silver. “En in deze positie speelde de menselijke expert hier. Maar AlphaGo Zero gebruikt helemaal geen data afkomstig van mensen. In plaats daarvan leert het algoritme van zichzelf.” En wel door tegen zichzelf te spelen. “Het begint heel naïef en volledig willekeurig te spelen,” stelt Silver. Maar op een gegeven moment krijgt het systeem meer inzicht in het spel: bepaalde zetten pakken wel goed uit en andere niet. En aan de hand daarvan kan het algoritme steeds beter gaan spelen. Het enige wat AlphaGo Zero in feite moest doen om de beste te worden, was enkele miljoenen potjes Go spelen.

Rap beter
En dat deed AlphaGo Zero. In drie dagen tijd werden er bijna vijf miljoen potjes Go gespeeld. Na die drie dagen was AlphaGo Zero al beter dan AlphaGo Lee. En na 40 dagen was het algoritme al beter dan de versie die Ke Jie versloeg. In feite heeft AlphaGo Zero door miljoenen potjes Go te spelen in een paar dagen tijd de kennis verzameld die menselijke Go-spelers over duizenden jaren verzameld hebben. En dat niet alleen: het algoritme deed ook compleet nieuwe kennis op, ontwikkelde ongebruikelijke strategieën en creatieve nieuwe zetten.

Op dit moment steunt kunstmatige intelligentie nog vaak op kennis afkomstig van mensen. Maar dat werkt alleen als zo’n kunstmatig intelligent systeem zich op een heel specifiek probleem – zoals Go – stort en als er voor zo’n probleem betrouwbare menselijke kennis voorhanden is. De uitdaging is om kunstmatig intelligente systemen te ontwikkelen die zonder input van mensen toch uitzonderlijk goed kunnen presteren. En AlphaGo Zero bewijst dat het ontwikkelen van dergelijke systemen mogelijk is. In feite zou je dit algoritme – doordat het zichzelf dingen eigen kan maken – op elk mogelijk probleem kunnen zetten. En daarmee worden de mogelijkheden die kunstmatige intelligentie ons biedt, veel groter. “Mensen denken vaak dat machine learning draait om big data en enorme rekenkracht, maar wat we bij AlphaGo Zero zien, is dat algoritmes veel belangrijker zijn dan computerkracht of beschikbaarheid van data.” Zo vereiste AlphaGo Zero veel minder computerkracht, maar presteerde het algoritme veel beter dan eerdere versies. Dat het experiment zo goed uit zou pakken, had ook Silver niet verwacht. “We waren aangenaam verrast over hoe ver het algoritme kwam en uiteindelijk al onze verwachtingen wist te overtreffen.”