Wetenschappers van Microsoft hebben een computer geleerd om de maximale score van 999.990 te halen in de Atari-klassieker Ms. Pac-Man. Dit spel is onvoorspelbaarder dan Pac-Man en wordt daarom door veel teams gebruikt om onderzoek te doen naar kunstmatige intelligentie.

De onderzoekers maakten gebruik van een vernieuwende strategie, die de Hybrid Reward Architecture genoemd wordt. Zij zetten namelijk meer dan 150 AI-agents in. Iedere agent moet een klein probleem oplossen. Zo zijn er agents die alleen verantwoordelijk zijn voor het opeten van de balletjes, terwijl andere agents zich bekommeren om de spoken. Boven deze 150 agents plaatsten de onderzoekers een AI-baas. Deze baas laat zich leiden door de adviezen van de 150 agents en kiest dan vervolgens een strategie.

Het is een slimme tactiek. In plaats van dat een agent één complex probleem moet oplossen, lost een grote groep agents veel kleine problemen op.

Net een echt bedrijf

Net zoals in het bedrijfsleven hecht de AI-baas meer waarde aan de adviezen van ‘goede’ agents. Stel, 97 agents zeggen dat Ms. Pac-Man naar rechts moet om een muntje te eten, terwijl drie agents waarschuwen voor een spookje aan de rechterkant, dan gaat de AI-baas uiteraard links en wegen de adviezen van deze drie werknemers in de toekomst zwaarder mee.

En het blijkt te werken. Nog nooit eerder haalde een computer of een mens de maximale score. Overigens kostte het wel de nodige moeite. Pas na ruwweg drieduizend pogingen slaagde AI er in om 999.990 op de teller te krijgen. “De leercurve verloopt traag, omdat het model getraind moet worden”, schrijven de onderzoekers in het paper. “Ook al zijn de latere levels pittiger, het model kan toch goed uit de voeten. Het voordeel is dat het systeem dan de kaarten goed kent.”

“Het is een mooie samenwerking, waarbij iedere agent een specifiek probleem probeert op te lossen, terwijl de baas een gezamenlijke beslissing neemt die voor iedereen goed is”, zegt onderzoeker Harm van Seijen van Maluuba. Hij is de hoofdauteur van het paper, dat te lezen is op arXiv.org.

Toekomst van AI

Onderzoekers denken dat deze aanpak goed werkt voor toekomstige AI-systemen. Wanneer een persoon een vraag stelt aan een chatbot, dan kan deze chatbot zich laten voeden door voorbeelden van goede en slechte antwoorden. Vervolgens kiest de chatbot een antwoord. Stel dat de persoon positieve feedback geeft – bijvoorbeeld dat het gesprek als prettig werd ervaren – dan leert de chatbot hiervan en kan hij zelfstandig zijn antwoorden verbeteren. Hierdoor hebben mensen hun handen vrij om andere werkzaamheden op te pakken.

Meer dan een miljoen punten

Kunnen de onderzoekers een nog hogere score dan 999.990 halen? “Dat is onmogelijk”, staat in het paper. “Niet omdat het spel stopt, maar omdat de score automatisch wordt gereset na een miljoen punten.”