Wetenschappers van de TU Delft hebben een robot ontwikkeld die zichzelf kan leren lopen en zichzelf binnen een kwartiertje aanleerde om trappen te lopen.

Robots: ze zijn er al in allerlei vorm en maten en met allerlei functionaliteiten. Maar in het dagelijks leven willen ze maar niet echt doorbreken. Zo hebben we de door sommige visionairs voorspelde robots die ons helpen in het huishouden nog steeds niet. Eén van de redenen daarvan is dat robots moeite hebben om zich aan te passen. Een robot kan geprogrammeerd worden om bepaalde dingen te doen. Bijvoorbeeld naar de keuken lopen om een glas op te ruimen. Maar in een gezin valt zo’n simpele taak nog niet mee. De omgeving is weer heel anders dan het lab, er rennen kinderen rond, moeder schuift regelmatig met de meubels en vader laat zijn schoenen overal slingeren. Hoe kan een robot zich in zo’n veranderende omgeving overeind houden als hij niet in staat is om te leren?

Simulaties
Veel onderzoekers zijn er dan ook van overtuigd dat robots eerst in staat moeten zijn om zichzelf nieuwe dingen aan te leren en daarna pas een kans maken op een plekje in de maatschappij. Er wordt al veel geëxperimenteerd met dat idee, maar vaak gebruiken wetenschappers daarvoor simulaties. Onderzoeker Erik Schuitema tilt zijn onderzoek naar lerende robots direct naar een hoger plan door niet met simulaties, maar met een echte robot te werken. En daar heeft hij een goede reden voor, zo vertelt hij: “Er is nog weinig bekend over de aansluiting met echte, daadwerkelijke hardware.”

Leo
En dus ontwikkelde Schuitema samen met zijn collega’s robot Leo. “We hebben een tweevoetige, lopende robot, genaamd Leo, speciaal ontworpen en gebouwd om onderzoek te doen naar het toepassen van Reinforcement Learning (leren door middel van beloningen, red.) op echte robots. Robot Leo is in staat om twee motorische basistaken te leren: het plaatsen van een voet op een traptrede, en lopen.”

WIST U DAT…

Beloning
Om de robot in staat te stellen zichzelf te leren lopen, maken de onderzoekers dus gebruik van Reinforcement Learning. Goed gedrag wordt beloond, slecht gedrag wordt bestraft. Maar hoe beloont u een robot? Met hoge cijfers. Als Leo zijn voet correct beweegt, krijgt hij een hoog cijfer. Doet hij het niet goed, dan krijgt hij een laag cijfer. De robot is zo geprogrammeerd dat deze voor hoge cijfers gaat. Als hij een laag cijfer scoort, gaat hij zijn acties bijsturen of iets anders proberen om toch maar een hoog cijfer te krijgen.

Leren lopen
De aanpak van de wetenschappers bleek effectief te zijn. Binnen een kwartiertje leerde Leo zichzelf om trap te lopen. Leren lopen kostte de robot wat meer tijd. Probleem was dat Leo duizenden keren viel en de hardware niet bestand was tegen al die klappen. Om te voorkomen dat Leo het zou begeven, hielpen de onderzoekers ‘m een klein beetje. Hij mocht de kunst afkijken van lopende robots die handmatig waren geprogrammeerd. Binnen een aantal uur kon Leo ze al nadoen en hun tred zelfs verbeteren.

Het kan wel
Hoewel Leo in de experimenten een beetje vals heeft gespeeld, kan hij zichzelf echt leren lopen, zolang de hardware maar bestand is tegen vallen, zo benadrukt Schuitema. Simulaties wijzen erop dat het de robot dan zo’n vijf uur zou kosten om het lopen onder de knie te krijgen.

Maakt dit de weg dan vrij voor robots in het dagelijks leven? Het is (letterlijk) een stap in de goede richting, maar we zijn er nog niet. “Het kan nog wel decennia duren voordat dit soort robots in de praktijk aan de slag kunnen.”