bigdata

Olie van de 21e eeuw, zo noemen onderzoekers Big Data wel eens. Maar voor we dankzij die Big Data in de equivalent van rijke oliesjeiks kunnen veranderen, moet er nog wel iets gebeuren. We moeten de Big Data ‘raffineren’: omzetten in iets kostbaars. En een speciaal onderzoekscentrum van de Technische Universiteit Eindhoven gaat daarbij helpen.

Big Data is overal. Simpelweg omdat vrijwel overal gegevens worden verzameld. Onder meer op sociale media, in ziekenhuizen en bij overheden. En zelfs apparaten beginnen gegevens te genereren. In de industrie is het al heel normaal dat apparaten verbonden zijn met het internet, maar ook in huishoudens zien we in toenemende mate apparaten die informatie verzamelen en up- en downloaden. Denk bijvoorbeeld aan slimme energiemeters.

Groei
Het levert een enorme berg data op. En die groeit rap. “Om een beeld te geven van de groei van data: alle data die mensen vanaf de prehistorie tot 2003 verzameld hebben, staat gelijk aan de hoeveelheid data die op dit moment elke tien minuten geproduceerd wordt,” vertelt hoogleraar informatica Wil van der Aalst, verbonden aan de Technische Universiteit Eindhoven, in een interview met Scientias.nl. En dat is nog niets in vergelijking met de data die we over tien of twintig jaar genereren. “De technologie volgt de Wet van Moore. Dat wil zeggen dat de opslagcapaciteit elke twee jaar verdubbelt.” Informatie verzamelen gaat ons goed af. “En nu wordt het tijd dat we die berg informatie om gaan zetten in waardevolle informatie.”

“Alle data die mensen vanaf de prehistorie tot 2003 verzameld hebben, staat gelijk aan de hoeveelheid data die op dit moment elke tien minuten geproduceerd wordt”

Van onschatbare waarde
Big Data is op zichzelf waardeloos. Maar het kan van onschatbare waarde blijken te zijn, wanneer we erin slagen om die gegevens te analyseren. Dat wordt mooi geïllustreerd door grootmachten als Google en Facebook: beiden genereren enorme hoeveelheden data en hebben een manier gevonden om die data te analyseren en gebruiken. Het maakt ze tot succesvolle miljardenbedrijven. Maar Big Data kan ons niet alleen financieel verrijken. “Big Data kan een economische waarde hebben. Bijvoorbeeld wanneer gegevens gebruikt worden om efficiënter te werken of klanten beter te bedienen. Maar we kunnen Big Data ook gebruiken om bijvoorbeeld medische vraagstukken op te lossen.”

In de geneeskunde
Artsen en wetenschappers trekken conclusies op basis van gegevens. Ze kijken bijvoorbeeld hoe zwaar mensen zijn, of die mensen roken en/of drinken en concluderen vervolgens op basis van die gegevens hoeveel levensjaren mensen inleveren als ze te zwaar zijn, roken en drinken. “Zo werken onderzoekers al decennialang.” Maar altijd waren hun gegevens ‘beperkt’. Big Data brengt daar verandering in. “Nu weten we behalve het gewicht en of mensen roken of drinken misschien nog wel duizend andere variabelen en die gegevens weten we ook nog eens van een veel grotere groep mensen.” In theorie kunnen op basis van die schat aan informatie dus betrouwbaardere conclusies worden getrokken. Maar: in de praktijk is dat lastig. Want met meer dan duizend variabelen en misschien wel miljoenen mensen op wie die variabelen betrekking hebben, krijgen we tabellen met duizenden regels en duizenden kolommen. “En dan zie je óf patronen die er helemaal niet zijn óf je ziet helemaal niets.”

Privacy

Een data scientist moet niet alleen om weten te gaan met slimme analyse-technieken, maar zal ongetwijfeld ook met heel wat andere problemen te maken krijgen. Want hoe zit het bijvoorbeeld met de privacy en ethiek? Het zijn vraagstukken die nog maar eens benadrukken hoe belangrijk het is dat deze tak van sport een eigen opleiding krijgt.

Data science
“Wat we nu nodig hebben, zijn slimme analyse-technieken om Big Data om te zetten in waardevolle informatie.” En het ontwikkelen en gebruiken van die technieken, dat is een vak apart: data science. De Technische Universiteit Eindhoven behoort op dat gebied tot de wereldtop en verstevigde die positie onlangs met de opening van het nieuwe Data Science Center Eindhoven (DSC/e). Over een aantal jaar hoopt de universiteit daarnaast een bachelor- en masteropleiding op het gebied van de data science te hebben. “De groei van de beschikbare hoeveelheid data is een niet te stoppen fenomeen,” benadrukt Van der Aalst. “Dat betekent dat we in de toekomst een andere soort ingenieur nodig hebben. De ingenieur van het verleden gebruikte modellen, de ingenieur van de toekomst analyseert echte data.”

En met het oog op de groeiende hoeveelheid data, is er op korte termijn grote behoefte aan zulke ingenieurs. “Ik denk dat organisaties in de toekomst alleen kunnen overleven als ze Big Data weten te gebruiken.” Met name wanneer bedrijven of (wetenschappelijke) instellingen te maken krijgenen met een minder goed gedefinieerd probleem en enorme datasets dan is er behoefte aan echte experts. “Kijk, een vraagstuk over de levensduur van mensen met een bepaalde levensstijl is een gestructureerd probleem. Maar stel nu dat je op basis van een ziekenhuis-database op zoek moet naar manieren om het ziekenhuis efficiënter te maken of de wachttijden te reduceren: dat is een minder goed gedefinieerd probleem en dan is het lastig om conclusies te trekken. Dan heb je een data scientist nodig. Het maakt data science tot het vakgebied van de toekomst.”