overschat

Nieuw onderzoek toont aan dat we niet blind moeten vertrouwen op big data. Simpelweg omdat analyses van door bedrijven gegenereerde big data heel snel de verkeerde kant op kunnen gaan. Dat blijkt uit Google Flu Trends: een dienst van Google die de griep monitort en daarbij enkele jaren op rij de fout inging.

Onderzoekers van de universiteit van Houston bestudeerden Google Flu Trends. Deze dienst monitort de griep aan de hand van zoekopdrachten. Wanneer mensen bijvoorbeeld zoeken op symptomen van het griepvirus mag men ervan uitgaan dat de griep in die omgeving heerste. Op basis van die zoekopdrachten kan Google Flu Trends inzicht geven in waar de griep toe heeft geslagen en of de epidemie toeneemt of afneemt.

Onderschat
Hoewel er voortdurend aan Google Flu Trends gesleuteld wordt om de dienst nog nauwkeuriger te maken, is deze de afgelopen jaren flink tekort geschoten, zo schrijven de onderzoekers. De dienst overschatte de griep herhaaldelijk.

Wat is big data?

Alles weten over big data, de waarde ervan en wat we er precies mee kunnen? Lees dan eens dit fascinerende interview met Wil van der Aalst, verbonden aan de Technische Universiteit Eindhoven. Deze universiteit zette onlangs een speciaal onderzoekscentrum voor big data op.

Probleem
Het illustreert volgens de onderzoekers het grote probleem dat big data van dataverzamelaars als Google met zich meebrengt. “Google Flu Trends is een ongelofelijk knap stukje werk en een heel nuttige dienst, maar het illustreert ook waar de analyse van big data de mist in kan gaan,” vertelt onderzoeker Ryan Kennedy. “Veel bronnen van big data zijn private bedrijven die, net als Google, constant hun service aanpassen op hun businessmodel. We moeten beter leren begrijpen hoe dat invloed heeft op de data die zij produceren. Anders lopen we het risico dat we verkeerde conclusies trekken en een onjuist beleid gaan voeren.”

Twitter en Facebook
Naast de big data die Google genereert, trekken de onderzoekers ook big data van Twitter en Facebook in twijfel. Bedrijven en marketeers kunnen die platformen immers manipuleren om hun product of dienst ‘trending’ te maken.

Hebben we big data – dat ook wel aangeduid wordt als de olie van de 21e eeuw – dan overschat? Is het niet zo’n goudmijn als gedacht? Zo ver willen de onderzoekers niet gaan. Big data van bronnen als Google of Twitter heeft zeker waarde, maar dan moeten we het wel combineren met andere informatie. “Onze analyse van Google Flu Trends demonstreert dat de beste resultaten voortkomen uit het combineren van informatie en technieken van beide bronnen. In plaats van te praten over een ‘big data revolutie’ moeten we discussiëren over een ‘alle data revolutie’, waarbij nieuwe technologieën en technieken ons in staat stellen om meer en betere analyses uit te voeren.”