internet

Tanden, stukjes aardewerk en halfvergane paperassen: archeologen moeten vaak aan de hand van kleine stukjes informatie een heel verhaal zien te achterhalen. Simpelweg omdat de rest verdwenen is. Op internet begint dat probleem ook te spelen: informatie verdwijnt. Wetenschappers hebben nu een manier ontdekt om die informatie – aan de hand van ‘scherven’ die achterblijven – te achterhalen.

De onderzoekers richtten zich op Twitter: een sociaal medium waarop mensen allerlei informatie delen. Meestal door een kort berichtje, vergezeld door een link. Eerder bleek al uit onderzoek dat veel van die tweets naar verloop van tijd waardeloos worden. Simpelweg omdat de internetpagina waar zij naar verwijzen niet meer bestaat. Uit het onderzoek bleek dat na een jaar elf procent van de tweets naar een ‘dode’ internetpagina leidt. En een jaar nadat een tweet geplaatst is, verliezen we dagelijks 0,02 procent van de informatie die we middels Twitter (meer dan een jaar geleden) gedeeld hebben.

Historie
Dat is een probleem. Vooral omdat Twitter een waardevolle bron van informatie is die onderzoekers in toenemende mate gebruiken om trends te detecteren. Bovendien kunnen de tweets van nu in de toekomst wel eens heel waardevol zijn als mensen een beeld willen krijgen van bijvoorbeeld de Arabische Lente, de problematiek in Syrië of pandemieën.

WIST U DAT…

Aardewerk
Het zou fijn zijn als er een manier was om verdwenen informatie terug te halen. Nu kan informatie die echt weg is, natuurlijk niet meer worden gered. Net zoals het onmogelijk is te achterhalen hoe een aardewerken schaal uit het jaar 100 eruitzag als er niets meer van die schaal over is. Maar stel nu dat we enkele scherven van die schaal terugvinden: dan kunnen we die gebruiken om de schaal te reconstrueren en een idee te krijgen hoe die schaal eruitzag. En dat is precies wat onderzoekers nu ook met het internet gaan doen. Aan de hand van restjes informatie vormen ze zich een beeld van informatie die verloren is gegaan.

Sporen
Hoe werkt dat heel concreet? Online informatie die verdwijnt, laat sporen achter. De informatie wordt bijvoorbeeld geretweet. De onderzoekers zochten op twitter naar verwijzingen naar een stuk verdwenen informatie. Vervolgens zochten ze in die tweets naar de vijf meestvoorkomende termen en gebruikten deze als zoekwoorden. Daarop vonden ze online een aantal stukken informatie die sterk overlapten met de verdwenen informatie.

Om te achterhalen in hoeverre die stukken leken op de informatie die verloren was gegaan, lieten de onderzoekers deze aanpak los op informatie die nog niet verloren was gegaan. Vervolgens vergeleken ze de stukken die hun zoektocht opleverde en die een afspiegeling moesten zijn van het stuk dat zogenaamd verdwenen was, met het originele stuk. In veertig procent van de gevallen was het vervangende stuk tekstueel voor meer dan 70 procent gelijk aan het originele stuk.