Alle bestandjes, foto’s en gegevens van iedereen op de wereld kunnen in theorie in een koffiemok vol DNA worden opgeslagen.

Op dit moment bestaan er op aarde ongeveer 10 biljoen gigabyte aan digitale gegevens. Elke dag komen daar in de vorm van e-mails, foto’s, tweets en andere digitale bestanden nog eens 2,5 miljoen gigabyte aan data bij. Veel van deze gegevens worden opgeslagen in enorme, energieslurpende en peperdure datacenters. Maar veel wetenschappers geloven in een alternatieve oplossing voor dit probleem. En die oplossing ligt in het molecuul dat onze genetische informatie bevat: DNA.

DNA als opslagmedium
DNA is veelbelovend als een toekomstig opslagmedium. Het is namelijk een stuk efficiënter dan de huidige datacenters, die een hectare grond nodig hebben en ongeveer 1 miljard dollar kosten om te bouwen en te onderhouden. Daarnaast gaat het veel langer mee en kunnen DNA-moleculen informatie miljoenen malen compacter opslaan. “We hebben nieuwe oplossingen nodig voor het opslaan van de enorme hoeveelheden gegevens die de wereld verzamelt, vooral de archiefgegevens,” vertelt onderzoeker Mark Bathe in een interview met Scientias.nl. “DNA is de meest natuurlijke keuze omdat het al alle informatie op de planeet over onze planten, microben en dieren opslaat. Bovendien is DNA duizend keer compacter dan een flashgeheugen, gaat het eeuwig mee als het op de juiste manier wordt bewaard en – heel belangrijk – het kost geen energie. Wat dat betreft is het dus ook een geweldige oplossing voor het klimaat, aangezien huidige datacenters enorme hoeveelheden energie verbruiken om al onze foto’s, films en gegevens op te slaan. En dat terwijl we eigenlijk nooit meer naar de overgrote meerderheid van deze gegevens omkijken.”

Hoe werkt het precies?
Volgens Bathe zouden alle bestandjes, foto’s en gegevens van iedereen op de wereld in theorie in een koffiemok vol DNA kunnen worden opgeslagen. Een bizarre gedachte. Maar hoe werkt dat dan precies? “Op dezelfde manier als DNA informatie over onze genen – zoals onze afkomst, kleur van onze ogen en haar, etc. – opslaat, kan het ook worden gebruikt om andere informatie op te slaan zoals tekst, films, afbeeldingen en geluid,” legt Bathe uit. Het proces houdt eigenlijk in dat reeksen van enen en nullen in digitale gegevens om worden gezet in de vier basisstenen van DNA-sequenties – adenine, guanine, cytosine en thymine. “A en T zouden bijvoorbeeld gebruikt kunnen worden voor de nullen, terwijl Gs en Cs de enen voor hun rekening nemen,” aldus Bathe.

Naald in een hooiberg
Het klinkt als een prachtig alternatief, dat tevens veilig en haalbaar is. DNA is namelijk extreem stabiel en vrij eenvoudig te synthetiseren en te sequencen. Vanwege de hoge dichtheid – elk nucleotide, gelijk aan maximaal twee bits, is ongeveer 1 kubieke nanometer – zou een exabyte aan gegevens die als DNA zijn opgeslagen in de palm van je hand kunnen passen. Toch zijn er nog een aantal uitdagingen te overbruggen. “Ten eerste is het ongelofelijk duur, omdat de technologie vrij oud is en nooit is ontwikkeld om enorme hoeveelheden DNA te fabriceren,” zegt Bathe. Momenteel zou het 1 biljoen dollar kosten om één petabyte aan gegevens (1 miljoen gigabyte) in DNA op te slaan. “Daarnaast is het ophalen van opgeslagen bestanden uit DNA ook niet gemakkelijk,” gaat Bathe verder. “Het is letterlijk als het zoeken naar een speld in een hooiberg.”

Rode auto
Ondertussen zijn wetenschappers erin geslaagd om afbeeldingen en pagina’s tekst te coderen als DNA. Maar wat als je vervolgens alleen een foto wilt zien met een rode auto erop? Hoe vind je die ene foto uit een miljard of meer andere afbeeldingen, zoals wanneer we op Google zoeken naar afbeeldingen van rode auto’s? “Wanneer je een naald in een hooiberg wilt vinden, kun je handmatig al het hooi doorzoeken door er met je handen doorheen te zeven,” begint Bathe. “Dat is hetzelfde als handmatig door elk boek in de bibliotheek bladeren, ervan uitgaande dat de hele verzameling boeken op een enorme stapel ligt. Maar je zou ook het hooi en de boeken in domeinen kunnen ordenen en indexkaarten kunnen gebruiken om iets op te zoeken. Of, nog beter, je zou elk bestand kunnen labelen zoals we met HTML-pagina’s doen. Metatags vertellen ons in dat geval de inhoud van elk bestand. Dit is heel snel en makkelijk. Bovendien is dit ook de manier waarop het zoeken op internet werkt, met behulp van uitgekiende algoritmen.”

Labelen
Bathe en zijn collega’s hebben nu in een nieuwe studie een doeltreffende methode bedacht om het gewenste bestand uit een mengsel van vele stukjes DNA te kiezen. Dit deden ze door elk gegevensbestand in te kapselen in een 6 micrometer groot deeltje silica, dat is gelabeld met korte DNA-sequenties die de inhoud onthullen. Elke capsule is dus gelabeld met een ‘barcode’ die overeenkomt met de inhoud van het bestand, zoals ‘rode auto’ of ‘kat’. Met behulp van deze aanpak toonden de onderzoekers aan dat ze individuele afbeeldingen die zijn opgeslagen als DNA-sequenties nauwkeurig uit een set van 20 afbeeldingen kunnen halen. Hoe? Wanneer de onderzoekers een specifieke afbeelding wilden ophalen, verwijderden ze een monster DNA en voegen primers toe die overeenkomen met de labels waarnaar ze op zoek zijn – bijvoorbeeld ‘kat’, ‘oranje’ en ‘wild’ voor een afbeelding van een tijger. De primers zijn uitgerust met fluorescerende of magnetische deeltjes, waardoor ze gemakkelijker uit het monster getrokken en geïdentificeerd kunnen worden. Op deze manier kan het gewenste bestand uit het DNA worden getrokken, terwijl de rest van het DNA intact blijft.

Streepjescode
Voor de streepjescode gebruikten de onderzoekers enkelstrengs DNA-sequenties uit een bibliotheek van 100.000 sequenties, elk ongeveer 25 nucleotiden lang. Als je twee van deze labels op elk bestand plaatst, kun je 10 miljard verschillende bestanden uniek labelen. Met vier labels op elk bestand, kun je 10^20 bestanden uniek labelen.

Op dit moment bereiken de wetenschappers een zoeksnelheid van ongeveer 1 kilobyte per seconde. Deze zoeksnelheid wordt bepaald door de gegevensgrootte per capsule. En dat wordt momenteel beperkt door de onbetaalbare prijzen die verbonden zijn aan het opslaan van zelfs maar 100 megabyte aan gegevens. “Om te concurreren met blu-Ray-schijven of magneetbanden moeten de kosten van DNA-synthese met ongeveer zes ordes van grootte (10^6, red.) dalen,” stelt Bathe. “Veel bedrijven en laboratoria werken momenteel aan het goedkoper maken ervan. Zodra de methodes goedkoop genoeg zijn, hebben wij nu in ieder geval een systeem bedacht waarmee je elk gewenst bestand kunt ophalen uit een enorme opslagdatabase die in principe een exabyte of zelfs een petabyte groot kan zijn. Het bestand zelf kan ook elke redelijke grootte hebben, zoals een gigabyte, megabyte, of slechts een paar kilobytes, omdat het een zeer algemene procedure is.”

Bathe beweert dat de uitvinding met name nuttig kan zijn voor het opslaan van zogenaamde ‘koude’ gegevens; data die in een archief worden bewaard maar niet vaak worden geraadpleegd. Maar dat is nu nog toekomstmuziek. Eerst zal DNA-synthese ongeveer een miljoen keer goedkoper moeten worden voordat we het systeem echt kunnen gaan gebruiken voor het opslaan en ophalen van gegevens. Volgens de onderzoeker hoeven we echter niet lang op innovaties op het gebied te wachten. “Binnen een decennium of twee zullen de kosten zijn gedaald, vergelijkbaar met hoe de kosten van het opslaan van informatie op flashdrives de afgelopen decennia drastisch is gedaald,” zegt hij. “En dan hoop ik dat onze oplossing een grote stap voorwaarts zal zijn, zodat we nooit meer iets hoeven te verwijderen.”