Het in kaart brengen van een volledig genoom lijkt momenteel een koud kunstje. Maar hoe doen wetenschappers dit precies?

Wetenschappers publiceren tegenwoordig het ene volledige genoom na het andere. Dit jaar zagen we onder meer het genoom van de Galapagos aalscholver (Science, 2 juni), de zonnebloem (Nature, 1 juni) en de zeester (Nature, 13 april) verschijnen. Deze genomen bevatten een schat aan informatie over deze soorten. Maar hoe wordt zo een genoom in elkaar gepuzzeld?

Je kan het het genoom zien als een dik boek dat is geschreven in een DNA-alfabet van vier letters: A, T, G en C. De chromosomen zijn de hoofdstukken en de genen zijn de woorden. Tussen de functionele genen vind je ook heel wat onzin alsof er een kat over het toetsenbord gelopen is tijdens het schrijven van dit boek. Het doel van genoomwetenschappers is alle woorden en onzin in de juiste volgorde te zetten. Daarnaast moet elke paragraaf aan het juiste hoofdstuk (chromosoom) gekoppeld worden. Dit lijkt niet zo’n moeilijke opdracht, ware het niet dat de tekst – in het geval van het menselijk genoom – zo’n 3 miljard letters lang is. Dat zijn ongeveer één miljoen pagina’s! Begin er maar aan.

“Geen enkele genoomsequentie is perfect, daarom moet je elk genoom zien als een hypothese”

Opgelet!
Het in kaart brengen van een volledig genoom bestaat uit drie stappen: sequencen, assemblage en annotatie. Maar voordat we deze stappen in detail bekijken, eerst enkele zaken om in het achterhoofd te houden. Ten eerste is er niet zoiets als dé genoomsequentie van een soort. Er is veel genetische variatie tussen individuen van dezelfde soort en zelfs de cellen van één individu kunnen verschillen in de genoomsequentie vertonen. Ten tweede, het is (voorlopig) jammer genoeg onmogelijk om alle letters van het genoom af te lezen. Bepaalde regio’s in het genoom zijn niet bereikbaar of bestaan uit zich steeds herhalende sequenties. In het menselijke genoom vinden we bijvoorbeeld miljoenen Alu-elementen, repetitieve DNA-sequenties van 300 letters, die her en der in het genoom verspreid liggen. Bij vogels is vooral chromosoom 16 berucht omwille van zijn complex en repetitief karakter. Ten derde, geen enkele genoomsequentie is perfect. Er zullen altijd enkele foutjes insluipen: sommige letters worden verkeerd afgelezen of de volgorde van de woorden klopt niet helemaal. Daarom moet je elk genoom zien als een hypothese. In de toekomst zullen nieuwe gegevens en technologische vooruitgang leiden tot een nog betere genoomsequentie.

Stap 1: Sequencen
Tegenwoordig gebruiken de meeste genoomprojecten een Shotgun Sequencing-strategie. Men knipt het DNA in miljoenen stukjes, waarvan vervolgens de letters worden afgelezen. Wetenschappers hebben keuze uit heel wat technologiën die verschillen in het aantal letters dat wordt afgelezen. Traditionele technieken, zoals Sanger sequencing (ongeveer 1000 letters) en Roche 454 sequencing (tot 800 letters) worden nog veelvuldig toegepast. Maar steeds meer onderzoekers kiezen voor zogenaamde short read sequencing-methodes zoals de Illumina HiSeq (100 tot 180 letters). Voor mijn promotieonderzoek naar de evolutie van ganzen gebruikte ik bijvoorbeeld deze techniek. De laatste jaren komen er ook technologiën op de markt die langere lappen DNA-tekst kunnen aflezen. Vooral Pacific Biosciences of PacBio (tot 5000 letters) blijkt een populaire en veelbelovende techniek. Zulke technieken zijn nuttig om repetitieve regio’s van het genoom in kaart te brengen.

Afbeelding: PublicDomainPictures / Pixabay.

Stap 2: Assemblage
Na de eerste stap heb je de sequentie van miljoenen stukjes DNA. Hoe plak je deze tekst nu aaneen? Onderzoekers ontwikkelden krachtige computeralgoritmen om dit te doen. Het principe van deze algoritmen is relatief simpel, het wordt vooral complex doordat de hoeveelheid data sterk toeneemt (denk aan honderden gigabytes aan gegevens). Een supercomputer is dan geen overbodige luxe. Het ineen puzzelen van een genoomsequentie bestaat voornamelijk uit het zoeken van overlappende stukjes tekst. Stel je hebt drie sequenties van vier letters: TATG, TGCC en CCAA. Als je deze sequenties bekijkt dat zie je bepaalde letters overlappen. De eerste sequentie eindigt op TG, terwijl de tweede begint met TG. Gelijkaardig, de tweede sequentie eindigt op CC terwijl deze twee letters het startpunt vormen van de derde sequentie. Je kan alles dus aan elkaar plakken tot de sequentie: TATGCCAA. Door dit proces voortdurend te herhalen kan je steeds langere stukken DNA-tekst schrijven. In het genomisch jargon spreekt men van korte contigs die gecombineerd worden tot langere scaffolds. In de laatste stap van de assemblage worden zo veel mogelijk scaffolds in de juiste oriëntatie aan een chromosoom toegewezen.

“De sequentie-dekking varieert sterk tussen studies: van slechts 2x voor de Afrikaanse Olifant tot 128x voor de dwergvinvis. In het algemeen geldt: hoe hoger, hoe beter”

Alle drie miljard letters handmatig controleren is onbegonnen werk. Hoe schat men dan de kwaliteit van een genoomsequentie in? Men berekent diverse statistieken per genoom, maar de meest gebruikte statistieken zijn de sequentie-dekking (in het Engels: sequence coverage) en de N50-waarde. De sequentie-dekking geeft aan hoeveel keer een bepaalde regio in het genoom is afgelezen. Tijdens de sequencing-fase wordt het genoom namelijk meerdere keren afgelezen. Als men elke letter slechts één keer zou bekijken, neemt de kans op fouten sterk toe. De sequentie-dekking varieert sterk tussen studies: van slechts 2x voor de Afrikaanse Olifant tot 128x voor de dwergvinvis. In het algemeen geldt: hoe hoger, hoe beter.

Daarnaast vermelden wetenschappers altijd de N50-waarde in hun papers. Deze waarde geeft aan hoe continu een genoomsequentie is. Zijn er nog veel gaten en hoe lang loopt de DNA-tekst onafgebroken door? De N50-waarde wordt gedefineerd door de kortste scaffold die samen met langere scaffolds minstens 50 procent van het genoom omvat. Verwarrend? Een voorbeeld schept hopelijk wat meer duidelijkheid. Stel dat je een genoomsequentie hebt met 9 scaffolds. De lengtes van deze scaffolds zijn 2, 3, 4, 5, 6, 7, 8, 9 en 10 letters. De lengte van het volledige genoom is 54 letters (de som van de negen scaffolds). In dit geval omvatten de drie langste scaffolds de helft van deze lengte (27 letters). Reken maar even mee: 8 + 9 + 10 = 27. Hieruit volgt dat de N50-waarde gelijk is aan 8, de lengte van de kortste scaffold die samen met de twee langere scaffolds 50 procent van het genoom omvat.

Stap 3: Annotatie
Het in kaart brengen van drie miljard letters is een hele opgave, maar het echte werk begint pas. Wat betekent deze DNA-tekst nu precies? Tijdens het annoteren van een genoom gaan onderzoekers op zoek naar genen in de DNA-sequentie en trachten ze de functies van deze genen te achterhalen. Voorlopig ligt de nadruk vooral op het vinden van genen die coderen voor eiwitten. Er zijn diverse strategieën om genen te vinden. Meestal vergelijkt men de DNA-sequenties met reeds beschreven genen van andere organismen. Ondertussen zijn wetenschappers in het lab druk bezig om de functie van andere genen te bepalen. Ze doen dit meestal door het gen uit te schakelen (zogenaamde gene knockdown-experimenten) en vervolgens te kijken wat er gebeurt.

Recent hebben Deense en Zweedse wetenschappers het genoom van de kleine rietgans in kaart gebracht. Een mooie gelegenheid om de kennis hierboven eens toe te passen. Als je goed opgelet hebt, moet je met de volgende tekst uit de voeten kunnen, succes! De onderzoekers kozen voor de Illumina HiSeq 2500 die DNA-sequenties van 180 letters produceert. Dit leverde een dataset van 379.5 miljoen stukjes DNA op. De sequentie-dekking bedroeg 49x en de N50-waarde was 4970 letters. De annotatie leverde om en bij de 26.000 genen op. En wat denk je? Een goede genoomsequentie of is er nog werk aan de winkel?

Jente Ottenburghs promoveerde aan de Universiteit Wageningen waar hij onderzoek deed naar de evolutie van ganzen. Na een stage bij de wetenschapsredactie van de Volkskrant werkt hij nu als postdoc aan het Karolinska Institutet in Stockholm (Zweden). Meer weten over Jente? Neem een kijkje op zijn website.