siri

Stel, je bent Fries, dan wil je graag in de Friese taal tegen Siri op je iPhone praten. Dit kan binnenkort misschien, met dank aan de Bijbel.

Taalkundigen gebruiken traditiegetrouw nieuwsartikelen uit kranten om automatische vertaalsystemen en zoekmachines te ontwikkelen. In sommige talen zijn echter te weinig nieuwsartikelen geschreven om tot accurate vertalingen te komen. Denk bijvoorbeeld aan het Faeröers – dat door ruim 66.000 mensen gesproken wordt – het Welsh (in Wales), Iers, Galicisch of Yoruba.

Is hier iets aan te doen? Jazeker. Taalkundigen vertrouwen steeds vaker op de Bijbel. “De Bijbel is in meer dan 1.500 talen vertaald, zelfs in de meest exotische talen”, zegt Anders Søgaard van de universiteit van Kopenhagen. “De vertalingen zijn erg conservatief. Zinnen hebben in verschillende talen dezelfde structuur, waardoor het makkelijk is om vertaalsystemen te bouwen.”

Wikipedia
Dit geldt niet alleen voor de Bijbel. Ook Wikipedia is een uitstekende bron. Er zijn meer dan 35 miljoen artikelen in veel verschillende talen. De populairste taal is het Engels met ruim 4,9 miljoen pagina’s. Er zijn 129 talen met meer dan 10.000 artikelen. Veel van deze artikelen gaan over dezelfde onderwerpen.

Omgekeerde indexatie
Søgaard: “We maken hierbij gebruik van een methode: ‘omgekeerde indexatie’. Normaal gebruiken we woorden om het concept te omschrijven, maar bij omgekeerde indexatie is dit andersom. Een voorbeeld: op de Engelse pagina over Harry Potter staat het woord ‘glasses’. Op de Duitse pagina komt ‘Brille’ in dezelfde context voor, waardoor we weten dat deze woorden bij elkaar horen. Dit vormt de basis van automatische vertaalsystemen.”

Paper
Søgaard en zijn collega’s schreven een paper met de titel ‘If all you have is a bit of the Bible‘ en presenteerden dit tijdens een wetenschappelijke conferentie.