Du har ingen artikler på din læseliste

Hvis du ser en artikel, du gerne vil læse lidt senere, kan du klikke på dette ikon

Så bliver artiklen føjet til din læseliste, som du altid kan finde her, så du kan læse videre hvor du vil og når du vil.

Læs nu
Du har ingen artikler på din læseliste
Artiklen er føjet til din læseliste Du har ulæste artikler på din læseliste
Tegning: Jørn Villumsen

Tegning: Jørn Villumsen

Medier
Læs artiklen senere Gemt (klik for at fjerne) Læst

Bibelen er grundsten i ny sprogteknologi

Sprogforskere vil bruge Bibelen og Vagttårnet til at forbedre oversættelser.

Medier
Læs artiklen senere Gemt (klik for at fjerne) Læst

At tale med sin mobiltelefon, lave stavekontrol i Word og udføre vellykkede internetsøgninger har hidtil været forbeholdt folk, der taler store sprog som engelsk, spansk, kinesisk og i et vist omfang også dansk. Men er man opvokset med færøsk, galicisk eller et af Indiens 22 officielle sprog, har man ikke haft den luksus.

Med hjælp fra Bibelens tekster og Jehovas Vidners blad Vagttårnet sikrer danske sprogforskere nu, at op mod 100 små og store sprog også får adgang til den sprogteknologi, der er forudsætningen for mange af de muligheder, mobiltelefoner og internet tilbyder.

Bibelens og Vagttårnets største plus er, at de er udkommet på flere hundrede forskellige sprog. Det gør det muligt for forskerne at overføre viden om ét sprogs grammatik til et andet og udvikle sprogteknologi til de oversete sprog.

»Det er en god forretning at udvikle sprogteknologi for engelsk, fordi det er der, der er flest betalende brugere. De områder i verden, hvor der er mindst sprogteknologi, er også de områder, der er fattigst. Den ulighed vil vi gerne gøre noget ved«, siger professor ved Københavns Universitet Anders Søgaard.

For to år siden fik han internationale forskningsmidler til at forsøge at ændre på den globale skævvridning af, hvilke sprog der har adgang til sprogteknologi. Og nu har han og hans kolleger netop præsenteret deres resultater i artiklen ’If all you have is a bit of the Bible’ på en stor konference i Beijing.

Konservative oversættelser

Normalt når forskerne udvikler sprogteknologi, fodrer de computeren med en masse tekst, som andre sprogforskere manuelt har opmærket med oplysninger om, hvilken funktion og betydning det enkelte ord har i teksten. Men den type opmærkede tekster har man ikke for sprog som eksempelvis walisisk, irsk og det afrikanske sprog yoruba, som 28 millioner mennesker taler.

I stedet har Anders Søgaard og hans kolleger brugt Bibelen og Vagttårnet, der er oversat til så mange sprog, at det gør det muligt at overføre viden om et større sprogs grammatik til et mindre.

De områder i verden, hvor der er mindst sprogteknologi, er også de områder, der er fattigst. Den ulighed vil vi gerne gøre noget ved

»Vi forsøger at finde nogle tekster, som er meget konservativt oversat til mange forskellige sprog, så vi kan finde de ord, der svarer til hinanden, på tværs af forskellige sprog. Og her er teksten over alle tekster Bibelen, som på grund af missionærerne er oversat til mere end 1.500 forskellige sprog«, siger han.

Vagttårnet er kun oversat til 430 sprog, men har den fordel, at det stadig udkommer og derfor ligger tættere på det moderne hverdagssprog.

»Mange af vores bibelversioner på de små sprog er meget gamle oversættelser, og sprog udvikler sig jo«, siger Anders Søgaard.

Også Wikipedias 35 millioner artikler er en god kilde til at udvikle sprogteknologi. For sprogforskerne er det mest interessante, at omkring 130 sprog hver er repræsenteret med 10.000 artikler på det brugerdrevne netleksikon, for mange af artiklerne handler om de samme emner og begreber.

Hvis man eksempelvis slår ordet ’hund’ op på dansk, kan man blive linket videre til ordet på mange andre sprog, og på den måde har forskerne sammenlignelige tekster på en masse sprog.

Det rammer brugerne

Uden sprogteknologi får man dårlige søgeresultater og oversættelser, men der er også mange apps og meget uddannelsessoftware, der ikke bliver udviklet for mindre sprog, fordi teknologien ikke er der.

Annonce

Artiklen fortsætter efter annoncen

Annonce

»Det er i forvejen sværere at starte en lille it-virksomhed i Nigeria end i USA, og hvis man så også mangler værktøjerne til at lave effektive søgemaskiner eller apps, er det endnu sværere. Den sprogteknologi, der er nødvendig for de fleste forretningsideer, findes kun for 20-30 sprog i verden«, siger Anders Søgaard.

Indien har eksempelvis 22 officielle sprog og 1.650 dialekter, en tredjedel af befolkningen er analfabeter, og kun 6 procent taler engelsk, men:

»Der er et kæmpe marked, fordi der er gode datalogiske uddannelser og en økonomi, der gør, at man kan starte en virksomhed. Der er bare ikke nogen sprogteknologi, som folk kan bruge. Det betyder, at vores muligheder som individer bliver skævvredet«, siger Anders Søgaard.

Da han for nogle år siden begyndte at arbejde med sprogteknologi, var det primært et forskningsområde. I dag omsætter alene det europæiske marked for sprogteknologi for 30 milliarder euro om året. Og Google Translate oversætter hver dag lige så meget tekst, som hele verdens oversættere gør på et år, fortæller han.

»Virksomheder som Facebook og Google har travlt med at etablere internet i Afrika, men der er ikke nogen pointe i det, hvis de ikke kan bruge det til noget. Og meget af det, der gør, at vi oplever internet og mobiltelefoner som en kæmpe ressource, baserer sig på sprogteknologi«.

Jysk er svært at forstå for mobilen

Man kan tale dansk til sin iPhone med nogen succes. Vi kan også taste danske sætninger ind i søgemaskinen Google med et rimeligt resultat og få tekster maskinoversat.

Men ifølge Anders Søgaard er dansk et sprog, der »ligger på vippen«.

Artiklen fortsætter efter annoncen

Annonce

»Vi har nogle ressourcer, men slet ikke så mange, som man har for spansk, engelsk og kinesisk. Hvis man taler dansk til en iPhone, er kvaliteten væsentlig ringere, end hvis man taler engelsk til den. Og hvis man taler jysk til den, er kvaliteten endnu dårligere«, siger Anders Søgaard.

Apple Siri, der gør det muligt at tale med sin iPhone, findes eksempelvis kun for omkring 20 sprog. Man kan indvende, at hvis man bor i en virkelig fattig del af Indien, er der måske ting, der er vigtigere end at kunne tale med sin mobiltelefon. Men ifølge Anders Søgaard er der endnu mere brug for det blandt verdens fattigste, end der er i Danmark:

»Mange asylansøgere medbringer kun deres mobiltelefon, når de flygter – det er deres livline. En del af dem er analfabeter, og hvis de ikke kan tale med mobiltelefonen, har de ikke nogen måde at interagere med den på. Den veludviklede infrastruktur i den vestlige verden betyder, at meget af det, vi bruger internet og mobiltelefon til, i virkeligheden også kunne gøres på andre måder. Mens der er meget mindre infrastruktur i andre dele af verden og derfor et meget større behov for værktøjer, der gør det lettere at søge på nettet eller oversætte«.

Læs mere:

Annonce

For abonnenter

Annonce

Podcasts

Forsiden