Annonce
Annonce

Kroniken

Daglig fordybelse siden 1905

Kroniken

Stavekontrollen fungere ikke af sig selv

Der er ikke nok fokus på, hvilken rolle dansk skal spille i morgendagens informationssamfund.

9
Annonce

Informationsteknologi forandrer vores hverdag.

Vi bruger computeren, når vi skriver, læser, hører musik og ser billeder og film. Vi har computere i lommestørrelse, som vi bruger til telefonopkald, e-mail, informationssøgning og underholdning, uanset hvor vi er.

Men hvordan påvirkes vores sprog af denne massive digitalisering af information? Vil vores sprog forandre sig eller måske miste fodfæste?

Vi er i øjeblikket vidner til en digital revolution, som vil få mere og mere indflydelse på, hvordan vi kommunikerer og udveksler viden. De seneste teknologiske landvindinger er blevet sammenlignet med Gutenbergs opfindelse af bogtrykkerkunsten, som fik en enorm betydning for samfundsudviklingen i datidens Europa.

Denne analogi siger lidt om, hvad fremtidens informationssamfund kan bringe af nye muligheder, men den giver os også et hint om, hvad der vil ske med de sprog, som ikke investerer nok i at følge med den teknologiske udvikling.

Det er her, sprogteknologi kommer ind i billedet. Sprogteknologi er informationsteknologi, som er specielt designet til at håndtere sprogrelaterede problemstillinger i både skrift og tale. Mobiltelefoner med ordhjælp, talende gps-systemer, dikteringssystemer, hvor vi kan tale til computeren i stedet for at skrive, maskinoversættelse og søgning på nettet er blot nogle eksempler på værktøjer, der anvender sprogteknologi, og disse har udviklet sig markant de senere år.

Så meget, at de i dag nærmest er blevet hvermandseje. Sprogstøtte til svage læsere og til syns- og hørehandikappede er andre eksempler på applikationer, der i flere år har anvendt sprogteknologi, og som måske er knap så kendte.

På forskningsfronten kan nævnes IBM’s robot Watson, der sidste år vandt over verdens førende ’Jeopardy’-spillere, fordi den var hurtigere til at svare på spørgsmål end et levende menneske.

Vi forventer også fremadrettet, at sprogteknologi vil kunne tilvejebringe de nødvendige værktøjer til at nedbryde fremtidens sprogbarrierer. Ikke desto mindre er forskningen stadig for langsom og fragmenteret til at kunne løse vores sprogproblemer i tide. Af kommercielle årsager fokuserer størsteparten af forskningen og udviklingen inden for sprogteknologi på engelsk.

Hovedparten af de europæiske lande har kun få teknologiske sprogdata til rådighed for deres egne sprog i form af f.eks. opmærkede tekster og computeranvendelige ordbøger, og nogle sprog har næsten ingen. I den forstand er især de mindre udbredte europæiske sprog endnu ikke fremtidssikrede, og dette gælder i høj grad dansk.

LÆS OGSÅVort danske sprog er truet - på computeren

En gruppe danske eksperter har i forbindelse med et fælleseuropæisk sproginitiativ, som går under navnet Multilingual Europe Technology Alliance, taget temperaturen på dansk sprogteknologi med en statusrapport, som slår fast, at der er grund til at råbe vagt i gevær.

Vi har allerede fået en forsmag på, hvad det betyder for vores sprog, hvis sprogteknologien er utilstrækkelig og ikke tilpasset danske forhold. De første stavekontroller på markedet var ikke tilpasset det danske bøjningssystem godt nok og kunne derfor ikke tage ordentlig højde for stavning af sammensatte ord.

Dette betød i praksis, at de røde bølgestreger først forsvandt, når man splittede ord som f.eks. pasningsordning eller tekstbehandlingssystem og skrev hhv. pasnings ordning og tekstbehandlings system. Stavekontroller fik altså fejlagtigt folk til at tro, at ordene skulle særskrives ligesom på engelsk.

Denne sag er der heldigvis rettet nogenlunde op på nu, men de mangelfulde systemer kan få negative konsekvenser for dansk retskrivning særligt blandt unge usikre stavere. Grammatikkontrol for dansk halter også bagefter og er i dag ikke fuldt anvendeligt; en fejl som ’de var ked af, at han ikke kom’ fanges f.eks. ikke af de førende systemer, selv om der er tale om en banal kongruensfejl, dvs. manglende overensstemmelse i tal mellem de (flertal) og ked (ental). Og så står de to ord endda ganske tæt på hinanden.

Næsten mere alvorligt er det imidlertid, at søgemaskinerne ikke altid forstår ordentligt dansk, for det kan skade dansk på nettet og få betydning for sprogets rolle i informationssamfundet i et lidt længere perspektiv.

Hvis vi søger efter bekæmpelse af rotter på nettet, får vi ikke det samme udvalg af relevant information, som hvis vi søger på rottebekæmpelse, på trods af at de to udtryk betyder præcist det samme og derfor burde give de samme hits.

For at udvikle bedre maskinoversættelser må vi f.eks. opbygge tekstsamlinger, der sammenligner dansk med andre sprog sætning for sætning

Bolette S. Pedersen

Igen er det de danske sammensatte ord, der driller; de to udtryk bliver ikke genkendt som synonyme.

Det kan umiddelbart synes at være en bagatel, men god beregning af relevans er et meget vigtigt kriterium for informationssøgning, og det kan gøres bedre, end vi ser i dag. Og jo mere information, der bliver tilgængelig på nettet, jo vigtigere bliver relevanskriteriet.

Vi kan altså frygte, at information på dansk bliver sværere at finde, fordi søgemaskinerne ikke tilpasses godt nok til dansk. Og problemet bliver mere udpræget, efterhånden som søgemaskinerne kan arbejde mere raffineret og dvs. indholdsbaseret på de store sprog som f.eks. engelsk; vidensgabet mellem engelsk og dansk vokser altså dag for dag.

Med de nye filterteknikker, hvor søgemaskiner selv regner ud, hvad der er relevant for os, ud fra det vi tidligere har søgt efter eller skrevet om, kan man forestille sig, at det kan gå gruelig galt med sprogforbistringerne med et kritisk informationstab til følge.

Når vi på Google Translate får oversat ’hæld olie på panden’ med pour oil on the forehead, kan vi få os et billigt grin, men det vidner igen om en mangelfuld håndtering af nuancerne i det danske sprog, som kan få konsekvenser.

Flertydighedsproblemer som med ordet pande er ikke nemme for maskiner at tackle; det kræver fortsat massiv forskning og solide teknologiske sprogdata; f.eks. flere paralleloversatte tekster, hvorfra man kan beregne, hvilken oversættelse af det flertydige ord, der er mest sandsynligt i en given sammenhæng, og bedre computeranvendelige ordbøger, der i et formelt sprog beskriver ords betydningsvariation.

Også inden for taleteknologi berettes der om systemer, der ikke virker optimalt for dansk; forleden fortalte Odense Kommune i TV-avisen om deres problemer med tilpasning af et dikteringssystem til sagsbehandling i kommunen, som endnu ikke var rigtig brugbart; der var simpelt hen for mange ord og udtryk, systemet ikke kunne genkende.

LÆS OGSÅDon't worry: Det danske sprog er ikke truet af engelsk

Uden en intensiveret satsning på forskning i sprogteknologi og danske sprogressourcer f.eks. i form af en sprogbank risikerer vi at sidde tilbage med utilstrækkelig sprogteknologi, som får meget svært ved at følge med de nye generationer af web- og teleteknologi. Og det er først og fremmest os selv, der må tage ansvar for at få rettet op på disse skavanker ved at levere ordentlig sprogbeskrivelse for dansk.

Det kræver imidlertid solid forskning og udvikling, som det kommercielle marked i Danmark ikke kan bære alene.

Den omtalte rapport, som hedder ’Det danske sprog i den digitale tidsalder’, er blevet udarbejdet af en gruppe sprogfolk og teknologiudviklere i Danmark, som indbefatter forskere fra Københavns Universitet, Copenhagen Business School, Dansk Sprognævn og Det Danske Sprog- og Litteraturselskab samt repræsentanter fra en række virksomheder, der udvikler sprogteknologi for dansk.

Dommen er ret entydig: Enten er kvaliteten af sprogværktøjerne for dansk ikke god nok, eller også er produkterne ikke tilgængelige eller egnede for videreudvikling i nye, mere avancerede systemer; kritiske faktorer, der er med til at bremse udviklingen.

Hvad angår maskinoversættelse, foregår det meste af udviklingen f.eks. i udlandet; her gælder det, at produkterne udelukkende udvikles i kommercielt regi, og at metoder og data således ikke bliver umiddelbart tilgængelige for almen forskning og videreudvikling inden for dansk sprog.

Meget er allerede rigtigt tænkt, når det drejer sig om forskning i og udvikling af teknologiske sprogdata og værktøjer for dansk. Flere forskningsinstitutioner i Danmark arbejder med at udvikle computeranvendelige ordbøger og opmærkede digitale tekstsamlinger på højt internationalt niveau, både for det skrevne og det talte sprog. Og Danmark har også internationalt førende forskere inden for maskinlæring ud fra sproglige data.

I Danmark skal vi mange år tilbage for at finde ministerielle initiativer, der specifikt har støttet dansk sprogteknologi

Bolette S. Pedersen

Men selv om der altså arbejdes seriøst med mange elementer af dansk sprogteknologi også i virksomhederne, står der stadig meget tilbage.

Inden for sprogteknologi taler man derfor om sprogbanker eller såkaldte Blarks (Basic LAnguage Resources Kit), som udgør den minimale samling af data og sprogværktøjer, som et sprog må have for at være godt kørende, og for at udviklingen inden for sprogteknologi kan tage ordentlig fart.

Selv om vi gennem de senere år har udviklet flere sådanne byggeklodser for dansk, mangler der stadig flere vigtige komponenter. For at udvikle bedre maskinoversættelser må vi f.eks. opbygge tekstsamlinger, der sammenligner dansk med andre sprog sætning for sætning.

Og hvis teknologien skal komme et spadestik dybere i ’forståelsen’ af sprog, sådan at den kan behandle sprog på en mere altomfattende måde, mangler vi tekst- og audio/video-samlinger beriget med semantisk viden, hvor man for ord, fraser og gestik angiver, hvilken betydning og kommunikativ funktion de har.

Vi er selvfølgelig ikke alene i Europa med disse problemstillinger, men hvor flere andre nordiske lande har sat store initiativer i gang for at sikre deres sprogs overlevelse i informationssamfundet, konkluderer rapporten, at der i høj grad mangler sådanne initiativer i Danmark.

Det norske kulturministerium har til sammenligning igangsat projektet ’Norsk Språkbank’ med det formål at »styrkja norsk språk i ei global språkutvikling der små språksamfunn er utsette for aukande press. Språk er dessutan den fremste beraren av kulturell identitet, og satsing på ein norsk språkbank er difor eit vesentleg og vidfemnande kulturtiltak i vår tid« (Mål og meining, s.135).

Initiativet ledes af Norsk Språkråd, som ser sprogbanken som en sprogpolitisk og kulturel satsning på norsk sprog. Hvis norsk skal bestå som samfundsbærende sprog, som kan udvikle sig i takt med den rivende udvikling inden for nye måder at kommunikere på, er det altafgørende, at nye teknologiske løsninger bliver tilgængelige på norsk, udtaler de på deres hjemmeside. Det samme gælder efter vores opfattelse dansk.

I Danmark skal vi mange år tilbage for at finde ministerielle initiativer, der specifikt har støttet dansk sprogteknologi, og selv om der undervejs er blevet givet støtte til enkeltstående sprogteknologiske projekter via it-forskningsprogrammer og de frie forskningsråd, dokumenterer rapporten, at der er brug for en langt mere samlet og fokuseret indsats på området.

LÆS OGSÅDanske elever skambruger Google Translate

For nylig har Forsknings- og Innovationsstyrelsen igangsat et Digitalt Humaniora Laboratorium, Dighumlab, som skal gøre digitale data anvendelige og tilgængelige for humanistisk forskning, og dette projekt kan måske betyde, at sprogteknologi bliver mere udbredt på danske data.

Den tekniske infrastruktur, der opbygges i Dighumlab til at indeholde og udveksle de digitale data, kan f.eks. indtænkes i en mere langsigtet udvikling af en dansk sprogbank. Her skal man blot tænke en lille smule kreativt og sørge for at støtte dette eksplicitte formål i tide.

Man kunne også som Sabine Kirchmeier-Andersen fra Sprognævnet foreslår bestræbe sig på, at det, der skrives inden for det offentlige, bliver stillet til rådighed for sprogteknologien, og ligeledes kunne Danmarks Radios lydarkiver være et godt arbejdsredskab for forskere og udviklerne.

Der er ingen tvivl om, at vi har brug for en dedikeret, konsekvent og vedvarende forskningsindsats, hvis vi vil kunne bruge næste generation af informations- og kommunikationsteknologi inden for de områder af vores privatliv og arbejdsliv, hvor vi lever, taler og skriver på dansk.

Sprogteknologirapporten er tilgængelig for offentligheden på www.meta-net.eu/whitepapers/volumes/danish

Del link
Annonce
Mest læste
Dit politiken
Annonce