SektionerMedier |
Aktuelle temaerSatire |
GenvejeServices |
Andre websitesKontakt |
Stavekontrollen fungere ikke af sig selv
Der er ikke nok fokus på, hvilken rolle dansk skal spille i morgendagens informationssamfund.
send
Send artikel
Til:
(E-mail, adskil flere med komma) Fra (E-mail): Besked:
|
Informationsteknologi forandrer vores hverdag.
Vi bruger computeren, når vi skriver, læser, hører musik og ser billeder og film. Vi har computere i lommestørrelse, som vi bruger til telefonopkald, e-mail, informationssøgning og underholdning, uanset hvor vi er.
Men hvordan påvirkes vores sprog af denne massive digitalisering af information? Vil vores sprog forandre sig eller måske miste fodfæste?
Vi er i øjeblikket vidner til en digital revolution, som vil få mere og mere indflydelse på, hvordan vi kommunikerer og udveksler viden. De seneste teknologiske landvindinger er blevet sammenlignet med Gutenbergs opfindelse af bogtrykkerkunsten, som fik en enorm betydning for samfundsudviklingen i datidens Europa.
Denne analogi siger lidt om, hvad fremtidens informationssamfund kan bringe af
nye muligheder, men den giver os også et hint om, hvad der vil ske med de
sprog, som ikke investerer nok i at følge med den teknologiske udvikling.
Det er her, sprogteknologi kommer ind i billedet. Sprogteknologi er
informationsteknologi, som er specielt designet til at håndtere
sprogrelaterede problemstillinger i både skrift og tale. Mobiltelefoner med
ordhjælp, talende gps-systemer, dikteringssystemer, hvor vi kan tale til
computeren i stedet for at skrive, maskinoversættelse og søgning på nettet
er blot nogle eksempler på værktøjer, der anvender sprogteknologi, og disse
har udviklet sig markant de senere år.
Så meget, at de i dag nærmest er blevet hvermandseje. Sprogstøtte til svage læsere og til syns- og hørehandikappede er andre eksempler på applikationer, der i flere år har anvendt sprogteknologi, og som måske er knap så kendte.
På forskningsfronten kan nævnes IBM’s robot Watson, der sidste år vandt over
verdens førende ’Jeopardy’-spillere, fordi den var hurtigere til at svare på
spørgsmål end et levende menneske.
Vi forventer også fremadrettet, at sprogteknologi vil kunne tilvejebringe de
nødvendige værktøjer til at nedbryde fremtidens sprogbarrierer. Ikke desto
mindre er forskningen stadig for langsom og fragmenteret til at kunne løse
vores sprogproblemer i tide. Af kommercielle årsager fokuserer størsteparten
af forskningen og udviklingen inden for sprogteknologi på engelsk.
Hovedparten af de europæiske lande har kun få teknologiske sprogdata til rådighed for deres egne sprog i form af f.eks. opmærkede tekster og computeranvendelige ordbøger, og nogle sprog har næsten ingen. I den forstand er især de mindre udbredte europæiske sprog endnu ikke fremtidssikrede, og dette gælder i høj grad dansk.
LÆS OGSÅVort danske sprog er truet - på computeren
En gruppe danske eksperter har i forbindelse med et fælleseuropæisk
sproginitiativ, som går under navnet Multilingual Europe Technology
Alliance, taget temperaturen på dansk sprogteknologi med en statusrapport,
som slår fast, at der er grund til at råbe vagt i gevær.
Vi har allerede fået en forsmag på, hvad det betyder for vores sprog, hvis
sprogteknologien er utilstrækkelig og ikke tilpasset danske forhold. De
første stavekontroller på markedet var ikke tilpasset det danske
bøjningssystem godt nok og kunne derfor ikke tage ordentlig højde for
stavning af sammensatte ord.
Dette betød i praksis, at de røde bølgestreger først forsvandt, når man
splittede ord som f.eks. pasningsordning eller tekstbehandlingssystem og
skrev hhv. pasnings ordning og tekstbehandlings system. Stavekontroller fik
altså fejlagtigt folk til at tro, at ordene skulle særskrives ligesom på
engelsk.
Denne sag er der heldigvis rettet nogenlunde op på nu, men de mangelfulde
systemer kan få negative konsekvenser for dansk retskrivning særligt blandt
unge usikre stavere. Grammatikkontrol for dansk halter også bagefter og er i
dag ikke fuldt anvendeligt; en fejl som ’de var ked af, at han ikke kom’
fanges f.eks. ikke af de førende systemer, selv om der er tale om en banal
kongruensfejl, dvs. manglende overensstemmelse i tal mellem de (flertal) og
ked (ental). Og så står de to ord endda ganske tæt på hinanden.
Næsten mere alvorligt er det imidlertid, at søgemaskinerne ikke altid forstår
ordentligt dansk, for det kan skade dansk på nettet og få betydning for
sprogets rolle i informationssamfundet i et lidt længere perspektiv.
Hvis vi søger efter bekæmpelse af rotter på nettet, får vi ikke det samme udvalg af relevant information, som hvis vi søger på rottebekæmpelse, på trods af at de to udtryk betyder præcist det samme og derfor burde give de samme hits.
For at udvikle bedre maskinoversættelser må vi f.eks. opbygge tekstsamlinger, der sammenligner dansk med andre sprog sætning for sætning
Bolette S. Pedersen
Igen er det de danske sammensatte ord, der driller; de to udtryk bliver ikke
genkendt som synonyme.
Det kan umiddelbart synes at være en bagatel, men god beregning af relevans er
et meget vigtigt kriterium for informationssøgning, og det kan gøres bedre,
end vi ser i dag. Og jo mere information, der bliver tilgængelig på nettet,
jo vigtigere bliver relevanskriteriet.
Vi kan altså frygte, at information på dansk bliver sværere at finde, fordi
søgemaskinerne ikke tilpasses godt nok til dansk. Og problemet bliver mere
udpræget, efterhånden som søgemaskinerne kan arbejde mere raffineret og dvs.
indholdsbaseret på de store sprog som f.eks. engelsk; vidensgabet mellem
engelsk og dansk vokser altså dag for dag.
Med de nye filterteknikker, hvor søgemaskiner selv regner ud, hvad der er
relevant for os, ud fra det vi tidligere har søgt efter eller skrevet om,
kan man forestille sig, at det kan gå gruelig galt med sprogforbistringerne
med et kritisk informationstab til følge.
Når vi på Google Translate får oversat ’hæld olie på panden’ med pour
oil on the forehead, kan vi få os et billigt grin, men det vidner igen
om en mangelfuld håndtering af nuancerne i det danske sprog, som kan få
konsekvenser.
Flertydighedsproblemer som med ordet pande er ikke nemme for maskiner at
tackle; det kræver fortsat massiv forskning og solide teknologiske
sprogdata; f.eks. flere paralleloversatte tekster, hvorfra man kan beregne,
hvilken oversættelse af det flertydige ord, der er mest sandsynligt i en
given sammenhæng, og bedre computeranvendelige ordbøger, der i et formelt
sprog beskriver ords betydningsvariation.
Også inden for taleteknologi berettes der om systemer, der ikke virker
optimalt for dansk; forleden fortalte Odense Kommune i TV-avisen om deres
problemer med tilpasning af et dikteringssystem til sagsbehandling i
kommunen, som endnu ikke var rigtig brugbart; der var simpelt hen for mange
ord og udtryk, systemet ikke kunne genkende.
LÆS OGSÅDon't worry: Det danske sprog er ikke truet af engelsk
Uden en intensiveret satsning på forskning i sprogteknologi og danske sprogressourcer f.eks. i form af en sprogbank risikerer vi at sidde tilbage med utilstrækkelig sprogteknologi, som får meget svært ved at følge med de nye generationer af web- og teleteknologi. Og det er først og fremmest os selv, der må tage ansvar for at få rettet op på disse skavanker ved at levere ordentlig sprogbeskrivelse for dansk.
Det kræver imidlertid solid forskning og udvikling, som det kommercielle
marked i Danmark ikke kan bære alene.
Den omtalte rapport, som hedder ’Det danske sprog i den digitale tidsalder’,
er blevet udarbejdet af en gruppe sprogfolk og teknologiudviklere i Danmark,
som indbefatter forskere fra Københavns Universitet, Copenhagen Business
School, Dansk Sprognævn og Det Danske Sprog- og Litteraturselskab samt
repræsentanter fra en række virksomheder, der udvikler sprogteknologi for
dansk.
Dommen er ret entydig: Enten er kvaliteten af sprogværktøjerne for dansk ikke
god nok, eller også er produkterne ikke tilgængelige eller egnede for
videreudvikling i nye, mere avancerede systemer; kritiske faktorer, der er
med til at bremse udviklingen.
Hvad angår maskinoversættelse, foregår det meste af udviklingen f.eks. i
udlandet; her gælder det, at produkterne udelukkende udvikles i kommercielt
regi, og at metoder og data således ikke bliver umiddelbart tilgængelige for
almen forskning og videreudvikling inden for dansk sprog.
Meget er allerede rigtigt tænkt, når det drejer sig om forskning i og
udvikling af teknologiske sprogdata og værktøjer for dansk. Flere
forskningsinstitutioner i Danmark arbejder med at udvikle
computeranvendelige ordbøger og opmærkede digitale tekstsamlinger på højt
internationalt niveau, både for det skrevne og det talte sprog. Og Danmark
har også internationalt førende forskere inden for maskinlæring ud fra
sproglige data.
I Danmark skal vi mange år tilbage for at finde ministerielle initiativer, der specifikt har støttet dansk sprogteknologi
Bolette S. Pedersen
Men selv om der altså arbejdes seriøst med mange elementer af dansk
sprogteknologi også i virksomhederne, står der stadig meget tilbage.
Inden for sprogteknologi taler man derfor om sprogbanker eller såkaldte Blarks
(Basic LAnguage Resources Kit), som udgør den minimale samling af data og
sprogværktøjer, som et sprog må have for at være godt kørende, og for at
udviklingen inden for sprogteknologi kan tage ordentlig fart.
Selv om vi gennem de senere år har udviklet flere sådanne byggeklodser for dansk, mangler der stadig flere vigtige komponenter. For at udvikle bedre maskinoversættelser må vi f.eks. opbygge tekstsamlinger, der sammenligner dansk med andre sprog sætning for sætning.
Og hvis teknologien skal komme et spadestik dybere i ’forståelsen’ af sprog,
sådan at den kan behandle sprog på en mere altomfattende måde, mangler vi
tekst- og audio/video-samlinger beriget med semantisk viden, hvor man for
ord, fraser og gestik angiver, hvilken betydning og kommunikativ funktion de
har.
Vi er selvfølgelig ikke alene i Europa med disse problemstillinger, men hvor
flere andre nordiske lande har sat store initiativer i gang for at sikre
deres sprogs overlevelse i informationssamfundet, konkluderer rapporten, at
der i høj grad mangler sådanne initiativer i Danmark.
Det norske kulturministerium har til sammenligning igangsat projektet ’Norsk
Språkbank’ med det formål at »styrkja norsk språk i ei global språkutvikling
der små språksamfunn er utsette for aukande press. Språk er dessutan den
fremste beraren av kulturell identitet, og satsing på ein norsk språkbank er
difor eit vesentleg og vidfemnande kulturtiltak i vår tid« (Mål og meining,
s.135).
Initiativet ledes af Norsk Språkråd, som ser sprogbanken som en sprogpolitisk
og kulturel satsning på norsk sprog. Hvis norsk skal bestå som
samfundsbærende sprog, som kan udvikle sig i takt med den rivende udvikling
inden for nye måder at kommunikere på, er det altafgørende, at nye
teknologiske løsninger bliver tilgængelige på norsk, udtaler de på deres
hjemmeside. Det samme gælder efter vores opfattelse dansk.
I Danmark skal vi mange år tilbage for at finde ministerielle initiativer,
der specifikt har støttet dansk sprogteknologi, og selv om der undervejs er
blevet givet støtte til enkeltstående sprogteknologiske projekter via
it-forskningsprogrammer og de frie forskningsråd, dokumenterer rapporten, at
der er brug for en langt mere samlet og fokuseret indsats på området.
LÆS OGSÅDanske elever skambruger Google Translate
For nylig har Forsknings- og Innovationsstyrelsen igangsat et Digitalt
Humaniora Laboratorium, Dighumlab, som skal gøre digitale data anvendelige
og tilgængelige for humanistisk forskning, og dette projekt kan måske
betyde, at sprogteknologi bliver mere udbredt på danske data.
Den tekniske infrastruktur, der opbygges i Dighumlab til at indeholde og
udveksle de digitale data, kan f.eks. indtænkes i en mere langsigtet
udvikling af en dansk sprogbank. Her skal man blot tænke en lille smule
kreativt og sørge for at støtte dette eksplicitte formål i tide.
Man kunne også som Sabine Kirchmeier-Andersen fra Sprognævnet foreslår
bestræbe sig på, at det, der skrives inden for det offentlige, bliver
stillet til rådighed for sprogteknologien, og ligeledes kunne Danmarks
Radios lydarkiver være et godt arbejdsredskab for forskere og udviklerne.
Der er ingen tvivl om, at vi har brug for en dedikeret, konsekvent og
vedvarende forskningsindsats, hvis vi vil kunne bruge næste generation af
informations- og kommunikationsteknologi inden for de områder af vores
privatliv og arbejdsliv, hvor vi lever, taler og skriver på dansk.
Sprogteknologirapporten er tilgængelig for offentligheden på www.meta-net.eu/whitepapers/volumes/danish
Se også
- Sproget kæmper med Google og Word 11. nov 00.01
- Lær det nu bare ... 08. nov 00.01
- Frit valg i stavningen kan blive skæbnesvanger 05. nov 15.30
- Vort danske sprog er truet - på computeren 26. sep 22.45
- Danske tolke i EU kan snart være fortid 04. jul 03.00
- Dansk 'is not' truet af engelsk 19. sep 00.01
- Don't worry: Det danske sprog er ikke truet af engelsk 19. apr 08.06
- Danske elever skambruger Google Translate 21. feb 09.15
Læs hver dag
- 20. jun
- 20. jun
H.C. Andersen
Andersens eventyr på en ny måde. Oplev et nyskabende show, der blander nationaldigterens værker med moderne effekter.
|
|
|
|
||||
|
Pluspris 350 kr.
Alm. pris 400 kr
|
|
Pluspris 95 kr.
Alm. pris 125 kr
|
|
Pluspris 679 kr.
Alm. pris 799 kr
|
|
Pluspris 15 kr.
Alm. pris 19 kr
|











Kroniken
Daglig fordybelse siden 1905