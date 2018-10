Hvad betyder uge 42 og hvad er forskellen på 'mor' og 'mord'? Det har været virkelig svært for Google at lære at forstå dansk De mange sammensatte ord på dansk og stødene i den danske udtale har været en udfordring, da Googles digitale assistent skulle lære at forstå dansk.

Når man siger ’næste mandag’, mener man så førstkommende mandag eller den efterfølgende mandag?

Og hvis man beder sin Google Assistent sætte en alarm til klokken 8, mener man så klokken 20 samme aften eller klokken 8 næste morgen?

Det er nogle af de sproglige udfordringer, det danske sprogteam hos Google har haft, inden Google i september lancerede sin digitale assistent på dansk. Assistenten er en konkurrent til Apples Siri, der har forstået dansk siden 2015.

Men det er ikke nogen helt enkel øvelse at udstyre de digitale hjælpere med alle de særlige danske måder at udtrykke sig på, som er en forudsætning for, at vi kan bruge dem til at vise vej til nærmeste indiske restaurant, diktere sms’er, styre musikken på Spotify, svare på geografiske spørgsmål eller føje ting ind i vores kalender.

Det sidste kunne eksempelvis være en aftale i uge 42.

Det har Google også måttet lære sin assistent, hvad er, for her adskiller dansk sig fra amerikansk, hvor man overhovedet ikke bruger ugenumre, og hvor ingen aner, at uge 42 ikke bare er et ugenummer, men også den uge på året, hvor skolerne holder efterårsferie.

Hos Google har et dansk team fodret assistenten både sprogligt og kulturelt for at gøre den rigtig dansk, fortæller Anna Katrine Jørgensen, der er sprogteknolog og arbejder for Google i Zürich.

FAKTA Talegenkendelse Danskere med Android-smartphones får Google Assistent helt automatisk og kan aktivere den ved at holde homeknappen inde. Folk med iPhones kan også få Google Assistent på deres telefoner, men som en app, der skal skal startes, før assistenten kan bruges. IPhone-brugere har til gengæld automatisk adgang til Siri, der har forstået dansk i to år. Amazons digitale assistent, Alexa, taler endnu ikke dansk. Og sprogteknologi er i det hele taget ikke nogen selvfølge, når det gælder små sprog. Der gik fem år fra lanceringen af Apples Siri, før der kom en dansk version. Det er to år siden, at Google Assistent kom på engelsk Vis mere

Hun har speciale i netop sprogteknologi for små sprog og dialekter og har i de seneste to år arbejdet med den sproglige del af den danske version af Google Assistent, mens det er andre, der har stået for at fodre assistenten kulturelt, eksempelvis med jokes, der giver mening og er sjove i en dansk kontekst.

I den danske version skal Google-assistenten både kunne forstå ordrer på bornholmsk, sønderjysk og vendelbomål, ligesom den skal kunne høre forskel på stødet i ’mor’ og ’mord’ og i ’men’ og mænd’.

Man taler om kunstig intelligens, men de systemer, der er blevet udviklet af Apple og Google, er ikke ret intelligente, det er rent statistiske systemer, der bare er gode til at trække informationer ud af en masse data Sabine Kirchmeier, direktør, Dansk Sprognævn

Og netop de mange stød i dansk gør det svært at undgå at få assistenten til at lyde »robotagtig«, fortæller Anna Katrine Jørgensen.

Assistenten skal også sprogligt være udstyret til at forstå, at vi på dansk sluger så mange af stavelserne i vores sætninger, at ’jeg gav ham den’ i det danske talesprog bliver til ’jagaamn’.

Og så skal den også kunne holde rede på alle de sammensatte ord, vi har på dansk, og som vi hele tiden får flere af, fordi vi kan blive ved med at sætte to ord sammen, så de danner et tredje.

»Det har været en kæmpe øvelse, fordi dansk er så komplekst. Mængden af sammensatte ord på dansk er nok det, der har overrasket mig mest undervejs«,siger Anna Katrine Jørgensen.

Når man eksempelvis vil have assistenten til at søge i sine billeder fra Roskilde Festival, skal den vide, at man kan finde på at spørge efter både sine koncertbilleder, popkoncertbilleder eller festivalbilleder. Og at rigtig mange danskere i øvrigt ikke siger ’billeder’ med ’bidler’.

»Der findes en færdig liste over stedord på dansk. Det er en lukket liste, som ikke forandrer sig. Men der findes ikke en færdig liste over sammensatte ord, man kan hele tiden tilføje nye ved at sætte noget foran. Det gør det svært at lave sprogteknologi for dansk, men det er også smukt, at man kan sige, hvad man vil, på mange forskellige måder og blive ved med at danne nye ord«, siger Anna Katrine Jørgensen.

To forskellige sprog

Man kan både tale og skrive med sin Google Assistent.

Og i den danske udtale ligger der også en række problemstillinger. For det første udtaler vi ikke ordene, som vi skriver dem – det er i sig selv næsten to forskellige sprog, forklarer Anna Katrine Jørgensen.

Og så er det også en udfordring for systemet, at vokalerne udtalemæssigt ligger så tæt på hinanden i ord som ’mænd’ og ’men’ og ’kræve’ og ’krave’.

Tegning: Mette Dreyer

»Og så har vi de her stød, når vi i talesproget lukker nede i halsen, altså forskellen på hvordan vi udtaler ’mor’ og ’mord’ – der er minial forskel på de to ord, så man skal lede efter den lukken i halsen for at finde ud af, hvad det er for et af ordene. Systemet arbejder også med sandsynlighed, når det skal genkende et ord. Hvis der bliver sagt ’min mor skrev et postkort’, er det ret usandsynligt, at der blev sagt ’mord’. De regionale variationer skal også indbygges i systemet, så det accepterer og forstår, at bornholmsk har flere toner og fynsk lidt færre stød«, siger hun.

Og som nævnt i starten har det danske sprogteam hos Google altså også diskuteret, om ’næste mandag’ betyder nu på mandag eller næste mandag.

»For mange er ’næste mandag’ den førstkommende mandag. Personligt synes jeg, at det hedder ’nu på mandag’, og at ’næste mandag’ først er mandag otte dage – som i øvrigt også er en meget dansk måde at udtrykke sig på. Men for Google Assistent er det endt med, at ’næste mandag’ betyder førstkommende mandag. Det håber jeg, at danskerne er enige med os i«.