Kan vi få digitale assistenter på godt dansk?

I Danmark er vi bagud med udvikling af sprogteknologi. Gør vi ikke noget må vi tage til takke med tech giganternes tilbud og metoder. Men de prioriterer ikke dansk, det er for lille et sprogområde. God sprogteknologi kræver nemlig masser af data, kompetente folk og økonomi.

For nylig er det kommet frem, at flere af de store tech giganter, Apple, Facebook, Google og Amazon aflytter de brugere, der benytter virksomhedernes digitale assistenter og tjenester. Formålet har været at forbedre assistenternes evne til at forstå og tale med brugerne.

Ved at lade ansatte lytte med på et stort antal samtaler og beskeder, vil man træne algoritmerne i bedre at kunne kommunikere med mennesker. Det kræver store mængder af data. Data, som virksomhederne så at sige har lige ved hånden. Problemet er bare, at tech giganterne ikke har været særlig åbne om de metoder, de bruger.  Det kan svække tilliden, også til danske virksomheder, som ønsker at være åbne omkring deres brug af data.

Ifølge Anne Bøgh Fangel, der er projektleder for projektet ‘Dansk for alle’ ved Alexandra Instituttet, handler det om, hvorvidt folk er vidende om, hvornår de bliver aflyttet.

– Jeg tror, at tech giganterne har arbejdet med det her ud fra en vinkel om tech first. Man har udelukkende set på, hvordan teknologi kan udvikles. Det, vi synes er vigtigt, er at have brugerne first – at have etikken på plads. I andre sammenhænge taler vi om informeret samtykke – det har de nok lidt glemt, siger Anne Fangel.

Dansk for alle

Alexandra Instituttet er et såkaldt Godkendt Teknologisk Service institut. Dem har vi syv af i Danmark. Deres formål er at hjælpe danske virksomheder ved at udvikle og dele ny teknologisk viden, ofte i tæt samarbejde med danske og internationale universiteter og forskningsinstitutioner.

I projektet ‘Dansk for alle’, der løber over to år, vil instituttet udvikle værktøjer og komponenter til kunstig intelligens, der kan forstå dansk. For i dag mangler der god sprogteknologi baseret på dansk. Så længe det primært er tech giganterne, der står for udviklingen af sprogteknologier, kan vi i Danmark ikke styre, hvordan det bliver udviklet, og hvordan det bliver udbudt. Vi kan heller ikke sikre, at det danske sprog bliver bevaret i tilstrækkelig grad, så vi fx uden problemer kan have en samtale med sundhedssektoren via en chatbot.

Hvad er sprogteknologi?

Sprogteknologi dækker egentlig over en række forskellige tekniker og it-værktøjer. Nogle af dem har vi brugt længe. Det gælder fx stavekontrol, når vi skriver i et tekstbehandlingsprogram. Det gælder når vi bruger Google translate på nettet eller hører oplæste tekster med talesyntese.

Andre er af nyere dato. Det er fx talegenkendelse, som vi bruger når vi tale til vores digitale assistenter på telefonen eller højtalere derhjemme. Og om ikke så længe kan vi forvente, at vi kan tale til vores vaskemaskine eller køleskab via stemmekontrol. Men det er langt fra alt der fungerer lige godt.

– Det er vist ingen hemmelighed, at tech giganterne ikke har brugt mega meget tid på det danske. Så det fungere ikke optimalt. Og det er uanset om det er det ene eller andet produkt, siger Anne Fangel og fortsætter:

– Hvis du ser på chatbots fungerer de ikke optimalt. Ofte får man underlige svar tilbage. Så der er mange konkrete eksempler på, at der er en udfordring. Det er fordi dansk er et lille sprogområde, så der er ikke brugt mange ressourcer på det.

Sprogforståelse

Noget af det svære, og det der koster mange penge, er at få udviklet en korrekt sprogforståelse på dansk. I april 2019 udgav sprogteknologiudvalget under Dansk sprognævn en større rapport om emnet: ‘Dansk Sprogteknologi i verdensklasse’.

I den skriver de at sprogforståelse går ud på at systemet skal indeholde teknologier, der kan analysere teksten nærmere og forstå̊ hvad brugeren mener. Er der fx tale om en ordre eller et spørgsmål? Hvad er den mest sandsynlige betydning hvis ordene er flertydige?Det handler også om at systemet, algoritmerne, skal kunne foretage de rigtige analyser af det vi skriver eller siger. Er der tale om ironi eller humor? Systemet skal desuden kunne inddrage viden om verden, om den betydning vi lægger i begreberne, og om den måde vi kategoriserer vores omverden på. De skal med andre ord kunne forstå de kulturelle normer i samfundet.

Derfor er adgang til strukturerede og verificerede data om fx dansk kulturarv, danske geografiske og samfundsmæssige forhold, dagligdags ord og termers betydning, og hvordan vi bruger dem, en vigtig forudsætning for, at man i fremtiden kan bevæge sig videre i retning mod en dybere sprogforståelse.

Opmærkning af sproget

Det kræver mennesker med forstand på dansk sprog til at opmærke og analyser sproget. De fleste sprogteknologier bygger på maskinlæring og kræver adgang til store mængder af sproglige data, som anvendes til at optræne programmer til at genkende, oversætte, udtale og på anden måde behandle løbende tekst og tale.  Men hvis den data man bruger, skal være af høj kvalitet, skal de beriges med information om bøjning, grammatik, udtale, betydning, fagligt emne, brugssituation og andre oplysninger, såkaldte metadata. Det er langt hen ad vejen manuelt arbejde, som lingvistiske eksperter udfører. Med datasæt der typisk tæller millioner eller milliarder af ord er det en meget stor opgave.

Hvorfor er Danmark bagud med sprogteknologi?

–  En af de udfordringer vi oplever er adgangen til data. Det kræver store mængder data at lave god sprogteknologi. Det er også derfor at tech giganterne er foran, siger Anne Fangel og tilføjer:

 –  Her i startfasen har vi brugt en offentlig tilgængelig tekstsamling på 5.512 sætninger og så arbejder vi sideløbende med udvikling af algoritmer. Men vi kunne godt tænke os en eller anden form for demokratisering af al den sproglige data, der ligger. Hvis vi i højere grad kunne stille data til rådighed for hinanden i Danmark, tror jeg at vi vil kunne nå langt.

– Hvilke data?

– Jamen der er meget data, der er bundet af ophavsretten. Det er ophavsretten som er en udfordring. Bibliotekerne ligger inde med masse af data, tekster. Det gælder også mediehusene. De ligger inde med store mængder data.

– Vi er i dialog med flere spillere i mediebranchen. For der ligger virkelig store mængder af tekst data, som vil være vigtige i forhold til at kunne træne gode modeller. Det ville give stor værdi – ikke bare for os. Det gode ville jo være at stille det til rådighed bred set. Men der er nogle juridiske forhold der gør det svært.

Det gode samspil

Anne Fangel mener at rigtig mange virksomheder og offentlige institutioner vil kunne få gavn at det grundlæggende arbejde som Alexandra Instituttet er gået i gang med. Men hun efterlyser en fælles indsats, for der er behov for økonomi, data og kompetente folk.  

Nogle penge er der blevet tildelt området. I forbindelse med Danmarks første nationale strategi for kunstig intelligens fra marts 2019, afsatte den daværende regeringen 30 millioner kroner til at oprette en fælles dansk sprogbank, der skal stille sprogresurser frit tilgængeligt for virksomheder, myndigheder og forskere. Pengene er dog ikke blevet udmøntet endnu.

“Det er vigtigt hele tiden at have for øje, hvordan det gode samspil mellem teknologien og mennesker skal være”

Det handler imidlertid ikke kun om at udvikle nogle gode tekniske løsninger. Det handler i endnu højere grad om hvordan man bruger dem. Anne Fangel slutter med at siger:

– Det er vigtigt hele tiden at have for øje, hvordan det gode samspil mellem teknologien og mennesker skal være. For hvordan er det man leverer en god offentlig service? I hvilke situationer giver det her værdi, og i hvilke situationen vil det virke fremmedgørende? Et er hvad man kan teknologisk, noget andet er hvad vi vil med teknologien. Det tror jeg er rigtig, rigtig vigtigt. Hvornår er det ok at snakke med en robot og hvornår er det ikke.

Denne uge:

Kan vi få digitale assistenter på godt dansk?

I Danmark er vi bagud med udvikling af sprogteknologi. Gør vi ikke noget må vi tage til takke med tech giganternes tilbud og metoder. Men de prioriterer ikke dansk, det er for lille et sprogområde. God sprogteknologi kræver nemlig masser af data, kompetente folk og økonomi.

For nylig er det kommet frem, at flere af de store tech giganter, Apple, Facebook, Google og Amazon aflytter de brugere, der benytter virksomhedernes digitale assistenter og tjenester. Formålet har været at forbedre assistenternes evne til at forstå og tale med brugerne.

Ved at lade ansatte lytte med på et stort antal samtaler og beskeder, vil man træne algoritmerne i bedre at kunne kommunikere med mennesker. Det kræver store mængder af data. Data, som virksomhederne så at sige har lige ved hånden. Problemet er bare, at tech giganterne ikke har været særlig åbne om de metoder, de bruger.  Det kan svække tilliden, også til danske virksomheder, som ønsker at være åbne omkring deres brug af data.

Ifølge Anne Bøgh Fangel, der er projektleder for projektet ‘Dansk for alle’ ved Alexandra Instituttet, handler det om, hvorvidt folk er vidende om, hvornår de bliver aflyttet.

– Jeg tror, at tech giganterne har arbejdet med det her ud fra en vinkel om tech first. Man har udelukkende set på, hvordan teknologi kan udvikles. Det, vi synes er vigtigt, er at have brugerne first – at have etikken på plads. I andre sammenhænge taler vi om informeret samtykke – det har de nok lidt glemt, siger Anne Fangel.

Dansk for alle

Alexandra Instituttet er et såkaldt Godkendt Teknologisk Service institut. Dem har vi syv af i Danmark. Deres formål er at hjælpe danske virksomheder ved at udvikle og dele ny teknologisk viden, ofte i tæt samarbejde med danske og internationale universiteter og forskningsinstitutioner.

I projektet ‘Dansk for alle’, der løber over to år, vil instituttet udvikle værktøjer og komponenter til kunstig intelligens, der kan forstå dansk. For i dag mangler der god sprogteknologi baseret på dansk. Så længe det primært er tech giganterne, der står for udviklingen af sprogteknologier, kan vi i Danmark ikke styre, hvordan det bliver udviklet, og hvordan det bliver udbudt. Vi kan heller ikke sikre, at det danske sprog bliver bevaret i tilstrækkelig grad, så vi fx uden problemer kan have en samtale med sundhedssektoren via en chatbot.

Hvad er sprogteknologi?

Sprogteknologi dækker egentlig over en række forskellige tekniker og it-værktøjer. Nogle af dem har vi brugt længe. Det gælder fx stavekontrol, når vi skriver i et tekstbehandlingsprogram. Det gælder når vi bruger Google translate på nettet eller hører oplæste tekster med talesyntese.

Andre er af nyere dato. Det er fx talegenkendelse, som vi bruger når vi tale til vores digitale assistenter på telefonen eller højtalere derhjemme. Og om ikke så længe kan vi forvente, at vi kan tale til vores vaskemaskine eller køleskab via stemmekontrol. Men det er langt fra alt der fungerer lige godt.

– Det er vist ingen hemmelighed, at tech giganterne ikke har brugt mega meget tid på det danske. Så det fungere ikke optimalt. Og det er uanset om det er det ene eller andet produkt, siger Anne Fangel og fortsætter:

– Hvis du ser på chatbots fungerer de ikke optimalt. Ofte får man underlige svar tilbage. Så der er mange konkrete eksempler på, at der er en udfordring. Det er fordi dansk er et lille sprogområde, så der er ikke brugt mange ressourcer på det.

Sprogforståelse

Noget af det svære, og det der koster mange penge, er at få udviklet en korrekt sprogforståelse på dansk. I april 2019 udgav sprogteknologiudvalget under Dansk sprognævn en større rapport om emnet: ‘Dansk Sprogteknologi i verdensklasse’.

I den skriver de at sprogforståelse går ud på at systemet skal indeholde teknologier, der kan analysere teksten nærmere og forstå̊ hvad brugeren mener. Er der fx tale om en ordre eller et spørgsmål? Hvad er den mest sandsynlige betydning hvis ordene er flertydige?Det handler også om at systemet, algoritmerne, skal kunne foretage de rigtige analyser af det vi skriver eller siger. Er der tale om ironi eller humor? Systemet skal desuden kunne inddrage viden om verden, om den betydning vi lægger i begreberne, og om den måde vi kategoriserer vores omverden på. De skal med andre ord kunne forstå de kulturelle normer i samfundet.

Derfor er adgang til strukturerede og verificerede data om fx dansk kulturarv, danske geografiske og samfundsmæssige forhold, dagligdags ord og termers betydning, og hvordan vi bruger dem, en vigtig forudsætning for, at man i fremtiden kan bevæge sig videre i retning mod en dybere sprogforståelse.

Opmærkning af sproget

Det kræver mennesker med forstand på dansk sprog til at opmærke og analyser sproget. De fleste sprogteknologier bygger på maskinlæring og kræver adgang til store mængder af sproglige data, som anvendes til at optræne programmer til at genkende, oversætte, udtale og på anden måde behandle løbende tekst og tale.  Men hvis den data man bruger, skal være af høj kvalitet, skal de beriges med information om bøjning, grammatik, udtale, betydning, fagligt emne, brugssituation og andre oplysninger, såkaldte metadata. Det er langt hen ad vejen manuelt arbejde, som lingvistiske eksperter udfører. Med datasæt der typisk tæller millioner eller milliarder af ord er det en meget stor opgave.

Hvorfor er Danmark bagud med sprogteknologi?

–  En af de udfordringer vi oplever er adgangen til data. Det kræver store mængder data at lave god sprogteknologi. Det er også derfor at tech giganterne er foran, siger Anne Fangel og tilføjer:

 –  Her i startfasen har vi brugt en offentlig tilgængelig tekstsamling på 5.512 sætninger og så arbejder vi sideløbende med udvikling af algoritmer. Men vi kunne godt tænke os en eller anden form for demokratisering af al den sproglige data, der ligger. Hvis vi i højere grad kunne stille data til rådighed for hinanden i Danmark, tror jeg at vi vil kunne nå langt.

– Hvilke data?

– Jamen der er meget data, der er bundet af ophavsretten. Det er ophavsretten som er en udfordring. Bibliotekerne ligger inde med masse af data, tekster. Det gælder også mediehusene. De ligger inde med store mængder data.

– Vi er i dialog med flere spillere i mediebranchen. For der ligger virkelig store mængder af tekst data, som vil være vigtige i forhold til at kunne træne gode modeller. Det ville give stor værdi – ikke bare for os. Det gode ville jo være at stille det til rådighed bred set. Men der er nogle juridiske forhold der gør det svært.

Det gode samspil

Anne Fangel mener at rigtig mange virksomheder og offentlige institutioner vil kunne få gavn at det grundlæggende arbejde som Alexandra Instituttet er gået i gang med. Men hun efterlyser en fælles indsats, for der er behov for økonomi, data og kompetente folk.  

Nogle penge er der blevet tildelt området. I forbindelse med Danmarks første nationale strategi for kunstig intelligens fra marts 2019, afsatte den daværende regeringen 30 millioner kroner til at oprette en fælles dansk sprogbank, der skal stille sprogresurser frit tilgængeligt for virksomheder, myndigheder og forskere. Pengene er dog ikke blevet udmøntet endnu.

“Det er vigtigt hele tiden at have for øje, hvordan det gode samspil mellem teknologien og mennesker skal være”

Det handler imidlertid ikke kun om at udvikle nogle gode tekniske løsninger. Det handler i endnu højere grad om hvordan man bruger dem. Anne Fangel slutter med at siger:

– Det er vigtigt hele tiden at have for øje, hvordan det gode samspil mellem teknologien og mennesker skal være. For hvordan er det man leverer en god offentlig service? I hvilke situationer giver det her værdi, og i hvilke situationen vil det virke fremmedgørende? Et er hvad man kan teknologisk, noget andet er hvad vi vil med teknologien. Det tror jeg er rigtig, rigtig vigtigt. Hvornår er det ok at snakke med en robot og hvornår er det ikke.

Log ind

Opret kundekonto

Dine personlige data vil blive anvendt til at understøtte din brugeroplevelse,, til at administrere adgang til din konto, og til andre formål, som er beskrevet i vores persondatapolitik.

Ja tak, jeg vil gerne have et gratis prøveabonnement og adgang til alle artikler

Enkelt abonnementGruppeabonnementGavekort