Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

META-NET White Paper Series: Press Release

Sprogteknologi skal sikre det danske sprog mod digital udryddelse

Mindst 21 europæiske sprog i fare

Ny rapport fra sprogforskere på Københavns Universitet, CBS og Dansk Sprognævn viser, at Danmark sakker bagud på det sprogteknologiske område; hvis vi ikke støtter dansk sprogteknologi nu, kan det få negative konsekvenser for det danske sprogs overlevelsesmuligheder i den digitale verden.

Rapporten er det danske bidrag til EU-initiativet META-NET's undersøgelse af 30 europæiske sprogs status på det sprogteknologiske område, som alle udkommer i dag. Og dansk er ikke enestående: 21 af de undersøgte sprog mangler helt grundlæggende sprogteknologiske resurser for at kunne klare sig i den digitale tidsalder.

Når Google Translate oversætter den danske sætning hæld olie på panden til pour oil on the forehead, kan vi godt grine lidt ad oversættelsesmaskinens mangelfulde håndtering af nuancerne i det danske sprog, men eksemplet illustrerer ifølge sprogforskerne, hvad der sker, når et sprog ikke er tilstrækkeligt dækket ind med sprogteknologiske data:

- Google Translate og andre orversættelsesprogrammer er fremragende redskaber. Men hvis vi ikke sikrer, at oversættelsesmaskiner også kan fungere ordentligt på dansk ved fx at fodre dem med tekstsamlinger, der sammenligner dansk med andre sprog sætning for sætning, risikerer vi, at værktøjer som netop Google Translate på længere sigt vil skade mere, end de gavner, forklarer professor Bolette Sandford Pedersen fra Center for Sprogteknologi ved Københavns Universitet, som er initiativtager til den danske META-NET-rapport Det danske sprog i den digitale tidsalder.

Medforfattere til rapporten er desuden forskere fra CBS, Det Danske Sprog- og Litteraturselskab, Dansk Sprognævn samt en række danske kommercielle virksomheder, der udvikler sprogteknologi for det danske marked.

Bolette Sandford Pedersen tilføjer:

- Problemet er, at udviklingen af fx maskinoversættelsesprogrammer og søgemaskinerne på internettet primært foregår i kommercielt regi og i udlandet. Det danske marked er ikke stort nok til, at det kan bære udviklingen, og derfor får vi ikke nødvendigvis adgang til de nyeste metoder eller nye data – hvilket vi ser som problematisk for den fremtidige udvikling. I sidste ende kan det betyde, at danskerne ikke gider bruge de sprogteknologiske redskaber, fordi de alligevel ikke fungerer ordentligt på dansk, eller værre: ikke gider bruge dansk i digitale sammenhænge fordi det er for upraktisk.

Og Dansk Sprognævns direktør Sabine Kirchmeier-Andersen uddyber: - Hvis vi har ambitioner om at bruge det danske sprog i fremtidens teknologiske univers, skal der gøres en indsats nu for at fastholde ekspertise og udbygge den viden vi har. Det viser META-NET-rapporten med stor tydelighed. Ellers risikerer vi at kun folk der taler flydende engelsk, vil få glæde af de nye generationer af web-, tele- og robotteknologi der er på vej.

Men Danmark er ikke alene om denne risiko: - Undersøgelsens resultater er ganske alarmerende, udtaler professor Hans Uszkoreit, international koordinator for META-NET og ansat ved det tyske forskningscenter for kunstig intelligens, DFKI. Hovedparten af de europæiske sprog er underforsynede med sprogteknologiske resurser; de er på ingen måde fremtidssikrede. Og META-NET-seriens medredaktør dr. Georg Rehm tilføjer: Gabet mellem ’store og ’små’ sprog bliver stadig større. Hvis ikke vi forsyner de mindre sprog med basisteknologier er de simpelthen dømt til digital udryddelse.

Danmark bør have en sprogbank

Ifølge Bolette Sandford Pedersen og de andre forskere og udviklere bag rapporten er der mange gode og rigtige ting i gang i Danmark på den sprogteknologiske front både i forskningsinstitutionerne og i virksomhederne. Men der mangler stadig nogle helt afgørende elementer for, at vi kan holde trit med udviklingen.

- Til sammenligning har det norske kulturministerium fx igangsat projektet ”Norsk Språkbank” med det formål at styrke norsk på den globale sprogscene. En sprogbank er en stor samling af digitale data om et sprog fx i form af tekst og video, som kan være opmærket af sprogforskerne på forskellig måde. Ministeriet udtaler om formålet med sprogbanken at hvis norsk skal bestå som samfundsbærende sprog, der kan udvikle sig i takt med den rivende udvikling inden for nye måder at kommunikere på, så er det altafgørende, at nye teknologiske løsninger bliver tilgængelige på norsk. Det samme gælder efter vores opfattelse dansk, siger Bolette Sandford Pedersen.

- Og selv om der er givet støtte til sprogteknologiske projekter i Danmark, er der brug for en mere samlet og fokuseret indsats på området. Vi anbefaler i rapporten, at Danmark også som minimum etablerer en digital sprogbank, så den almindelige dansker også i fremtiden kan få teknologistøttet sproghjælp af høj kvalitet.

Faktabokse

Om META-NET og den europæiske sprogteknologi-undersøgelse

Den danske rapport Det danske sprog i den digitale tidsalder udkommer samtidig med 30 andre statusrapporter over europæiske sprog gennem EU-initiativet META-NET, som er et netværk bestående af 60 forskningscentre i 34 forskellige lande.

Den europæiske undersøgelse er således udarbejdet af mere end 200 eksperter og omfatter 30 sprog. Hvert enkelt sprogs teknologiske status er blevet gennemgået i en rapport, og i hver rapport undersøger eksperterne, hvordan sproget klarer sig inden for fire kategorier: automatisk oversættelse, tale-interaktion, tekstanalyse og sprogresursernes tilgængelighed.

Og konklusionen er utvetydig: De fleste europæiske sprog har ganske enkelt ikke de tilstrækkelige resurser til at klare sig sprogteknologisk, og hvis ikke de store lande og store sprog skal løbe med hele den teknologiske udvikling, skal der handling til, både på EU-niveau og i de enkelte lande. Læs mere om undersøgelserne på http://www.meta-net.eu/. Den danske rapports resultater præsenteres på en workshop om sprogteknologi på Københavns Universitet d. 31.oktober (cst.ku.dk/Workshop311012).

Om sprogteknologi

Vi kender alle sprogteknologi fra vores hverdag: Når vi kan bruge stavekontrollen, oversætte via Google Translate, indtaste eller indtale søgeord på nettet, finde vej via bilens talende gps, er det, fordi sprogforskere og udviklere har gjort det muligt.

De er i deres arbejde afhængige af at få adgang til store mængder data om det sprog, de skal gøre anvendeligt på en af de teknologiske platforme. Har de ikke adgang til de data, kan de heller ikke udvikle værktøjer, der fungerer ordentligt.