Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

Det danske sprog i den digitale tidsalder — Resumé

Informationsteknologien forandrer vores hverdag. Vi bruger computeren når vi skriver, læser, hører musik og ser billeder og film. Vi har computere i lommestørrelse som vi bruger til telefonopkald, e-mails, informationssøgning og underholdning, uanset hvor vi er. Men hvordan påvirkes sproget af denne massive digitalisering af information, viden og kommunikation? Vil vores sprog forandre sig eller måske endda forsvinde?

Alle vores computere er forbundet i et globalt netværk som hele tiden bliver stærkere. Pigen i Ipanema, toldofficeren i Padborg og ingeniøren i Katmandu kan chatte med venner på Facebook, men det er ikke særligt sandsynligt at de nogensinde mødes i online fora. Hvis de gerne vil vide hvordan man behandler ørepine, vil de alle tjekke Wikipedia for at lære mere om emnet, men ikke engang dér vil de læse den samme artikel. Når Europas internetbrugere i forskellige chatrum diskuterer Fukushima-atomulykkens indvirkning på europæisk energipolitik, gør de det i klart adskilte sprogfællesskaber. Hvad internettet forbinder, holdes stadig adskilt af brugernes sprog. Vil det altid være sådan?

Mange af verdens 6000 sprog vil ikke overleve i et globaliseret, digitaliseret informationssamfund. Man regner med at mindst 2000 sprog vil uddø i de kommende årtier. Andre vil stadig spille en rolle i familier og inden for mindre geografiske områder, men måske ikke i finansverdenen og i den akademiske verden. Hvad er chancerne for det danske sprogs overlevelse?

Ca. 5 mio. har dansk som modersmål, så dansk må anses for at være et relativt lille sprog, i hvert fald sammenlignet med flere andre EU-sprog. I lighed med andre industrialiserede lande er vores hverdag i høj grad påvirket af det engelske sprog. Store internationale virksomheder bruger i stigende grad engelsk som deres virksomhedssprog, og engelsk er ved at blive lingua franca inden for højere uddannelser, ligesom det er inden for videnskab og teknologi hvor det har haft den rolle i lang tid.

Man hører ofte kritik af den støt stigende brug af anglicismer, og nogle mennesker frygter ligefrem at det danske sprog er ved at blive gennemsyret af engelske ord og udtryk. Men danske ord og udtryk kan man kun bevare ved rent faktisk at bruge dem – ofte og bevidst; lingvistisk polemik om udenlandsk indflydelse og statslig regulering hjælper som regel ikke. Vores største bekymring bør dog ikke være den gradvise anglisering af vores sprog, men snarere at dansk kan forsvinde ud af store dele af vores liv. Videnskab, luftfart og de globale finansmarkeder har reelt brug for et verdensomspændende lingua franca, men vi bør værne om vores eget sprog inden for områder som primært angår landets borgere, fx national politik, administrative procedurer, love, kultur og handel.

Et sprogs status afhænger ikke kun af det antal af mennesker, bøger, film og tv-stationer, der bruger det, men også af at det findes i det digitale informationsrum og bruges i softwareprogrammer. Her er det danske sprog temmelig godt placeret: mange internationale softwareprodukter findes i danske versioner, det danske Wikipedia er i vækst, og med mere end 1 million internetdomæner registreret i 2011 er dansk godt repræsenteret på webben set i forhold til befolkningens størrelse.

Men inden for sprogteknologien mangler det danske sprog både værktøjer, teknologier og resurser for at kunne leve op til morgendagens krav. Der findes en række programmer til talesyntese, talegenkendelse, stavekontrol og grammatikkontrol, men der kræves væsentlige forbedringer hvis man vil sikre en ordentlig funktionalitet i alle relevante sammenhænge. Der findes også programmer til automatisk oversættelse af sprog som dog ofte producerer oversættelser der hverken er sprogligt eller idiomatisk korrekte, hvilket til en vis grad kan forklares med mangel på træningsmateriale i form af parallelle tekstkorpusser som inkluderer dansk. Mere avancerede programtyper som tekstforståelse, sproggenerering og dialogstyring er stadig på et meget tidligt prototypestadie da de typisk kræver resurser med et rigt semantisk indhold i stor skala som slet ikke findes for dansk i dag.

Informations- og kommunikationsteknologien forbereder nu den næste revolution. Efter personlige computere, netværk, multimedier, mobile enheder og ‘cloud computing’, vil den næste generation af teknologi byde på software som forstår ikke blot talte og skrevne bogstaver og lyde, men hele ord og sætninger, og den vil støtte brugerne langt bedre fordi den taler, kender og forstår deres sprog. Frontløbere for denne udvikling er gratis online tjenester som Google Translate, som oversætter mellem 57 sprog, IBM’s supercomputer Watson, som var i stand til at overvinde den amerikanske mester i spillet Jeopardy, og Apples mobile assistent Siri til iPhone, som kan reagere på stemmekommandoer og besvare spørgsmål på engelsk, tysk, fransk og japansk.

Den næste generation af informationsteknologi vil beherske sprog i et sådant omfang at mennesker vil være i stand til at kommunikere ved at bruge teknologi på deres eget sprog. En enkelt stemmekommando vil være nok til at finde de vigtigste nyheder og den vigtigste information fra verdens digitale videnbase. Sprogaktiveret teknologi vil kunne oversætte automatisk eller assistere ved tolkning, resumere samtaler og dokumenter samt understøtte brugere i indlæringssammenhænge. Fx vil den hjælpe immigranter til at lære dansk og dermed til at blive bedre integreret i vores lands kultur.

Den næste generation af informations- og kommunikationsteknologi vil sætte industri- og servicerobotter (som pt. er under udvikling i forskningslaboratorier) i stand til præcist at forstå hvad deres brugere vil have dem til at gøre og derpå stolt rapportere om deres resultater. Sådan et præstationsniveau kræver at vi skal langt videre end de simple leksika, stavekontrolprogrammer og udtaleregler som vi har i dag. Teknologien må bevæge sig fra overforenklede fremgangsmåder og begynde at modellere sproget på en altomfattende måde ved at tage både syntaks og semantik i betragtning for at forstå meningen bag spørgsmål og generere fyldestgørende, relevante svar.

Der er desværre en kæmpe teknologisk kløft mellem engelsk og dansk, og den vokser hele tiden. Hver eneste internationale teknologikonkurrence viser at resultaterne for automatisk analyse af engelsk er langt bedre end for de mere resursesvage sprog som dansk, skønt (eller måske netop fordi) analysemetoderne ligner hinanden eller er identiske. Dette gælder både for videnudtræk fra tekster, grammatikkontrol, maskinoversættelse og en hel række andre anvendelsesområder. Mange forskere regner med at denne tilbagegang skyldes det faktum at metoderne og algoritmerne inden for datalingvistik og sprogteknologi i de sidste 50 år først og fremmest har fokuseret på engelsk. Andre forskere mener imidlertid at det engelske sprog i sig selv er bedre egnet til computerprocessering. I al fald er der ingen tvivl om at vi har brug for en dedikeret, konsekvent og vedvarende forskningsindsats hvis vi vil kunne bruge næste generation af informations- og kommunikationsteknologi inden for de områder af vores privatliv og arbejdsliv hvor vi lever, taler og skriver på dansk.

Efter en relativt succesrig forskningsindsats med adskillige nationale og nordiske projekter inden for sprogteknologi i perioden 1985-2001, er dansk nu begyndt at halte bagefter, også i det nordiske felt. I de sidste ti år er der ikke blevet givet nogen væsentlig støtte til at fremme og udvikle dansk sprogteknologi, og den uddannelsesmæssige situation er lige så kritisk. Som rapporten her viser, kan vi ikke tillade os at gå i stå. Danmark ligger lavt på den europæiske liste når det drejer sig om tilgængelighed og udvikling af sprogteknologi, og der er et uomgængeligt behov for programmer der kan genoplive og styrke forskningen samt resurse- og teknologiudviklingen på området. Ellers vil vi ikke kunne følge med når en ny generation af teknologi for alvor begynder at beherske de menneskelige sprog. Gennem forbedringer af maskinoversættelse vil sprogteknologien fremover hjælpe med at overvinde sprogbarriererne, men det vil kun fungere mellem de sprog som har evnet at overleve i den digitale verden. Hvis den rigtige sprogteknologi er til rådighed, vil den kunne sikre overlevelsen af selv sprog med et meget lille antal indfødte sprogbrugere. Hvis ikke, vil selv ‘større’ sprog komme under hårdt pres.