Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

Het Nederlands in het Digitale Tijdperk — Managementsamenvatting

Informatietechnologie verandert ons alledaagse leven. We gebruiken computers om te schrijven, te bewerken, te rekenen en om informatie te zoeken, en steeds meer om te lezen, naar muziek te luisteren, en om foto’s en films te bekijken. We dragen kleine computers in onze zakken en gebruiken ze – waar we ook zijn – om op te bellen, e-mails te schrijven, informatie te verkrijgen en ons te onderhouden. Hoe beïnvloedt deze massale digitalisatie van informatie, kennis, en alledaagse communicatie onze taal? Zal onze taal veranderen of zelfs verdwijnen?

Al onze computers zijn met elkaar verbonden in een toenemend dicht en krachtig network. Het meisje in Ipanema, de douaneambtenaar in Venlo, en de ingenieur in Kathmandu kunnen allemaal chatten met hun vrienden op Facebook, maar ze zullen elkaar waarschijnlijk nooit in online gemeenschappen en forums ontmoeten. Als ze zich er zorgen over maken hoe oorpijn behandeld moet worden, zullen ze allemaal Wikipedia raadplegen om dit uit te zoeken, maar zelfs dan zullen ze niet hetzelfde artikel lezen. Wanneer de internettende burgers van Europa de effecten van het kernongeluk in Fukushima op het Europese energiebeleid bespreken in forums en chatsessies, doen ze dat in netjes gescheiden taalgemeenschappen. Wat het internet verbindt wordt nog steeds verdeeld door de talen van de gebruikers ervan. Zal het altijd zo zijn?

Veel van de 6000 talen van de wereld zullen niet overleven in een geglobaliseerde digitale informatiemaatschappij. Er wordt geschat dat minstens 2000 talen gedoemd zijn te verdwijnen in de komende decennia. Andere zullen een rol blijven spelen in families en buurtschappen, maar niet in de wijdere bedrijfs- en academische wereld. Wat zijn de overlevingskansen voor het Nederlands?

Met ongeveer 23 miljoen moedertaalsprekers is het Nederlands de achtste meest gesproken natuurlijke taal in de Europese Unie. Het is slechts een ‘kleine’ taal in vergelijking met de naburige talen Engels, Duits en Frans. De invloed van het Engels op het taalgebruik is significant, vooral onder jongeren. Het bedrijfsleven, zelfs wanneer het opereert in de Lage Landen (Nederland en Vlaanderen), gebruikt vaak Engels, vooral in multinationals. De communicatietaal in de wetenschap is het Engels. Hoger onderwijs wordt in toenemende mate in het Engels gegeven. Boekpublicaties in het Nederlands, films, en TV- en radioprogramma’s in het Nederlands bestaan natuurlijk, maar de markt ervoor is nogal klein.

In de Europese Unie is het Nederlands een officiële taal, maar het Nederlands wordt nauwelijks in de Europese Unie gebruikt. De Nederlandse taal zal zeker niet helemaal verdwijnen, maar er is wel een reëel gevaar dat het gebruik van het Nederlands verdwijnt uit belangrijke gebieden van ons persoonlijke leven, in het bijzonder uit gebieden die te maken hebben met discussies over en beslissingen over beleidskwesties, administratieve procedures, de wetgeving, cultuur en het winkelen.

De status van een taal hangt niet alleen af van het aantal sprekers of het aantal boeken, films en Tv-stations in die taal, maar ook op de aanwezigheid van de taal in de digitale informatieruimte en in softwaretoepassingen. De Nederlandse Wikipedia is de op acht na grootste van de wereld. Met ongeveer 1.24 miljoen internetdomeinen, is het topniveau landendomein .nl van Nederland de elfde landenextensie. Dat is niet slecht voor een klein land zeker aangezien het verder groeit. De hoeveelheid Nederlandstalige data op het web is natuurlijk heel klein in vergelijking tot het Engels en de taaldata van verschillende andere grotere talen zoals Duits en Frans. Dankzij het STEVIN-programma, dat het versterken van de Nederlandse taal expliciet als een van zijn doelstellingen had, doet het Nederlands het ook niet slecht wat betreft software voor de Nederlandse taal en wat betreft Nederlandstalige taalbronnen die nodig zijn om dergelijke software te ontwikkelen. Het speelt in dezelfde liga als het Frans en het Duits, maar loopt nog ver achter op het Engels.

De informatie- en communicatietechnologie bereidt zich nu voor op de volgende revolutie. Na persoonlijke computers, netwerken, miniaturisatie, multimedia, mobiele apparaten, en cloud-computing, zal de volgende generatie van technologie software bevatten die niet alleen maar gesproken klanken of geschreven letters begrijpt, maar hele woorden en zinnen, en die gebruikers veel beter ondersteunt omdat het hun taal spreekt, kent en begrijpt. Voorlopers van deze ontwikkeling zijn de gratis online dienst Google Translate, dat tussen 57 talen vertaalt, de Watson supercomputer van IBM die in staat was de kampioen van de Verenigde Staten in het spel "Jeopardy" te verslaan, en de mobiele assistent Siri van Apple voor de iPhone, die kan reageren op stemcommando’s en vragen kan beantwoorden in het Engels, Duits, Frans en Japans.

De volgende generatie informatietechnologie zal natuurlijke taal zo goed beheersen dat menselijke gebruikers in staat zullen zijn te communiceren in hun eigen taal als ze de technologie gebruiken. Apparaten zullen op basis van makkelijk te gebruiken stemcommando’s in staat zijn automatisch het belangrijkste nieuws en de belangrijkste informatie te vinden in de digitale kennisbank van de wereld. Van taaltechnologie voorziene software zal in staat zijn automatisch te vertalen of tolken bij te staan; om gesprekken en documenten samen te vatten; en om gebruikers te ondersteunen in leerscenario’s. Bijvoorbeeld, het zal immigranten – zoals vereist door de regeringen van de Lage Landen – helpen de Nederlandse taal te leren en volledig te integreren in de cultuur van het land.

De volgende generatie informatietechnologie zal industriële en dienstenrobots (die momenteel in onderzoekslaboratoria ontwikkeld worden) in staat stellen op betrouwbare manier te interpreteren wat hun gebruikers hen willen laten doen om dan ‘trots’ over hun resultaten te rapporteren.

Dit prestatieniveau reikt ver uit boven simpele karakterverzamelingen en woordenboeken, spellingscontrole en uitspraakregels. De technologie moet ophouden met simplistische benaderingen en taal op een alomvattende manier modelleren, en daarbij syntaxis evenals semantiek in beschouwing nemen om de portee van vragen te begrijpen en rijke en relevante antwoorden te genereren.

Er is echter een gapend technologisch gat tussen het Engels en andere talen, inclusief het Nederlands, en dit gat wordt momenteel alleen maar groter. Commercieële bedrijven onderzoeken, ontwikkelen, verkopen en gebruiken taaltechnologie initieel voor het (Amerikaans) Engels, simpelweg omdat de interessantste markten zich in landen bevinden waar (Amerikaans) Engels gesproken wordt. De technologische voorlopers die boven genoemd zijn komen in enkele gevallen pas veel later beschikbaar voor het Nederlands, en in veel gevallen zelfs helemaal niet. Het Nederlands is bij deze ontwikkelingen nauwelijks in het zicht.

Internationale technologische competities laten gewoonlijk zien dat resultaten voor de automatische analyse van het Engels beter zijn dan die voor het Nederlands, alhoewel (of precies omdat) de analysemethodes gelijkaardig of zelfs identiek zijn. Dit geldt voor het extraheren van informatie uit teksten, grammaticacontrole, automatisch vertalen, en een hele reeks van andere toepassingen.

Veel onderzoekers gaan ervan uit dat deze achterstanden te wijten zijn aan het feit dat, nu al vijftig jaar lang, de methodes en algoritmes van de computationele linguïstiek en het onderzoek naar taaltechnologische toepassingen zich eerst en vooral hebben geconcentreerd op het Engels. In een selectie van leidende conferenties en wetenschappelijke tijdschriften tussen 2008 en 2010 is het aantal publicaties over taaltechnologie voor het Engels een orde groter dan het aantal publicaties over taaltechnologie voor welke Europese taal dan ook.

Andere onderzoekers geloven echter dat de methodes die momenteel in gebruik zijn bij het verwerken van natuurlijke taal beter geschikt zijn voor het Engels dan bijv. voor het Duits of het Nederlands (vanwege taalkundige eigenschappen van deze talen). Dat betekent dat we een gerichte, consistente en duurzame onderzoeksinspanning nodig hebben als we gebruikers willen zijn van de volgende generatie informatie- en communicatietechnologie in die gebieden van ons privé- en arbeidsleven waar we Nederlands leven, spreken en schrijven.

Alleen door gerichte programma’s zoals het STEVIN-programma was het mogelijk om taalbronnen en basisgereedschappen te creëren die ons in staat stellen onderzoek te doen naar taaltechnologie voor het Nederlands, en het aantrekkelijker te maken voor bedrijven om producten en diensten in de Nederlandse taal te ontwikkelen en aan te bieden. Er is zeker een zeer hoog onderzoekspotentieel aan deze kant van de Atlantische Oceaan. Naast internationaal gerespecteerde onderzoekscentra en universiteiten zijn er een aantal MKB’s die het voor elkaar krijgen om te overleven puur door creativiteit en enorme inspanningen en ondanks de afwezigheid van investeringskapitaal of duurzame publieke financiering.

Samenvattend: het Nederlands zal zeker niet als geheel verdwijnen, zelfs niet door de uitstekende kwaliteit van de Engelse taaltechnologie. Maar met de toenemende uitbreiding van de digitale informatiemaatschappij zou het wel eens kunnen verdwijnen in bepaalde domeinen zoals discussies en beslissingen over beleidskwesties, cultuur, het onderwijs, administratieve procedures, de wetgeving en het winkelen. We kunnen dit voorkomen door ervoor te zorgen dat het Nederlands overleeft in de digitale wereld. Dat vereist duurzame ondersteuning voor onderzoek naar en ontwikkeling van taaltechnologie voor het Nederlands. Door verbeteringen van het automatische vertalen zal taaltechnologie helpen taalbarrières te slechten, maar dat zal alleen kunnen gebeuren voor talen die het voor elkaar gekregen hebben te overleven in de digitale wereld. Als er adequate taaltechnologie beschikbaar is voor een taal, dan zal deze taal kunnen overleven in de digitale wereld , zelfs als er maar een heel kleine aantal moedertaalsprekers is. Indien dit niet het geval is, zal de taal onder grote druk komen te staan.