Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

META-NET White Paper Series: Press Release

Minstens 21 Europese talen bedreigd met digitale uitsterving

Studie door vooraanstaande taaltechnologische experts waarschuwt dat veel Europese talen het digitale tijdperk waarschijnlijk niet zullen overleven

Een groot aantal Europese talen wordt bedreigd met digitale uitsterving, volgens de bevindingen van een nieuwe studie door de leidende taaltechnologische experts van Europa. De experts hebben voor 30 van de ongeveer 80 Europese talen vastgesteld in hoeverre zij digitaal worden ondersteund met taaltechnologie. De experts concluderen dat de digitale ondersteuning voor 21 van de 30 talen “niet-bestaand” is of op zijn best “zwak”. De studie is uitgevoerd door META-NET, een Europees excellentienetwerk dat uit 60 onderzoekscentra in 34 landen bestaat.

Taaltechnologie produceert software die gesproken of geschreven taal kan verwerken. Bekende voorbeelden zijn programma’s voor spellings- en grammaticacontrole, interactieve persoonlijke assistenten op smartphones (zoals Siri op de iPhone), gesproken telefoonmenu’s, automatische vertaalsystemen, zoekmachines op het web, en de stemmen in autonavigatiesystemen.

Taalwitboeken maken risico’s inzichtelijk

Meer dan 200 experts hebben aan de studie van META-NET meegewerkt, wat heeft geresulteerd in een serie van 30 witboeken oftewel taalrapporten, die zowel online als gedrukt beschikbaar zijn. Voor iedere taal is de taaltechnologische ondersteuning op vier verschillende gebieden vastgesteld: automatisch vertalen, spraakinteractie, tekstanalyse en de beschikbaarheid van taalbronnen. 21 van de 30 talen (70%) werden door de experts geplaatst in de laagste categorie, “steun is zwak of niet-bestaand” voor ten minste één gebied. Verschillende talen, bijvoorbeeld IJslands, Lets, Litouws en Maltees krijgen deze laagste score voor alle gebieden. Aan het andere eind van het spectrum kreeg geen enkele taal de categorie “excellente ondersteuning”. Alleen het Engels wordt beschouwd als een taal met ‘goede ondersteuning’, gevolgd door talen zoals het Nederlands, Frans, Duits, Italiaans en Spaans met “beperkte ondersteuning”. Talen zoals het Baskisch, Bulgaars, Catalaans, Grieks, Hongaars en Pools hebben “fragmentarische ondersteuning”, wat ze ook in de talen met een hoog risico plaatst.

Groeiend gat tussen grote en kleine talen

“De resultaten van onze studie zijn hoogst alarmerend. Voor de meerderheid van de Europese talen is er een ernstig gebrek aan taalbronnen en enkele worden bijna geheel verwaarloosd. In deze zin zijn vele van onze talen nog niet toekomstbestendig”, zegt Prof. Hans Uszkoreit, coördinator van META-NET, wetenschappelijk directeur van het DFKI (Duits Onderzoekscentrum voor Kunstmatige Intelligentie) en co-redacteur van de studie. De andere co-redacteur, Dr. Georg Rehm (DFKI), voegt toe: “Er zijn dramatische verschillen in taaltechnologische ondersteuning tussen de verschillende Europese talen en technologische gebieden. Het gat tussen de ‘grote’ en de ‘kleine’ talen blijft maar groter worden. We moeten ervoor zorgen dat we alle kleinere talen en talen met te weinig taalbronnen uitrusten met de noodzakelijke basistechnologie, anders zijn deze talen gedoemd digitaal uit te sterven.”

Blijvende inspanningen nodig voor ondersteuning van het Nederlands

De situatie van het Nederlands met betrekking tot ondersteuning voor taaltechnologie geeft aanleiding tot voorzichtig optimisme. Dat stelt Jan Odijk (Universiteit Utrecht), de auteur van het taalwitboek voor het Nederlands. Dankzij recente programma’s uitgevoerd in samenwerking met Vlaanderen is er voor het Nederlands ‘beperkte ondersteuning’. De bevindingen van het taalwitboek laten zien dat de Lage Landen na deze succesvolle programma’s moeten doorpakken en hun inspanningen voor de ontwikkeling van taaltechnologische bronnen moeten voortzetten en ze gebruiken om onderzoek, innovatie en ontwikkeling voort te stuwen. Anders zal ook het Nederlands in de gevarenzone komen.

Europa moet taalbarrières slechten

Europa is erin geslaagd om bijna alle grenzen tussen landen te verwijderen. Eén grens bestaat echter nog, en die lijkt ondoordringbaar te zijn: de onzichtbare grens van de taalbarrières verhindert de vrije stroom van kennis en informatie. Taalgrenzen belemmeren ook het lange-termijndoel om één gezamenlijke digitale markt te creëren omdat ze de vrije stroom van goederen, producten en diensten hinderen. Taaltechnologie kan helpen om de taalbarrières te slechten met automatische vertaalsystemen, maar de resultaten van de META-NET studie laten duidelijk zien dat veel Europese talen hier nog niet klaar voor zijn. Er ontbreken hele stukken in de technologie die te wijten zijn aan de focus van de onderzoekers en ontwikkelaars op het Engels, aan een gebrek aan toewijding en financiële middelen, en aan een gebrek aan een duidelijke visie op onderzoek en technologie.

Een gecoördineerde grootschalige inspanning is vereist in Europa om de ontbrekende technologieën te creëren en om de technologie beschikbaar te maken voor de meerderheid van de talen. Deze immense uitdaging kan het beste worden aangegaan in een gemeenschappelijke inspanning met de Europese Unie, haar lidstaten en de geassocieerde landen, en ook met de industrie. Argumenten voor deze aanpak zijn onder meer de hoge per-capita financiële belasting voor kleinere taalgemeenschappen; de benodigde overdracht van technologie tussen talen; het gebrek aan interoperabiliteit van talige data, software en diensten; en het feit dat taalgrenzen vaak niet samenvallen met politieke grenzen. Europa moet actie ondernemen om zijn talen voor te bereiden voor het digitale tijdperk. Zij vormen een kostbaar onderdeel van ons cultureel erfgoed en daarom dienen zij toekomstbestendig te zijn.

Taaltechnologie: Achtergrond

Taaltechnologie ondersteunt ons al in allerlei dagelijkse bezigheden zoals het schrijven van e-mails en het kopen van tickets. We profiteren van taaltechnologie wanneer we zoeken naar webpagina’s en ze vertalen, wanneer we de mogelijkheden voor spellings- en grammaticacontrole in een tekstverwerker gebruiken, wanneer we het entertainmentsysteem in onze auto of onze mobiele telefoon met gesproken commando’s bedienen, wanneer we aanbevelingen krijgen in een online boekhandel, of wanneer we de gesproken instructies van ons navigatiesysteem opvolgen.

In de nabije toekomst zullen we in staat zijn met computerprogramma’s, machines en huishoudelijke toepassingen te spreken, en zelfs met robots wanneer die hun intrede doen in onze huizen en op het werk. Als de communicatiebarrière tussen mensen en technologie verdwijnt, zal onze wereld veranderen.

Moderne taaltechnologische systemen zijn gebaseerd op statistische methodes waarvoor zeer grote hoeveelheden geschreven of gesproken data nodig zijn. Vooral voor talen met relatief weinig sprekers is het moeilijk de vereiste hoeveelheid data te verkrijgen. Verder zijn er inherente beperkingen aan de kwaliteit van statistische taaltechnologische systemen, zoals bijvoorbeeld duidelijk blijkt uit de vaak grappige foute vertalingen die door online vertaalsystemen gemaakt worden.

Taaltechnologie wordt algemeen erkend als een van de sleutelgroeigebieden in de informatietechnologie. Grote internationale bedrijven zoals Google, Microsoft, IBM, en Nuance hebben hier flink in geïnvesteerd. In Europa hebben honderden midden- en kleinbedrijven zich gespecialiseerd in bepaalde taaltechnologische toepassingen of diensten. Taaltechnologie stelt mensen in staat samen te werken, te leren, zaken te doen en kennis te delen over taalgrenzen heen en onafhankelijk van hun computervaardigheden.

De META-NET Witboekserie

De META-NET Witboekserie “Talen in de Europese Informatiemaatschappij” rapporteert over de toestand van 30 Europese talen met betrekking tot taaltechnologie en legt uit wat de meest urgente risico’s en mogelijkheden zijn. De serie omvat alle officiële talen van de lidstaten van de EU en verschillende andere talen die in Europa gesproken worden. Hoewel er een aantal gedegen wetenschappelijke studies geweest zijn naar bepaalde aspecten van talen en technologie, was er tot nu toe geen algemeen begrijpelijk compendium dat de belangrijkste bevindingen en de uitdagingen voor iedere taal met betrekking tot een door technologie ondersteund meertalig Europa presenteert. De META-NET Witboekserie vult dit gat op. META-NET kan nu laten zien waarom de meeste talen serieuze problemen tegemoet zien en de meest bedreigende gebreken aanduiden.

De witboeken zijn geschreven voor de volgende Europese talen: Baskisch, Bulgaars, Catalaans, Deens, Duits, Engels, Ests, Fins, Frans, Galicisch, Grieks, Hongaars, Iers, IJslands, Italiaans, Kroatisch, Lets, Litouws, Maltees, Nederlands, Noors (bokmål en nynorsk), Pools, Portugees, Roemeens, Servisch, Sloveens, Slowaaks, Spaans, Tsjechisch, en Zweeds. Ieder taalwitboek is geschreven in de taal waarover het rapporteert en bevat ook een volledige Engelse vertaling.

Over META-NET en META

META-NET, een excellentienetwerk dat uit 60 onderzoekscentra uit 34 landen bestaat, wijdt zich aan de ontwikkeling van de technologische fundamenten van een meertalige Europese informatiemaatschappij. META-NET wordt mede gefinancierd door de Europese Commissie via 4 projecten.

META-NET is ook de initiatiefnemer van META, de Meertalige Europese Technologische Alliantie. Meer dan 600 organisaties uit 55 landen, waaronder onderzoekscentra, universiteiten, midden- en kleinbedrijven en verschillende grote ondernemingen, hebben zich al aangesloten bij deze open technologische alliantie.