Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

META-NET White Paper Series: Press Release

Digitaalinen sukupuutto uhkaa vähintään 21 eurooppalaista kieltä

Euroopan johtavien kieliteknologian asiantuntijoiden tutkimuksen mukaan suurin osa eurooppalaisista kielistä ei todennäköisesti selviydy digitaalisena aikana.

Euroopan johtavien kieliteknologian asiantuntijoiden uudesta tutkimuksesta käy ilmi, että suurin osa eurooppalaisista kielistä uhkaa kuolla digitaaliseen sukupuuttoon. Asiantuntijat arvioivat noin 80 eurooppalaiskielen joukosta 30 eri kielelle tarjolla olevaa tukea ja päättelivät, että 21 kielen digitaalinen tuki on olematon tai parhaimmillaan heikko. Tutkimuksen toteutti Euroopan huippuosaamisen verkosto META-NET, joka koostuu 60 tutkimuskeskuksesta 34 eri maassa.

Yli 200 asiantuntijan tuottaman META-NET Valkoiset kirjat -julkaisusarjan 30 niteessä (saatavilla sekä verkossa että painettuna) jokaisen kielen kieliteknologista tukea on dokumentoitu ja arvioitu neljän eri sovellusalan mukaan: konekäännös, puheenkäsittely, tekstinanalyysi ja kielivarojen saatavuus. Asiantuntijat sijoittivat 30 kielestä 21 (70 %) alimpaan luokkaan ("tuki on heikko tai olematon") ainakin yhdellä mainituista sovellusaloista. Useat kielet, esimerkiksi islanti, latvia, liettua ja malta saivat alimmat pistemäärät kaikilla neljällä sovellusalalla. Vaikka yhdenkään kielen ei nähty saavan ”erinomaista tukea”, englannin arvioitiin saavan "hyvää tukea", kun taas hollannilla, ranskalla, saksalla, italialla ja espanjalla uskotaan olevan "kohtuullinen tuki". Sellaisilla kielillä kuten suomi, baski, bulgaria, katalaani, kreikka, unkari ja puola on "osittainen tuki", mikä sijoittaa ne riskialttiiden kielten joukkoon.

Suomen kielen ”osittainen tuki” perustuu mainituista sovellusalueista (konekäännös, puheenkäsittely, tekstinanalyysi ja kielivarojen saatavuus) annettujen eri arvioiden keskiarvoon. Suomenkielisellä puheenkäsittelyllä on kohtuullinen tuki, eli samanlainen kuin espanjalla, hollannilla, italialla, portugalilla, ranskalla, tšekillä ja saksalla. Suomenkielisellä konekäännöksellä sen sijaan on heikko tai olematon tuki; tällä sovellusalueella suomi kuuluu samaan ryhmään kuin esimerkiksi baski, bulgaria, iiri, islanti, norja, ruotsi, tanska ja viro. Suomenkielisen tekstin analyysilla sekä puhe- ja tekstiaineistojen saatavuudella on osittainen tuki.

"Tutkimuksemme tulokset ovat erittäin huolestuttavia. Suurin osa Euroopan kielistä on vakavasti aliresursoitu ja jotkut niistä on lähes täysin laiminlyöty. Tästä näkökulmasta katsottuna monien kieltemme tulevaisuus ei ole lainkaan varma", toteaa professori Hans Uszkoreit, META-NET:in koordinaattori, Saksan tekoälyn tutkimuskeskuksen DFKI:n tutkimusjohtaja ja yksi tutkimusraportin toimittajista. Raportin toinen toimittaja, tri Georg Rehm (DFKI) lisää: "Erilaisten eurooppalaisten sovellusalojen ja kielten kieliteknologiatuen välillä on dramaattisia eroja. Tätä menoa 'suurten' ja 'pienten' kielten välillä ammottava teknologinen kuilu vieläpä levenee. Meidän on varmistettava, että myös pienemmillä ja aliresursoiduilla kielillä on tarvittava perusteknologia, muuten nämä kielet on tuomittu digitaaliseen sukupuuttoon."

Kieliteknologian ala tuottaa ohjelmia, jotka osaavat käsitellä puhuttua tai kirjoitettua ihmiskieltä. Tunnettuja esimerkkejä kieliteknologiaohjelmistoista ovat kielioppitarkistimet, oikeinkirjoitusohjelmat, älypuhelinten vuorovaikutteiset yksityisavustajat (kuten iPhonen Siri), puhelimitse toimivat dialogijärjestelmät, automaattiset käännösjärjestelmät, Internet-hakukoneet ja autonavigointijärjestelmissä käytetyt synteettiset äänet. Nykyään kieliteknologiajärjestelmät ovat riippuvaisia ennen kaikkea tilastomenetelmistä, jotka vaativat uskomattoman paljon kirjallista tai puhuttua dataa. Erityisesti niitä kieliä varten, joilla on suhteellisen vähän puhujia, on vaikeaa hankkia tarvittava tietomassa. Lisäksi tilastollisten kieliteknologiajärjestelmien tuotosten laatu on luonnostaan puutteellinen, mikä on helppo huomata esimerkiksi Internetissä olevien konekäännösjärjestelmien usein huvittavissa virheellisissä käännöksissä.

Eurooppa on onnistunut poistamaan miltei kaikki rajat maittensa väliltä. Yksi raja on kuitenkin edelleen olemassa ja se vaikuttaa ylitsepääsemättömältä: kielimuurien näkymätön raja, joka hidastaa tiedon ja taidon vapaata kulkua. Se vahingoittaa myös pitkäaikaista tavoitetta luoda yhdet yhteiset digitaaliset markkinat, koska se vaikeuttaa tuotteiden ja palveluiden vapaata kulkua. Vaikka kieliteknologian avulla olisi mahdollista päästä eroon kielimuureista modernien konekäännössysteemien myötä, META-NET -tutkimus osoittaa selvästi, että monet eurooppalaiskielet eivät ole siihen valmiita. Teknologiassa on huomattavia aukkoja, jotka johtuvat tutkimuksen ja kehityksen englantipainotteisuudesta sekä sitoutumisen, taloudellisten resurssien ja selkeän tutkimus- ja teknologianäkemyksen puutteesta.

Puuttuvien teknologioiden luominen ja teknologian siirtäminen kielten valtaosaan vaatii koko Euroopan laajuisia järjestelmällisiä ja laajamittaisia ponnisteluja. On olemassa vahvoja perusteita lähestyä tätä valtavaa haastetta yhteistyössä, jossa ovat mukana Euroopan unioni, sen jäsen- ja yhteistyömaat sekä teollisuus. Tällaisia syitä ovat pienempien kieliyhteisöjen korkeampi taloudellinen kuormitus henkeä kohti, tarve siirtää teknologian kielestä toiseen, kielivarojen, työkalujen ja palveluiden yhteensopimattomuus sekä se tosiseikka, etteivät kielirajat aina satu yhteen poliittisten rajojen kanssa. Euroopan on toimittava valmistaakseen kielensä digitaaliseen aikaan. Kielet ovat arvokas osa kulttuurista perimäämme ja sellaisina ne ansaitsevat tulla turvatuiksi tulevaisuudessakin. Euroopan neuvosto viettää Euroopan kielten päivää 26.9. Juhlapäivän tarkoituksena on tunnustaa mantereemme rikkaan kielellisen ja kulttuuriperinteen edistämisen ja kehittämisen tärkeys. META-NETin työ on karu muistutus niistä haasteista ja mahdollisuuksista, jotka kohtaavat kielellistä perintöämme digitaalisella aikakaudella.

Kieliteknologia: Tausta

Kieliteknologia tukee meitä päivittäisissä askareissamme, kuten sähköpostien kirjoittamisessa tai lippujen ostossa. Hyödynnämme kieliteknologiaa, kun etsimme tai käännämme sivuja Internetissä, käytämme tekstinkäsittelyohjelman oikolukuominaisuuksia, ohjaamme automme viihdejärjestelmää tai matkapuhelintamme puhekomennoilla, kun saamme suosituksia Internet-kirjakaupasta tai seuraamme navigaattorin ohjeita. Lähitulevaisuudessa voimme puhua niin tietokoneohjelmille kuin koneille ja laitteillekin, jopa kauan odotetuille palveluroboteille, jotka pian saapuvat koteihimme ja työpaikoillemme. Ei ole väliä missä olemme kun tarvitsemme tietoa, me vain kysymme. Ja kun tarvitsemme apua, vaadimme sitä ääneen. Viestintämuurin poistaminen ihmisen ja teknologian väliltä tulee muuttamaan maailmamme.

Kieliteknologia on tänä päivänä yleisesti tunnustettu yhtenä tärkeimmistä informaatioteknologian kasvualoista. Suuret kansainväliset yhtiöt kuten Google, Microsoft, IBM ja Nuance ovat sijoittaneet tälle alalle merkittävästi. Euroopassa sadat pienet ja keskisuuret yritykset ovat erikoistuneet kieliteknologiaohjelmiin tai -palveluihin. Kieliteknologia mahdollistaa yhteistyön, oppimisen, liiketoiminnan ja tiedon jakamisen yli kielirajojen, riippumatta käyttäjiensä tietokonetaidoista.

META-NET Valkoiset kirjat -julkaisusarja

META-NET Valkoiset kirjat -julkaisusarja ”Kielet eurooppalaisessa informaatioyhteiskunnassa” esittää 30 eurooppalaisen kielen aseman kieliteknologian kannalta ja kertoo tärkeimmät riskit ja mahdollisuudet. Sarja käsittelee kaikkia virallisia EU:n jäsenmaiden kieliä ja useita muita Euroopassa puhuttuja kieliä. Vaikka joitakin kielen ja teknologian osa-alueita käsitteleviä arvokkaita ja kattavia tieteellisiä tutkimuksia on tehty jo aiemmin, saatavilla ei ole ollut yleistajuista koostetta, jossa esitetään kunkin kielen tärkeimmät edistysaskeleet ja haasteet suhteessa teknologiatuettuun monikieliseen Eurooppaan. META-NET Valkoiset kirjat täyttää tämän aukon. META-NET osoittaa, miksi useat kielet joutuvat vakaviin ongelmiin, ja huomioi välittömät puutteet. Sarjaa on ollut valmistelemassa yhteensä yli 200 tutkijaa ja avustajaa.

Valkoiset kirjat on kirjoitettu seuraaville eurooppalaisille kielille: baski, bulgaria, englanti, espanja, galicia, hollanti, iiri, islanti, italia, katalaani, kreikka, kroatia, latvia, liettua, malta, norjan bokmål ja nynorsk, portugali, puola, ranska, romania, ruotsi, saksa, serbia, slovakki, sloveeni, suomi, tanska, tšekki, unkari ja viro. Jokainen kirja on kirjoitettu käsittelemällään kielellä ja sisältää täydellisen englanninkielisen käännöksen.

META-NET ja META

META-NET on huippuosaamisen verkosto, joka koostuu 60 tutkimuskeskuksesta 32 maassa. Se on sitoutunut rakentamaan monikielisen Euroopan informaatioyhteiskunnan teknologista perustaa. META-NET on Euroopan komission neljän hankkeen yhdessä rahoittama.

META-NET on rakentamassa META:a, monikielistä eurooppalaista teknologialiittoa (Multilingual Europe Technology Alliance). Yli 600 järjestöä 55 maasta, mukaan lukien yliopistoja, pieniä ja keskisuuria yrityksiä sekä useita isoja yhtiöitä, on jo liittynyt tähän avoimeen teknologialiittoon.