Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

Eesti keel digiajastul — Kokkuvõte

Viimase 60 aasta jooksul on Euroopas välja kujunenud küll ühtne poliitiline ja majanduslik struktuur, kuid kultuuri ja keelte osas on mitmekesisus säilinud. Keelelised takistused pärsivad nii Euroopa kodanike omavahelist kui ka äri- ja poliitikaringkondade suhtlust erinevates keeltes - portugali keelest poola keeleni ja kreeka keelest keldi keeleni. Euroopa Liidu asutused kulutavad aastas miljoneid eurosid mitmekeelsuspoliitika tagamiseks, s.t tõlgitakse tekste ja suulisi vestlusi. Aga kas meil oleks võimalik neid kulutusi vältida? Tänapäeva keeletehnoloogia ja keeleteadus annavad suure panuse keelebarjääri lõhkumiseks. Tulevikus aitab keeletehnoloogia koos nutikate seadmete ja programmidega eurooplastel üksteisega suhelda ja äri ajada isegi siis, kui nad ei räägi sama keelt.

Üks võimalus (kuid seejuures mõeldamatu võimalus) Euroopa mitmekeelsuse probleemi lahendamiseks oleks kasutusele võtta üks domineeriv keel ja sellega teised keeled asendada.

Klassikaline moodus keelebarjääri ületamiseks on võõrkeelte õppimine. Ent tehnilise toeta on majanduse, poliitväitluste ja teadusarenduse tarbeks kõigi Euroopa Liidu 23 ametliku liikmesriigi keele ja 60 muu Euroopa keele omandamine kodanikele ületamatu takistus.

Lahenduseks on võtmetehnoloogiate välja arendamine.

Digitaalne keeletehnoloogia hõlmab kõiki kirjaliku ja suulise keele suhtluse vorme. Seega soodustab ta koostööd, äritegevust, teadmiste jagamist ning ühiskondlikus ja poliitilises diskussioonis osalemist, sõltumata seejuures kasutaja võimalikust keelebarjäärist ja arvutikasutamise oskuse tasemest. Sageli on keeletehnoloogia juba keerulistesse süsteemidesse lõimitud. Tulevikus võiks keeletehnoloogilistest lahendustest moodustuda ainulaadne Euroopa keelte vaheline sild.

Eesmärgi saavutamiseks ja samas Euroopa kultuurilise ja keelelise mitmekesisuse säilitamiseks tuleb esmalt süstemaatiliselt analüüsida iga Euroopa keele lingvistilist eripära ja seda toetava keeletehnoloogia hetkeseisu.

Eesti keelt kõneleb emakeelena umbes miljon inimest ja see on Eesti Vabariigi ainuke ametlik keel. Eesti keele igapäevast kasutust reguleerib keeleseadus. Samas on Eesti tuntud e-valitsuse ja e-riigi poliitika poolest. Eesti keel teaduse ja kõrghariduse keelena tugineb pikaajalisele eestikeelse kõrghariduse ja teadustöö traditsioonile.

Erinevalt enamusest Euroopa keeltest ei kuulu eesti keel indoeuroopa keelkonda. Eesti keele eripäradeks võib lugeda täishäälikute rohkust, täis- ja kaashäälikute kolme pikkust, artiklite ja grammatilise soo puudumist. Samuti on eesti keelele iseloomulik rikkalik muutemorfoloogia. Eesti keele liitsõnamoodustus on vaba ja produktiivne. Sõnajärg lauses on küllaltki vaba.

Praegu turul kättesaadavad automaattõlke- ja kõnetöötlusvahendid selle eesmärgini veel ei küündi. Põhilised turul tegutsejad on kasumi saamisele suunatud Põhja-Ameerika eraettevõtted. 1970ndatel hakati Euroopa Liidus tähtsustama keeletehnoloogiat kui Euroopat ühendavat jõudu ja samal ajal alustati ka riiklike projektidega, mis andsid küll väärtuslikke tulemusi, kuid ei aidanud kaasa Euroopa ühistegevusele. Tänu mitmete varasemate ja jätkuvate teadus- ja arendustöö programmide toetusele on keeletehnoloogiline uurimismaastik Eestis olemas.

Inimkeele keerukus raskendab loomuliku keele modelleerimist tarkvaras ning rakenduse tegelikus elukeskkonnas testimine on pikk ja kulukas protsess. Kahjuks ei ole näiteks inglise keelele arendatud keelemudelid eesti keelele ülekantavad, sest eesti keelel on vabam sõnajärg, peaaegu piiranguteta liitsõnade moodustamine ning suurem käände- ja pöördelõppude hulk. Ometi on aastatepikkuse töö tulemusena loodud töökindel eesti keele õigekirjakontroll (speller), mis on lõimitud ka levinumatesse kontoritarkvara pakettidesse.

Eestikeelne infootsing Google otsimootoriga on veebikasutajate seas niivõrd levinud, et 2009. aastast alates on sõna guugeldama lisatud ka Eesti Õigekeelsussõnaraamatusse. Keelest sõltumatud otsinguvahendid suudavad leida ainult sõnavorme, millel on päringusõnaga täpselt sama kuju või mis sisaldavad päringusõna alamsõnena. Kuid kuna eesti keele morfoloogia on rikas ja lisaks lõppudele võib ka sõna tüvi muutuda, siis on edukaks otsinguks ja indekseerimiseks vaja keelespetsiifilisi vahendeid. Keelespetsiifilised indekseerijad leiavad enne sõnade indeksisse lisamist nende algvormid ehk lemmatiseerivad otsisõnad. Eesti Infosüsteemide Amet on avalikult soovitanud kasutada Eesti avaliku sektori infosüsteemide infootsingul ja indekseerimisel lemmatiseerimismoodulit.

Kaks peamist keeletehnoloogiasüsteemides kasutatavat meetodit “omandavad” keelelised oskused inimestega sarnasel viisil. Statistilised ehk andmejuhitud meetodid omandavad keelelise teadmuse suurtest näidistekstide kogudest. Teine meetod on reeglipõhiste süsteemide loomine, mille suureks eeliseks on asjaolu, et ekspertidel on keele töötluse üle täpsem kontroll. Toetudes senistele tähelepanekutele, näib, et tänapäeva “hübriidne” keeletehnoloogia, mis ühendab keele süvatöötluse statistiliste meetoditega, suudab ületada kõigi Euroopa ja muudegi keelte vahelise lõhe.

Keeletehnoloogia valdkonnas on Euroopa teadustöö olnud edukas. Näiteks kasutatakse Euroopa Liidu tõlketeenustes avatud lähtekoodiga masintõlke tarkvara Moses, mida arendati peamiselt Euroopa teadusprojektide raames. Eesti keele masintõlge on tõsine väljakutse. Sõnastikupõhise analüüsi muudab keeruliseks vaba liitsõnamoodustus, uusi sõnu saab liitmise teel alati juurde tekitada. Analüüsiprobleeme põhjustavad ka vaba sõnajärg ja mitmeosalised tegusõnad (ühend- ning väljendverbid). Lisaks kõigele muule on piiratud ka paralleelsete tekstide hulk. Vaatamata sellele kuulub Eesti keel nende ligi 50 maailma keele hulka, mida saab arvuti abil tõlkida.

Tulevikus on oodata märkimisväärseid muutusi kõnetehnoloogia arengus. Juba praegu pakutakse Eestis nutitelefonide kasutajatele tsentraliseeritud teenustena kõne dikteerimist. Sarnased TTÜ Küberneetika Instituudis välja töötatud eestikeelsed kõnetuvastusrakendused nutitelefonidele võitsid 2011. aasta parima keeleteo auhinna.

Käesolev keeleraportite sari näitab, et Euroopa Liidu liikmesriikides on keeletehnoloogilised lahendused ja teadustöö erineval tasemel. Tõeliselt efektiivsete tehnoloogiliste lahendusteni jõudmiseks vajavad põhjalikumat uurimistööd veel isegi Euroopa suurimad keeled, rääkimata eesti keele keeletehnoloogia arendamisest.

Eesti keele keeletehnoloogilise olukorra hinnang annab põhjust ettevaatlikuks optimismiks. Eesti keele jaoks on olemas nii kõnetuvastuse kui ka -sünteesi vahendid. Nende edasine arendustöö on hetkel aktiivselt käimas. Vaatamata eesti keele keerulisele morfoloogiale, on eesti keele morfoloogiaanalüsaatori efektiivsus võrreldav teiste Euroopa keelte vastavate vahenditega, kuid süntaksianalüsaatoritel on veel palju arenguruumi. Keele genereerimise vahenditest on olemas ainult morfoloogilise sünteesi programmid. Laiem üldsus kasutab masintõlkeks Google’i tõlketeenust, Tartu Ülikoolis on arendamisel ka eesti-inglise masintõlkesüsteem. Ilmselt oleks suur nõudlus ka eesti-vene-eesti masintõlkele. Enamik neist vahenditest on loodud uurimisasutustes ja neid võib pidada pigem prototüüpideks, mitte valmis toodeteks. Kahjuks esindavad Eesti keeletehnoloogiatööstust ainult mõned üksikud väikeettevõtted nagu Filosoft. Viimastel kümnenditel on loodud märkimisväärne hulk Eesti keele ressursse (korpused, leksikonid, WordNet), seega olukord keelelise andmestiku osas on küllaltki hea.

Mis puutub keerukamatesse valdkondadesse nagu tekstisemantika, keele genereerimine ja märgendatud multimodaalsed ressursid, siis eesti keele jaoks põhivahendid ja -ressursid puuduvad. Eesti keele keeletehnoloogilist uurimistööd ja arendustegevust on toetanud mitmed riiklikud keeletehnoloogia-alased uurimisprogrammid, seetõttu on nii loodud ressursid kui vahendid vabaks kasutamiseks.

Käesolev keeleraportite sari täiendab teisi META-NETi strateegilisi tegevusi (ülevaade on saadaval raporti lisas). META-NETi kodulehelt http://www.meta-net.eu leiab uuemat informatsiooni, näiteks META-NETi visiooni või strateegilise uurimiskava (SRA) uusima versiooni. META-NETi pika-ajalisem eesmärk on võimaldada kõigile keeltele kõrgekvaliteedilist keeletehnoloogiat ja kultuurilise mitmekesisuse kaudu saavutada poliitiline ja majanduslik ühtsus.