Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

Íslensk tunga á stafrænni öld — Formáli

Upplýsingatæknin hefur breytt hversdagslífi okkar. Við notum tölvur til að skrifa og vinna með texta, reikna, leita upplýsinga, og sífellt meira einnig til að lesa, hlusta á tónlist, skoða myndir og horfa á kvikmyndir. Við göngum með snjallsíma og spjaldtölvur á okkur og notum til að hringja, senda tölvupóst, afla okkur upplýsinga og stytta okkur stundir, hvar sem við erum stödd. Hvaða áhrif hefur þessi víðtæka stafræna bylting í upplýsingum, þekkingu og hversdagssamskiptum á tungumál okkar? Mun það breytast eða jafnvel deyja út? Hvaða möguleika hefur íslenska á að lifa af?

Mörg hinna 6.000 tungumála heimsins munu ekki lifa af í hinu hnattræna stafræna upplýsingasamfélagi. Talið er að a.m.k. 2.000 tungumál deyi út á næstu áratugum. Önnur munu lifa af inni á heimilum og í daglegum samskiptum, en ekki verða notuð í viðskiptalífinu eða vísindum og fræðum. Staða tungumálsins ræðst ekki bara af fjölda málnotenda, eða fjölda bóka, kvikmynda og sjónvarpsstöðva þar sem málið er notað, heldur einnig af hlutverki málsins í hinum stafræna upplýsingaheimi og innan hugbúnaðargeirans.

Á þessu sviði er íslenska ekki sérlega vel stödd. Í lok 20. aldar var íslensk máltækni nánast ekki til. Við áttum allgóðan stafrýni (Púka), ófullkominn talgervil, og þar með upp talið. Enginn íslenskur háskóli bauð upp á námsleiðir eða jafnvel einstök námskeið í máltækni eða tölvumálvísindum, engar rannsóknir voru stundaðar á þessu sviði, og engin íslensk hugbúnaðarfyrirtæki unnu að máltækniverkefnum.

Þetta fór að breytast eftir að sérstakur starfshópur skilaði skýrslu um máltækni til menntamálaráðherra árið 1999. Í þessari skýrslu voru settar fram tillögur um ýmsar aðgerðir til að koma íslenskri máltækni á laggirnar. Árið 2000 setti ríkisstjórnin af stað sérstaka máltækniáætlun með það að markmiði að styðja stofnanir og fyrirtæki til að koma upp undirstöðumálföngum – gagnasöfnum og hugbúnaði – fyrir íslenska máltækni. Þetta frumkvæði gat af sér ýmis verkefni sem hafa lagt grundvöll að íslenskri máltækni.

Eftir að máltækniáætluninni lauk árið 2004 ákváðu fræðimenn frá þremur stofnunum (Háskóla Íslands, Háskólanum í Reykjavík og Stofnun Árna Magnússonar í íslenskum fræðum) að taka höndum saman og mynda samstarfsvettvang sem nefnist Máltæknisetur (Icelandic Centre for Language Technology, ICLT) til að fylgja viðfangsefnum áætlunarinnar eftir. Frá 2005 hafa fræðimenn Máltækniseturs ýtt úr vör ýmsum verkefnum sem hafa fengið styrki frá Rannsóknasjóði og Tækniþróunarsjóði.

Þrátt fyrir að talsvert hafi áunnist sýnir þessi skýrsla að það er einungis á sviði grundvallarbúnaðar og málfanga svo sem málfræðimörkunar, setningafræðilegrar þáttunar, málheilda og trjábanka sem staða íslenskunnar er viðunandi. Á flóknari sviðum eins og í merkingargreiningu setninga og texta, samræðukerfum, upplýsingaheimt, málmyndun, samantekt texta, merkingargreindum málheildum o.s.frv., er ekkert til fyrir íslensku. Því er ljóst að mikið starf er óunnið við að tryggja framtíð íslenskunnar sem fullgilds þátttakanda í evrópsku upplýsingasamfélagi nútímans – og framtíðarinnar.

Upplýsinga- og samskiptatæknin er nú á þröskuldi nýrrar byltingar. Í kjölfar einkatölva, netvæðingar, margmiðlunar, spjaldtölva, snjallsíma og tölvuskýja fylgir næsta kynslóð tækninnar sem mun ala af sér hugbúnað sem skilur ekki aðeins bókstafi og málhljóð heldur heil orð og setningar, og gagnast notendum margfalt betur vegna þess að hann talar, kann og skilur tungumál þeirra. Undanfarar þessarar þróunar eru t.d. Google Translate, ókeypis netþjónusta sem þýðir milli 57 tungumála, ofurtölvan Watson hjá IBM sem hefur sigrað Bandaríkjameistarann í spurningaleiknum „Jeopardy“, og Siri-hugbúnaðurinn fyrir iPhone frá Apple sem getur brugðist við talskipunum og svarað spurningum á ensku, þýsku, frönsku og japönsku.

Næsta kynslóð upplýsingatækninnar mun ráða svo vel við mannlegt mál að fólk mun geta notað sitt eigið tungumál til samskipta með þessari tækni. Tæki munu geta brugðist við raddskipunum sem eru einfaldar í notkun með því að afla sjálfkrafa mikilvægustu frétta og upplýsinga úr stafrænum upplýsingabrunni heimsins. Búnaður sem byggist á máltækni mun geta þýtt á sjálfvirkan hátt eða aðstoðað túlka; gert útdrætti úr samtölum og skjölum; og liðsinnt notendum við nám. Til dæmis gæti slíkur búnaður hjálpað nýbúum til að læra íslensku og falla þannig betur að menningu landsins og samfélagi.

Næsta kynslóð upplýsinga- og samskiptatækninnar mun gera iðnaðar- og þjónustuvélmennum (sem verið er að þróa á rannsóknastofum) kleift að skilja nákvæmlega hvað notendur þeirra vilja láta þau gera, og gera síðan skýra grein fyrir árangri sínum. Þarna er komið á allt annað og hærra svið en þegar unnið er með einfaldar stafatöflur og orðasöfn, stafrýna og framburðarreglur. Tæknin verður að hverfa frá einföldum nálgunum og snúa sér að gerð altækra mállíkana sem taka einnig til setningagerðar og merkingar til að skilja fjölbreyttar og flóknar spurningar og veita innihaldsrík og markviss svör.

Evrópsk tungumál eru misvel búin undir þessa framtíð. Í eftirfarandi skýrslu er sett fram stöðumat fyrir 30 Evrópumál, byggt á fjórum meginþáttum; vélþýðingum, talvinnslu, textagreiningu og grundvallarmálföngum sem þarf til smíði máltæknibúnaðar. Málunum var skipað í fimm klasa. Það þarf ekki að koma á óvart að íslenska er í lægsta klasanum á öllum þessum fjórum sviðum. Hún er þar á sömu slóðum og önnur tungumál sem fáir tala, svo sem írska, lettneska, litháíska og maltneska. Þessi tungumál eru langt að baki stórþjóðamálum eins og t.d. þýsku og frönsku. En jafnvel málföng og máltæknitól fyrir þau tungumál ná hvorki sömu gæðum né yfirgripi og hliðstæð föng og tól fyrir ensku, sem er í fararbroddi á nær öllum sviðum máltækninnar.

Hvað þarf til ef við viljum tryggja framtíð íslensku í upplýsingasamfélaginu? Árið 1999 áætlaði starfshópur um máltækni að það myndi kosta u.þ.b. einn milljarð króna á þágildandi verðlagi að gera íslenska máltækni sjálfbæra. Eftir það átti markaðurinn að geta tekið við, vegna þess að hann hefði þá aðgang að málföngum sem hefðu verið þróuð á vegum máltækniáætlunar ríkisstjórnarinnar, og yrðu tiltæk á jafnréttisgrundvelli fyrir alla sem hygðust nota þau við gerð markaðsvara.

Enda þótt máltækniáætlunin hafi verið árangursrík og haft mikil áhrif á þróun íslenskar máltækni verður að hafa í huga að ráðstöfunarfé hennar frá 2000-2004 var aðeins um 1/8 af því sem starfshópur um máltækni taldi þurfa. Það þarf því ekki að koma á óvart að íslensk máltækni er enn á bernskuskeiði. 330 þúsund málnotendur eru einfaldlega of fáir til að standa undir kostnaðarsamri þróun nýrra framleiðsluvara. Um þessar mundir vinna nær engin íslensk fyrirtæki á sviði máltækni vegna þess að þau sjá sér engan hag í því. Áframhaldandi opinber stuðningur við íslenska máltækni er nauðsynlegur til að tryggja nýtingu þess búnaðar og málfanga sem þegar hefur verið komið upp, svo og þeirrar þekkingar og reynslu sem safnast hefur saman meðal fræðimanna og fyrirtækja.

Íslenska er ekki í bráðri hættu, þrátt fyrir yfirburði enskunnar í máltækni og tölvumálvísindum. Á hinn bóginn gæti staðan gerbreyst á svipstundu þegar ný kynslóð tækninnar fer fyrir alvöru að ráða við mannlegt mál á skilvirkan hátt. Með framförum í vélþýðingum mun máltæknin hjálpa mönnum til að sigrast á tungumálaþröskuldum, en aðeins milli þeirra mála sem geta bjargað sér í hinum stafræna heimi. Tungumál sem jafnvel mjög fáir tala geta lifað af, verði fullnægjandi máltæknibúnaður tiltækur. Án slíks búnaðar munu jafnvel stórþjóðatungumál verða í mikilli hættu. Eigi íslenska að vera lífvænleg þjóðtunga í þróuðum heimi verður hún að geta staðið undir kröfum upplýsingatækninnar. Fjárfesting í máltækni verður því að vera grunnþáttur í framkvæmd íslenskrar málstefnu.

Langtímamarkmið META-NET er að innleiða hágæða máltækni fyrir öll tungumál þannig að menningarleg fjölbreytni stuðli að eflingu pólitískrar og efnahagslegrar einingar. Tæknin mun brjóta múra milli tungumála í Evrópu og smíða brýr milli þeirra í staðinn. Þetta krefst þess að allir hagsmunaaðilar – í stjórnmálum, rannsóknum, viðskiptum, og samfélaginu öllu – sameini krafta sína í þágu framtíðar.

Þessi hvítbókaröð tengist öðrum markvissum aðgerðum sem META-NET stendur að. Nýjustu upplýsingar eins og framtíðarsýn META-NET og útfærða rannsóknarstefnu (Strategic Research Agenda, SRA) er að finna á vefsetri META-NET: http://www.meta-net.eu.