Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

META-NET White Paper Series: Press Release

Legalább 21 európai nyelvet fenyeget a digitális kihalás veszélye

Egy vezető nyelvtechnológiai szakértők által készített tanulmány szerint a legtöbb európai nyelv valószínűleg nem éli túl a digitális kort.

A legtöbb európai nyelvnek szembe kell néznie a digitális kihalással – állítja egy új tanulmány, amelyet európai nyelvtechnológiai szakértők készítettek. A körülbelül 80 európai nyelv közül 30-nak a helyzetét felmérve a szakértők arra a következtetésre jutottak, hogy a 30 vizsgált nyelv közül 21 esetében nem létezik, vagy jobb esetben gyenge a digitális támogatottság. A felmérést a META-NET, egy európai kiválósági hálózat végezte, amelynek 34 országból 60 kutatóközpont a tagja.

Több mint 200 szakértő dolgozott az elektronikus és papír alapú kiadásban a META-NET Fehér könyvek sorozatában megjelenő 30 részes tanulmány előkészítésén, amely a nyelvtechnológia helyzetét elemzi az alábbi négy területen: gépi fordítás, beszédtechnológia, szövegelemzés és a nyelvi erőforrások elérhetősége. A 30 nyelvből 21 (70%) a legalacsonyabb kategóriába került, amely szerint a nyelvtechnológiai támogatottság gyenge, vagy nem létezik a felsoroltak közül legalább egy területen. Egyes nyelvek – mint például az izlandi, a lett, a litván és a máltai – mind a négy területen a legalacsonyabb kategóriába tartoznak. A skála másik végén az angol nyelv található jó nyelvtechnológiai támogatottsággal (a kiváló szintet egy nyelv sem érte el); ezt a holland, a francia, a német, az olasz és a spanyol követi közepes támogatottsági szinttel. Bizonyos nyelvek – mint a baszk, a bolgár, a katalán, a görög, a magyar és a lengyel – töredékes támogatottsági szintet tudnak felmutatni; ezzel a veszélyeztetett nyelvek közé tartoznak.

„Felmérésünk eredménye megdöbbentő. Az európai nyelvek többsége kevés erőforrással rendelkezik, és vannak olyanok is, amelyek teljesen elhanyagoltak. Ebből a szempontból nyelveink nagy része nem időtálló” – mondja prof. Hans Uszkoreit, a META-NET koordinátora, a DFKI (Német Mesterségesintelligencia-kutatóközpont) tudományos igazgatója és a tanulmány társszerkesztője. „Drámai különbségek vannak az egyes európai nyelvek és nyelvtechnológiai területek között. A szakadék a 'nagy' és a 'kis' nyelvek között egyre mélyül. Biztosítanunk kell, hogy minden kisebb és kevés erőforrással rendelkező nyelvet el tudunk látni a kívánt alaptechnológiákkal, különben ezek a nyelvek digitális kihalásra vannak ítélve” – teszi hozzá a másik társszerkesztő, dr. Georg Rehm (DFKI).

A nyelvtechnológia olyan szoftvereket állít elő, amelyek a beszélt vagy írott emberi nyelv számítógépes feldolgozását segítik. A nyelvtechnológiai szoftverek jól ismert példái a helyesírás- és nyelvhelyesség-ellenőrzők, az okostelefonokon futó interaktív személyes asszisztensek (például a Siri az iPhone-on), a telefonos dialógusrendszerek, a gépi fordítók, a webes kereső alkalmazások és a szintetizált hangon beszélő autós navigációs rendszerek. A mai nyelvtechnológiai rendszerek elsősorban statisztikai módszereken alapulnak, amelyek hatalmas mennyiségű írott vagy beszélt nyelvi adatot igényelnek. Különösen a kevés beszélővel rendelkező nyelvek esetében nehéz a megfelelő mennyiségű adat beszerzése. A statisztikai alapú nyelvtechnológiai módszereknek minőségi korlátai is vannak, gondoljunk csak a gépi fordítók időnként meglehetősen szórakoztató fordításaira.

Európának majdnem minden országhatárt sikerült lebontania. Egy határ viszont még mindig létezik, és áthatolhatatlannak tűnik: a láthatatlan nyelvi határok útját állják a tudás és az információ szabad áramlásának. Továbbá az egységes digitális piac létrehozását is gátolják azáltal, hogy akadályozzák a termékek, szolgáltatások és egyéb javak szabad áramlását. Miközben a nyelvtechnológiában benne rejlik a nyelvi határok ledöntésének potenciálja a modern gépi fordító rendszerek segítségével, a META-NET felmérésének eredménye világosan megmutatja, hogy az európai nyelvek nagy része még nem áll készen erre. Számottevő technológiai hiányosságok léteznek, aminek okai között a kutatás-fejlesztés angolközpontúságát, az elkötelezettség és az anyagi támogatás hiányát, valamint a tudományos és technológiai fejlettség alacsony szintjét említhetjük.

Széles körű, összehangolt erőfeszítésre van szükség ahhoz, hogy létrehozzuk a hiányzó technológiákat, és hogy ezeket kiterjesszük az európai nyelvek többségére is. Nyomós érvek szólnak a mellett, hogy ezt a hatalmas kihívást jelentő feladatot egy az Európai Uniót, a tagállamokat és a kapcsolódó országokat, valamint az ipart egyaránt összefogó közös erőfeszítés keretében valósítsuk meg. Ilyen érv például az egy főre eső magas anyagi teher a kisebb nyelvi közösségek számára, a nyelvek közötti technológiatranszfer, az erőforrások, eszközök és szolgáltatások közötti átjárhatóság hiánya, és hogy a nyelvi határok gyakran nem esnek egybe a politikai határokkal. Európának cselekednie kell, hogy felkészítse nyelveit a digitális korra. Nyelveink kulturális örökségünk értékes részét képezik, és mint ilyenek, megérdemlik az időtállóságot. Az Európa Tanács szeptember 26-át a Nyelvek európai napjává nyilvánította, egy nappá, amely földrészünk gazdag nyelvi és kulturális örökségének ápolására és művelésére hívja fel a figyelmet. A META-NET által végzett tevékenység pedig az információs korban megjelenő, közös nyelvi örökségünk által kialakult kihívásokra és lehetőségekre figyelmeztet.

Nyelvtechnológia: a háttér

A nyelvtechnológia már most támogatást nyújt olyan mindennapi feladatokban, mint az e-mailek írása vagy az internetes jegyvásárlás. Nyelvtechnológiával találkozunk, amikor weboldalakat keresünk és fordítunk le, amikor helyesírás- és nyelvhelyesség-ellenőrző alkalmazásokat használunk, amikor az autónk navigációs rendszerét vagy a mobilunkat irányítjuk élőszóval, amikor ajánlásokat kapunk online könyvesboltokban, illetve amikor az okostelefonunk navigációs alkalmazása beszéddel irányít minket. A közeljövőben képesek leszünk számítógépes eszközökkel, alkalmazásokkal és gépekkel beszélni, beleértve a régóta várt robotokat is, amelyek nemsokára beteszik lábukat az otthonainkba és munkahelyeinkre is. Bármerre leszünk, ha információra vagy segítségre lesz szükségünk, egyszerűen csak hangosan kell kérnünk. Az emberek és gépek közötti kommunikációs határok ledöntésével meg fog változni a világunk.

A nyelvtechnológia ma az információs technológia egyik kulcsfontosságú feltörekvő területe. A nagy nemzetközi vállalatok, mint például a Google, a Microsoft, az IBM vagy a Nuance, jelentős beruházásokat hajtanak végre ezen a területen. Európában több száz kis- és középvállalkozás specializálódott különféle nyelvtechnológiai alkalmazásokra vagy szolgáltatásokra. A nyelvtechnológia lehetővé teszi, hogy az emberek a nyelvi határokat leküzdve együtt dolgozzanak, tanuljanak, kereskedjenek és megosszák tudásukat – számítógépes ismereteiktől függetlenül.

META-NET Fehér könyvek sorozata

A META-NET Fehér könyvek sorozata, amely a Nyelvek az európai információs társadalomban címet viseli, 30 európai nyelv helyzetéről számol be; elsősorban a nyelvtechnológiai támogatás szempontjából legsürgetőbb kockázatokat és lehetőségeket tekinti át. A sorozat 30 kötete felöleli az Európai Unió összes hivatalos nyelvét, valamint néhány egyéb, Európában beszélt nyelvet. Bár szép számban léteznek értékes és átfogó tudományos kutatások a nyelvek és a technológia bizonyos aspektusairól, mostanáig nem született egy olyan összefoglalás, amely minden egyes nyelvről megfogalmazza a fő eredményeket és feladatokat a technológia által támogatott többnyelvű Európával kapcsolatban. A META-NET Fehér könyvek sorozata ezt a hiányt pótolja, amikor rámutat, hogy miért szembesül a legtöbb nyelv komoly problémákkal, és pontosan rávilágít a legnagyobb hiányokra. A sorozat több mint 200 szerző és közreműködő munkájának eredményeként született meg.

A Fehér könyvek sorozat a következő európai nyelveket tárgyalja: angol, baszk, bolgár, cseh, dán, észt, finn, francia, galíciai, görög, holland, horvát, ír, izlandi, katalán, lengyel, lett, litván, magyar, máltai, német, norvég (bokmål és nynorsk), olasz, portugál, román, spanyol, svéd, szerb, szlovák és szlovén. A sorozat minden része azon a nyelven íródott, amelyről szól, és tartalmazza a teljes szöveg angol fordítását is.

A META-NET és a META

A META-NET kiválósági hálózat 34 ország 60 kutatóközpontját fogja össze. Célja a többnyelvű európai információs társadalom technológiai alapjainak megteremtése. Magyarországot a Magyar Tudományos Akadémia Nyelvtudományi Intézete és a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszéke képviseli. A META-NET-et az Európai Bizottság támogatja négy társprojekten keresztül. Az egyik társprojekt a CESAR (Central and South-East European Resources), amely a közép- és délkelet-európai régió nyelvtechnológiával foglalkozó kutatóközpontjait fogja össze. A magyar koordinációval folyó projekt eddigi másfél évében számos nyelvfeldolgozó eszköz és nyelvi erőforrás vált elérhetővé a META-SHARE adattáron keresztül.

A META-NET hozta létre a META szövetséget (Multilingual Europe Technology Alliance), amelyhez 55 országból már több mint 600 szervezet, kutatóközpontok, egyetemek, kis- és középvállalkozások, valamint néhány nagyvállalat is csatlakozott.