Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

La Lingua Italiana nell'Era Digitale — Sommario

Nel corso degli ultimi 60 anni, l’Europa è diventata una struttura politica ed economica distinta, che si caratterizza per la ricchezza e la varietà del suo patrimonio culturale e linguistico. Ciò significa che dal portoghese al polacco e dall’italiano all’islandese, la comunicazione quotidiana tra cittadini europei, così come la comunicazione nella sfera degli affari e della politica, sono inevitabilmente ostacolate da barriere linguistiche. Le istituzioni dell’UE spendono circa un miliardo di euro l’anno per mantenere la loro politica di multilinguismo, che consiste nella traduzione di testi scritti e nell’interpretariato di comunicazioni orali. Secondo alcune stime, il mercato europeo per la traduzione, l’interpretariato, la localizzazione del software e la globalizzazione dei siti web si aggira intorno a 8.4 miliardi di euro e ci si aspetta che aumenti del 10% all’anno. Ma si tratta di una spesa davvero necessaria? Nonostante questo impegno economico, i testi tradotti rappresentano solo una parte dell’informazione a disposizione della popolazione in paesi dove c’è una sola lingua predominante, come gli Stati Uniti, la Cina o il Giappone. Le moderne tecnologie del linguaggio e la ricerca linguistica possono dare un contributo significativo per abbattere questi confini linguistici. Se combinate con dispositivi e applicazioni intelligenti, le tecnologie del linguaggio in futuro saranno in grado di aiutare i cittadini europei a comunicare e fare affari facilmente tra loro anche se non parlano una lingua comune.

L’economia italiana trae vantaggio dal mercato unico europeo ma le barriere linguistiche possono portare ad una limitazione degli scambi, soprattutto per le PMI che non hanno i mezzi finanziari per invertire la situazione. L’unica (impensabile) alternativa a questo tipo di Europa multilingue sarebbe quella di permettere a una singola lingua di acquisire una posizione dominante e finire per sostituire tutte le altre lingue.

Il modo più naturale per superare le barriere linguistiche sarebbe certamente quello di imparare le lingue straniere. Eppure, considerando la quantità delle lingue d’Europa – circa ottanta, tra lingue ufficiali e non – l’apprendimento delle lingue non basta da solo per le necessità della comunicazione, del commercio e del trasferimento dell’informazione tra tutti i confini linguistici. Senza il supporto della tecnologia, per esempio la traduzione automatica, la diversità linguistica dell’Europa rischia di rappresentare un ostacolo insormontabile per i cittadini europei e per l’economia, il dibattito politico e il progresso scientifico.

Le tecnologie del linguaggio hanno un ruolo chiave per fornire una soluzione sostenibile, economica e socialmente vantaggiosa al problema creato dalle barriere linguistiche.

Queste tecnologie offriranno agli attori europei enormi vantaggi, non solo all’interno del mercato comune europeo, ma anche nelle relazioni commerciali con i paesi terzi, in particolare le economie emergenti. Le soluzioni proposte dalle tecnologie del linguaggio finiranno per rappresentare un unico ponte tra le lingue d’Europa. Per raggiungere questo obiettivo e preservare la diversità culturale e linguistica dell’Europa, è prima necessario effettuare un’analisi sistematica delle particolarità linguistiche di tutte le lingue europee e dello stato attuale delle tecnologie linguistiche per ciascuna di esse.

Già alla fine degli anni Settanta l’UE aveva compreso la grande importanza della tecnologia del linguaggio per guidare l’unità europea, quando cominciò a finanziare i primi progetti di ricerca (per esempio, EUROTRA). Dopo un lungo periodo in cui i finanziamenti venivano concessi in modo relativamente poco concertato, pochi anni fa la Commissione Europea ha istituito un dipartimento dedicato alle tecnologie del linguaggio e alla traduzione automatica.

Al momento l’Unione Europea sostiene progetti come EuroMatrix e EuroMatrixPlus (dal 2006) e iTranslate4 (dal 2010), che conducono ricerca di base e applicata e producono risorse per la creazione di tecnologie linguistiche di alta qualità per tutte le lingue europee. Questi sforzi hanno già portato un certo numero di risultati notevoli. I servizi di traduzione dell’Unione Europea, per esempio, attualmente utilizzano il software di traduzione automatica open-source MOSES, che è stato sviluppato principalmente attraverso progetti di ricerca europei. Tuttavia, questi progetti non sono mai sfociati in uno sforzo coerente e coeso a livello europeo, che veda l’UE e i suoi stati membri perseguire in modo sistematico lo scopo comune di sostenere tecnologicamente tutte le lingue europee.

Invece di investire sui risultati dei suoi progetti di ricerca, l’Europa ha mantenuto la tendenza a svolgere attività di ricerca isolate, con un impatto sul mercato meno pervasivo. Di conseguenza, questa pur intensa attività di finanziamento non ha prodotto dei risultati sostenibili.

In molti casi, la ricerca fatta in Europa ha prodotto risultati considerevoli, ma fuori dai confini europei. I vincitori di questo sviluppo generale sono Google e Apple. In realtà, molti dei soggetti principali nel settore oggi sono aziende private a scopo di lucro con sede nel Nord America.

La maggior parte dei sistemi di tecnologia del linguaggio sviluppati da queste aziende si basano su approcci statistici imprecisi, che non fanno uso di metodi linguistici più sofisticati. Per esempio, le frasi vengono tradotte automaticamente mettendo a confronto una nuova frase contro migliaia di frasi tradotte in precedenza da esseri umani. La qualità del risultato dipende in larga misura dalla dimensione e dalla qualità del corpus campione disponibile. Mentre la traduzione automatica di frasi semplici in lingue con sufficienti quantità di materiale testuale a disposizione può raggiungere risultati utili, detti metodi statistici poco profondi sono destinati a fallire nel caso di lingue che dispongono di molto meno materiale campione, oppure nel caso di frasi con strutture complesse. Analizzare le proprietà strutturali più profonde delle lingue è l’unica strada percorribile se vogliamo creare applicazioni che funzionino bene per tutte le lingue d’Europa.

In Europa ci sono condizioni ottimali per la ricerca: grazie ad iniziative come CLARIN, META-NET e FLaReNet, la comunità di ricerca è ben coesa; in FLaReNet e META-NET sono state sviluppate delle agende di ricerca a lungo termine, e le tecnologie del linguaggio stanno rafforzando il loro ruolo presso la Commissione Europea in modo lento ma costante. Tuttavia, da alcuni punti di vista, la situazione europea è peggiore rispetto a quella di altre società multilingui. A fronte di risorse finanziarie inferiori, paesi come l’India, con 22 lingue ufficiali, e il Sud Africa, con 11 lingue ufficiali, hanno recentemente istituito programmi nazionali a lungo termine per la ricerca linguistica e lo sviluppo tecnologico.

Quello che manca in Europa sono la consapevolezza, la volontà politica e il coraggio di lottare per una posizione di leader internazionale in questo settore tecnologico attraverso uno sforzo concertato di finanziamento. Sulla base dei risultati ottenuti finora, sembra che la tecnologia linguistica di oggi, definita ibrida in quanto combina i metodi statistici con un’analisi linguistica a livello più profondo, riuscirà a colmare il divario tra tutte le lingue europee.

Come viene mostrato in questa collana di Libri Bianchi, c’è una notevole differenza tra i diversi paesi membri relativamente allo stato di preparazione rispetto alle soluzioni tecnologiche linguistiche e allo stato della ricerca. L’italiano, in quanto una delle grandi lingue dell’UE, si trova in una situazione migliore sia per quanto riguarda la maturità della ricerca che il livello di sviluppo delle tecnologie linguistiche. Tuttavia, l’italiano necessita ancora di ulteriori ricerche prima di poter avere soluzioni tecnologiche veramente efficaci pronte per l’uso quotidiano.

La percentuale di utenti Internet che parlano italiano subirà una diminuzione nel prossimo futuro e l’italiano potrebbe andare incontro al problema di essere sotto rappresentato nel Web, specialmente se paragonato all’inglese. è qui che le tecnologie del linguaggio possono svolgere un ruolo fondamentale per vincere le sfide che aspettano la lingua italiana nell’era digitale. La presenza “digitale” di una lingua in applicazioni e servizi basati su Internet è ormai un elemento cruciale per mantenere la vitalità culturale di quella lingua. E, d’altra parte, applicazioni e servizi su Internet sono sostenibili solo in presenza di adeguate infrastrutture e tecnologie. La ricerca nel campo delle tecnologie del linguaggio è condotta in Italia in oltre 15 laboratori (secondo quanto riportato dallo studio EUROMAP) e la presenza italiana nella comunità di ricerca internazionale è attiva e rilevante. A partire dal 1997 è stato fatto uno sforzo considerevole in Italia nella ricerca sulle tecnologie del linguaggio, quando per questo settore è stata designata una politica di ricerca nazionale. Sfortunatamente, i fiananziamenti a livello nazionale sono molto limitati, e lo stato attuale delle tecnologie del linguaggio non è sufficiente a garantire all’italiano una dimensione digitale proporzionata alla richiesta delle applicazioni e dei servizi dell’Internet del futuro. Per i prossimi decenni la comunità italiana deve fare uno sforzo sostanziale per creare risorse e strumenti linguistici per l’italiano in grado di trainare la ricerca, l’innovazione e lo sviluppo in generale. In questo volume verrà presentata una introduzione alle tecnologie linguistiche e alle relative prinicipali aree di applicazione, corredata da una valutazione dello stato attuale delle tecnologie linguistiche disponibili per l’italiano.

Questa collana di Libri Bianchi integra le altre azioni strategiche intraprese da META-NET (si veda l’appendice per una panoramica). Informazioni aggiornate, come per esempio la versione attuale del vision paper di META-NET o l’Agenda di Ricerca Strategica (SRA) sono disponibili sul sito web di META-NET: http://www.meta-net.eu.