Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

Język polski w erze cyfrowej — Streszczenie

Informatyka zmienia nasze życie codzienne. Do pisania i redagowania tekstów, liczenia i wyszukiwania informacji używamy zwykle komputerów. Coraz bardziej służą nam one także do czytania, słuchania muzyki, przeglądania zdjęć i oglądania filmów. W kieszeniach nosimy małe komputery, za pomocą których prowadzimy rozmowy telefoniczne i piszemy e-maile. Są one źródłem informacji i rozrywki w dowolnym miejscu na świecie. Jak digitalizacja informacji, wiedzy i codziennej komunikacji wpływa na język? Czy nasz język zmieni się lub nawet zaniknie?

Wszystkie nasze komputery łączą się ze sobą w gęstniejącej sieci globalnej o coraz większych możliwościach. Dziewczyna z Ipanemy, celnik w Dorohusku i inżynier w Katmandu mogą rozmawiać ze znajomymi na Facebooku, ale prawdopodobnie nigdy nie spotykają się w społecznościach internetowych i na forach. Gdy chcą poradzić sobie z bólem ucha, wszyscy zajrzą do Wikipedii. Jednak nawet wtedy nie będą czytać tego samego artykułu. Kiedy na forach i czatach sieciowi obywatele Europy dyskutują na temat wpływu awarii jądrowej w Fukushimie na europejską politykę energetyczną, robią to w odseparowanych od siebie społecznościach językowych. Co łączy Internet, języki użytkowników nadal rozdzielają. Czy zawsze tak będzie?

Wiele spośród 6000 języków na świecie może nie przetrwać w zglobalizowanym cyfrowym społeczeństwie informacyjnym. Szacuje się, że co najmniej 2000 języków jest skazanych na wymarcie w nadchodzących dziesięcioleciach. Inne nadal będą odgrywać pewną rolę w rodzinach i życiu codziennym, ale nie w skali biznesu i środowisk akademickich.

Język polski, którym mówi ponad 40 milionów osób, ma dosyć dobrą pozycję w porównaniu do wielu języków. Istnieje duża liczba polskich kanałów telewizyjnych. Większość zaś filmów zagranicznych wyświetla się w wersjach z lektorem lub napisami w języku polskim. Wszystkie popularne pakiety oprogramowania zostały przetłumaczone na język polski i mimo wszelkich obaw o stopniową anglicyzację wydaje się, że w życiu codziennym Polacy wolą używać własnego języka. Istnieje jednak niebezpieczeństwo jego kompletnego zniknięcia z głównych dziedzin naszego życia. Nie chodzi o naukę, lotnictwo i globalne rynki finansowe, które faktycznie na całym świecie potrzebują lingua franca. Mamy na myśli wiele dziedzin życia, które są znacznie ważniejsze dla obywateli niż dla partnerów międzynarodowych – chodzi na przykład o politykę wewnętrzną, procedury administracyjne, prawo, kulturę i zakupy.

Status języka zależy nie tylko od liczby mówiących nim osób czy dostępnych w nim książek, programów komputerowych, filmów i stacji telewizyjnych, ale także od obecności języka w cyfrowej przestrzeni. Tutaj również polszczyzna jest w dosyć dobrej sytuacji. Polska Wikipedia jest jedną z największych na świecie, a domena .pl, mająca ponad 2 miliony zarejestrowanych poddomen, jest jedną z największych na świecie domen krajowych. (W USA bardzo niewiele stron internetowych faktycznie korzysta z domeny .us).

W dziedzinie technologii językowych polszczyzna dysponuje wieloma produktami, technologiami i zasobami. Istnieją aplikacje i narzędzia do syntezy mowy, jej rozpoznawania, korekty pisowni i gramatyki. Istnieje także wiele aplikacji do automatycznego tłumaczenia języka, mimo że często nie dają językowo i idiomatycznie poprawnych tłumaczeń, zwłaszcza gdy język polski jest językiem źródłowym. Wynika to głównie ze specyficznych cech języka polskiego.

Następna generacja techniki, po komputerach osobistych, sieci, miniaturyzacji, multimediach, urządzeniach przenośnych i przetwarzaniu „w chmurze”, to oprogramowanie rozumiejące nie tylko wypowiedziane lub zapisane litery i dźwięki, ale całe słowa i zdania, a także znacznie lepiej służące użytkownikom, gdyż mówiące ich językiem i go znające. Prekursorskie są tutaj takie zjawiska, jak bezpłatne usługi internetowe Tłumacz Google, które tłumaczą między 57 językami, superkomputer Watson firmy IBM, który zdołał pokonać amerykańskiego mistrza w teleturnieju „Jeopardy”, a także Siri, przenośny asystent firmy Apple, który potrafi reagować na polecenia głosowe i odpowiadać na pytania w języku angielskim, niemieckim, francuskim i japońskim. Ale już nie w języku polskim.

Następna generacja informatyki opanuje ludzki język w takim stopniu, że przy użyciu techniki ludzie będą mogli komunikować się we własnym języku. Urządzenia będą w stanie automatycznie znajdować najważniejsze wiadomości i informacje ze światowych zasobów wiedzy w odpowiedzi na proste w użyciu polecenia głosowe. Technika znająca język będzie w stanie tłumaczyć automatycznie lub pomagać tłumaczom, streszczać rozmowy i dokumenty, a także pomagać w nauce.

Następna generacja technik informatycznych i komunikacyjnych umożliwi robotom przemysłowym i usługowym (obecnie rozwijanym w laboratoriach badawczych) dobrze rozumieć, czego żądają ich użytkownicy, a następnie zdawać sprawę z realizacji tych żądań w języku naturalnym.

Ten poziom działania oznacza wyjście poza zestawy znaków i leksykony, korektory pisowni lub gramatyki oraz zasady wymowy. Technika musi odejść od uproszczonych podejść i zacząć modelowanie języka w sposób kompleksowy, biorąc pod uwagę składnię i semantykę, aby móc rozumieć kierunek pytań – a w ten sposób generować bogate i właściwe odpowiedzi.

Istnieje jednak coraz większa przepaść technologiczna między językiem polskim i angielskim. Europa utraciła kilka bardzo obiecujących innowacji technicznych na rzecz USA, gdzie jest większa ciągłość w strategicznym planowaniu badań i większe wsparcie finansowe dla wprowadzania nowej techniki na rynek. W wyścigu do innowacji technicznych dobry początek i wizjonerska koncepcja mogą zapewnić przewagę nad konkurencją tylko wtedy, jeśli rzeczywiście dotrze się na linię mety. Inaczej liczyć można co najwyżej na honorową wzmiankę w Wikipedii.

Każdy międzynarodowy konkurs technologiczny świadczy o tym, że wyniki automatycznej analizy języka angielskiego są znacznie lepsze niż dla polskiego, mimo że (albo właśnie dlatego), że metody analizy są podobne, jeśli nie identyczne. Odnosi się to do ekstrakcji informacji z tekstów, korekty gramatycznej, tłumaczenia maszynowego i bardzo wielu innych zastosowań.

Wielu badaczy uznaje, że opóźnienia rozwojowe biorą się stąd, iż od pięćdziesięciu lat metody i algorytmy lingwistyki komputerowej oraz badań nad aplikacjami językowymi skupiają się przede wszystkim na języku angielskim. Jednak inni sądzą, że język angielski z natury rzeczy lepiej nadaje się do przetwarzania komputerowego. Przy użyciu istniejących metod języki takie jak hiszpański i francuski są znacznie łatwiejsze do przetwarzania niż polszczyzna. Oznacza to, że potrzeba osobnych, zintegrowanych i długotrwałych prac badawczych, jeżeli chcemy korzystać z technologii informatycznych i komunikacyjnych następnej generacji w tych dziedzinach naszego prywatnego i zawodowego życia, w których żyjemy, mówimy i piszemy po polsku. Wtedy dopiero będziemy mogli powiedzieć, że dodaliśmy język polski do ulubionych, jak głosi hasło kampanii Rady Języka Polskiego.

Podsumowując, pomimo pesymistycznych proroctw język polski nie jest zagrożony, nawet ze strony narzędzi informatycznych obsługujących język angielski. Sytuacja może jednak ulec radykalnej zmianie, kiedy technika następnej generacji naprawdę zacznie efektywnie opanowywać język naturalny. Dzięki coraz lepszemu tłumaczeniu maszynowemu nowe techniki pomogą w przełamywaniu barier językowych, ale tylko między tymi językami, które zdołały przetrwać w cyfrowym świecie. Jeżeli będą istnieć odpowiednie technologie językowe, wówczas będzie można zapewnić przetrwanie językom, którymi posługują się nawet bardzo małe społeczności. W przeciwnym razie nawet „większe” języki będą pod ogromną presją.

Dentysta żartobliwie przestrzega: „Myj tylko te zęby, które chcesz zachować”. Dotyczy to również polityki naukowej. Jednak z jednym zastrzeżeniem. Możemy badać każdy język pod słońcem, ale kosztowne technologie powinniśmy rozwijać jedynie dla tych, które naprawdę chcemy utrzymać przy życiu.

Seria raportów META-NET wskazuje, że istnieją ogromne różnice między rozwojem technologicznym różnych języków państw członkowskich. Mimo że polski jest jednym z „większych” języków unijnych, należy prowadzić dalsze badania, aby dostępne dla tego języka narzędzia technologiczne były gotowe do codziennego użycia.

Długoterminowym celem META-NET jest opracowanie wysokiej jakości technologii językowych dla wszystkich języków, co pozwoli na zjednoczenie polityczne i gospodarcze zachowujące różnorodność kulturową. Technologia pomoże nam przezwyciężyć istniejące bariery i zbudować pomost łączący języki europejskie. Ten cel wymaga jednak wspólnego zaangażowania wszystkich stron: przedstawicieli świata polityki, nauki, biznesu i społeczeństwa.

Seria raportów META-NET stanowi uzupełnienie innych działań strategicznych prowadzonych przez konsorcjum (patrz załącznik). Bieżące informacje, takie jak aktualna wersja wizji META-NET lub Strategicznego Programu Badań (SPB), można znaleźć na stronie internetowej META-NET: http://www.meta-net.eu.