Personal tools
A Network of Excellence forging the
Multilingual Europe Technology Alliance

Metaadat séma

A META-SHARE kontextusában, a metaadat a nyelvi források (Language Resources) leírására utal, amelyek tartalmazzák mind a szövegszerű adatok halmazát (szöveges, multimodális/mulitimediális és lexikai adat, nyelvtanok, nyelvmodellek stb.) mind az eszközöket/technológiákat/szolgáltatásokat, amelyek a fentiek feldolgozása során használatosak.

 

A META-SHARE metaadatok (leírások) segítségével lehet beazonosítani a forrást, amelyet a META-SHARE gyűjteményiben keresnek. A META-SHARE metaadatséma tehát nélkülözhetetlen eleme a keresési és kikeresési folyamatnak, melynek (rész)elemei a katalógushoz való hozzáférési pontként szolgálnak. A modell tehát nagyon informatív és rugalmas, továbbá lehetővé teszi a katalógus rétegzett keresését különböző nézetekben, valamint a felületek dinamikus újrarendezését,  amely segítségével a használók a hatalmas adathalmazban könnyen és gyorsan meg tudják találni a keresett forrást. Habár a META-SHARE célközönsége magasan képzett szakemberekből áll, a séma nem lehet túlságosan bonyolult. A rendszer felhasználóbarát-jellegét kihangsúlyozandó, áttekinthető és könnyen érthető sémát hozunk létre.

Mivel ismert modelleken alapuló sémát hoztunk létre, az a célközönség számára könnyen alkalmazható. Célunk nem egy újabb metaadat-modell elkészítése volt, hanem már meglévő leírásokat alkalmazni, azok alapján felépíteni a META-SHARE közösségének ajánlásait.

A META-SHARE a nyelvi források építésénél a széles körben elfogadott szabványokat támogatja, ezzel is biztosítva a "The Standards' Landscape Towards an Interoperability Framework" által támogatott, az egyes források közti átjárhatóságot.

 

Általános keretrendszerként, az alkalmazott eljárás egy komponens alapú folyamat, amelyben szemantikailag összefüggő elemek és a köztük lévő relációk, valamint egyéb részek vannak tárolva. Még pontosabban, az elemeket az LR-ek egyes tulajdonságainak a kódolására használják, míg a relációkat a források összekapcsolására, amelyek a META-SHARE repozitóriumban is megtalálhatók (pl. eredeti és kinyert, nyers és annotált források, nyelvi forrás és a létrehozásához használt eszköz stb.), valamint a források kapcsolódó entitásokkal (pl. dokumentációs anyagok, publikációk, alkalmazott szabványok, licencek stb.).

A rugalmasság érdekében az elemek két alap leírói szinthez tartoznak:

  • egy kezdeti szint, amely a forrás leírásához az alapvető elemeket szolgáltatja (minimális séma), és
  • egy második szint, magasabb finomsági fokozattal (maximális séma), amely pontosabb információt ad az egyes forrásokról.

A maximális META-SHARE meaadatmodell minden elemet és relációt tartalmaz, amely részt vesz az nyelvi források leírásában. Az elemek a közeljövőben a már létező ISOCcat DCR adatkategóriákhoz lesznek rendelve, és ha nincs ellenpár, akkor hozzá lesznek rendelve a megfelelő definíciókkal. Az egyes források típusaira (és altípusaira) az azokat alkotó elemek segítségével speciális profilokat hozunk létre, amelyek irányadó mintaként szolgálnak (pl. wordnet, párhuzamos korpuszok, treebankek stb.) az egyes metaadat-szolgáltatóknak.

 

A META-SHARE metaadat-modelljének dokumentációja és kézikönyve

A dokumentum a META-SHARE számára kifejlesztett adatmodellt írja le. Kézikönyv jellegénél fogva célja, hogy a nyelvi forrásaikat csatlakoztatni vágyó szolgáltatók és kurátorok számára eligazítást nyújtson.

A dokumentum a META-SHARE platformhoz igazodva lesz feltöltve, követve a fejlesztések által megkívánt folyamatokat és változásokat.