Keeletehnoloogia ressursid: AVALEHEKÜLG  ·  TUTVUSTUS  ·  PROJEKTID  ·  TARKVARA  ·  DEMOD  ·  LINGID  

Inglise-eesti toorandmebaas

Margit Langemets, Indrek Hein
dets. 1999

Inglise-eesti toorandmebaas

Eesmärgiks on koostada uus inglise-eesti sõnaraamat mis oleks vabavara ning orienteeritud ennekõike arvutis kasutamisele.

Valmis on inglise märksõnastik, eesti vasteid on hetkel u 87000. Lihtsõnastiku rakendusprogrammi näidis:

Valminud osa saab proovida, soovi korral laadida oma arvutisse. Mugavaim viis on kasutada installeerimisprogrammi (sõnastiku andmefail seisuga .27). Kes on huvitatud kaastöö tegemisest, andke endast märku!

Uued sõnastikul baseeruvad rakendused:


Mugav abivahend sõnastikukirjete kontrolliks ja pakiliselt vajalike lisanduste leidmiseks on tõlkiv brauser:


Kirjete struktuur (esialgne)

Andmebaasi esialgne, SGML-märgendusega struktuur toetus ühisprojektis Glosser väljatöötatud mudelile, nn Glosseri sõnastikule (ca 30 000 märksõna). Märgenduse tegi ja kontrollis Eesti Keele Instituut (M. Langemets).

Märksõna (lemma) kohta käiv info esitatakse andmebaasis ühe kirjena. Kirje koosneb märgendatud struktuuriüksustest — sõnaartikli osadest (e väljadest). Infostruktuuride kirjeldamiseks ja eristamiseks kasutatakse üldistatud märgendust (SGML, XML), tähistatud on üksuse algus (<...>) ja lõpp (</...>). Sõnaartikli põhiosad e väljad on: märksõna, hääldus, sõnaliik, tähendus, näited, viide. Kuna andmebaas on tööjärgus, lisandub info eri struktuuriüksuste kaupa: kõige enne märksõnaloend, seejärel tähendus, siis hääldus, sõnaliik jm.

Allikad

Vabavara Internetist, lisaks materjal CD-ROMidelt: Gutenbergi projekti elektroonilised tekstid, WordNeti materjal, British English Example Pronunciations (BEEP), British National Corpus'e materjal (sõnaliik + sagedusandmed), Moby Lexicons'i sõnaloend koos sõnaliikide, häälduse ja sagedusandmetega, American Heritage Dictionary (Dictionaries & Language), Eesti Keele Sihtasutuse eesti-inglise sõnaraamatu materjal (koostamisjärgus, valmib aastal 2000).

Eelmainitud sõnakogude korrastamine käib ja ei jõua lõppeda selle projekti raames.

Andmebaasi kirjeldus ja kasutusjuhend

Kuna toorandmebaas ei ole veel valmis avalikuks väljapanekuks, siis on praegu veel vara kasutusjuhendit välja käia — see tuleb aastal 2000. Kuna projekti jooksul on võimalused ja sihid muutunud, siis jätkub EKI-s mõlema andmebaasi (inglise-eesti ja eesti-inglise) kogumine ja koostamine üheaegselt, silme ees ühtne inglise-eesti-inglise andmebaas arvutis. Andmebaas ei valmi kahjuks käesoleva projekti raames, vaid järgmisel aastal. Projekti lubadus — teha aina enam keelematerjale arvutis töödeldavaks, kasutatavaks ja Internetis kättesaadavaks — ei jää täitmata, kuid ajaliselt nihkub uude aastasse.