Riiklik programm "Eesti keel ja rahvuslik mälu" 2005

Eesti murdetekstide korrastamine, digitaliseerimine ja publitseerimine. 2004–2008

Projekt: Eesti murrete sõnaraamat

Projekti juht dr Kristiina Ross

Projekti täitjad:

Jüri Viikberg, dr

Vilja Oja, dr

Piret Norvik, mag

Evi Juhkam, mag

Mari Kendla, mag

Mari-Liis Kalvik, mag

Anu Haak

Inge Käsi

Mari-Epp Tirkkonen

Projektiga seotud abitööjõud:

Merike Järvlepp

Esko Oja

Suure “Eesti murrete sõnaraamatu” koostamine ja publitseerimine on Eesti Keele Instituudi dialektoloogide tähtsaim ülesanne. Eesti murrete sõnaraamat on kogu eesti murdesõnavara hõlmav akadeemiline sõnaraamat, milles püütakse võimalikult laialdaselt kajastada kõigi eesti murrete sõnavara, nii palju nagu seda on jõutud varasematel aastatel talletada. Sõnaraamatu aluseks on EKI murdesektoris paiknev murdearhiiv, mis sisaldab eesti murrete kohta alates 1920ndatest aastatest kogutud materjale. Sõnaraamatus esitatakse kogu talletatud murdekeelne sõnavara, näidatakse ära sõnade geograafiline levik, peamised häälikulised ja morfoloogilised esinemiskujud, avatakse sõnade tähendused ning illustreeritakse sõna kasutamist lauses ja fraseologismides.

2004. aasta põhitulemused:

2004. aastal publitseeriti plaani kohaselt kaks järjekordset sõnaraamatu vihikut:

Eesti murrete sõnaraamat. III köide, 15. vihik (kreep-kuldänja). Toim. Anu Haak, Mari Kendla, Jüri Viikberg. Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus, 2004, lk 821-1032.

Eesti murrete sõnaraamat. IV köide, 16. vihik (kuma-kõhvima). Toim. Anu Haak, Evi Juhkam, Mari Kendla, Jüri Viikberg. Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus, 2004, lk 1-212.

Projekti töökava aastaks 2005:

2005. aastal on kavas anda välja sõnaraamatu 17. vihik. Jätkub 18. vihiku toimetamine (mille ilmumine jääb kavandatud tempo kohaselt 2006. aastasse). Alustatakse 19. vihiku toimetamist (ilmub samuti 2006).

2005. aastaks taotletud 900 000 krooni, eraldatud 657 000 krooni

Eesti (kirja)keele ajaloo alased allikapublikatsioonid, ülevaated ja teatmeteosed. 2004–2008

Projekt: Eesti keele etümoloogiline sõnaraamat

Projekti juht dr Kristiina Ross

Projekti täitjad

Iris Metsmägi, dr

Sven-Erik Soosaar, mag

Meeli Sedrik, mag

Lembit Vaba, dr

Mari Bogatkin

Projektiga seotud abitööjõud:

Maeve Leivo

Sirje Nilbe, mag

Projekt on jätkuks 2002. aasta programmist “Eesti keele ja rahvuskultuur” ning 2003. a programmist “Keeletehnoloogia ja EKI sõnaraamatud” finantseeritud projektile.

Projekti eesmärgiks on koostada ja välja anda üheköiteline paberverisoonis “Eesti keele etümoloogiline sõnaraamat” ning ühtlasi süstematiseerida ja teha üldsusele Internetis kättesaadavaks seni arvutisse sisestatud materjalid eesti keele sõnade päritolu kohta.

Keele sõnavara päritolu kajastav etümoloogiline sõnaraamat on hädavajalik osis iga kultuurkeele leksikograafilises varamus. Eesti keele kohta niisugune, tänapäeva nõuetele vastav üldkasutatav teatmeteos puudub. On olemas J. Mägiste 12-köiteline “Estnisches etymologisches Wörterbuch”, mis jäi koostaja poolt mustandijärku ning anti hiljem rotaprintpaljundusena välja. Selle raamatu seisukohad on subjektiivsed ja tänapäevaks vananenud; kuna käsikiri jäi autoril viimistlemata, pole materjali esitus järjekindel ega süsteemipärane; sõnaraamatu kasutamist piirab ka asjaolu, et selle põhitekst on saksakeelne. Mägiste sõnaraamatu põhjal on A. Raun koostanud väikese teatmiku, mis on aga äärmiselt pinnapealne. Tänapäevane, võimalikult objektiivne etümoloogiasõnastik peaks hõlmama kogu senist uurimistööd ning erinevate autorite seisukohti, püüdes varasemat üldistada ning pakkudes välja uusimaid lahendusi.

EKI soome-ugri keelte sektoris alustati etümoloogilise materjali kogumist juba 1970. aastate lõpus. Praeguseks on paberversioonis olemas kartoteek, mis sisaldab põhimõtteliselt kõiki läänemeresoome keelte sõnavara etümoloogiat puudutavaid materjale. 80. aastate lõpul alustati materjali sisestamist arvutisse ja selle märgendamist. Praeguseks on materjal sisestatud ja märgendatud, kuid ühtlustamata.

Arvutivariandis on tulevikus kättesaadav põhimõtteliselt igasugune info, mis eesti kirjakeele ja murdesõnade päritolu puudutab, sealhulgas ka rahvaetümoloogiat ning muid ilmselgelt ebateaduslikke või vananenud seisukohti kajastav kirjavara. Kogu selle äärmiselt mahuka ja amorfse materjali põhjal koostatakse kompaktne üheköiteline paberkandjal sõnaraamat, mis sisaldab eesti kirjakeele sõnavara enam-vähem ÕS 1999 ulatuses ja mille igale sõnale esitatakse üks kõige tõenäosem tänapäevane etümologiseerind (või eriti vaidlusalustel juhtudel kaks paralleelvõimalust) ja näited sõna esinemusest sugulaskeeltes või (laenu korral) päritolukeeles. 2002. aastal töötati välja etümoloogiasõnaraamatu koostamise põhimõtted: märksõnade valiku põhimõtted ja sõnaartiklite kavandatav struktuur. 2003. aastal viimistleti sõnaraamatu koostamispõhimõtteid ning alustati tegelikku koostamist. Koostati 500 sõnaartiklit.

2004. aasta põhitulemused:

2004. aastal jätkus sõnaartiklite koostamine. Esialgselt kavandatud tempo on paraku osutunud liiga optimistlikuks, mille oluliseks põhjuseks on asjaolu, et aastakümnete jooksul koostatud kartoteek osutub puudulikuks ning töö käigus on vaja tegelda materjali juurde otsimisega. Tööd aeglustab ka väljaõppinud uurijate vaheldumine (2004. aasta poole pealt lahkus Iris Metsmägi lapsepuhkusele, tema asemele võeti tööle Mari Bogatkin, kes on seni teinud ettevalmistavaid töid ning saab sõnaraamatu tegelikku koostamisse lülituda alles järgmisest aastast).2004. aastal koostati umbes 1300 sõnaartiklit (läbitud on tähed I, K, L, N, pooleli on J ja M). Jätkus sõnaartikli lõpliku struktuuri viimistlemine ning koostamispõhimõtete ümberhindamine ja täiustamine.

Projekti töökava aastaks 2005:

2005. aastal jätkub sõnaraamatu koostamine. Juhul, kui I. Metsmägi naaseb lapsepuhkuselt ning M. Bogatkin võimalikult kiiresti sõnaraamatu koostamistöösse lülitub, on loodetavasti võimalik senist tempot tõsta (ent arvestades kartoteegi tegelikku seisu ja olemasolevat tööjõudu kindlasti mitte üle 2000 sõnaartikli aastas).

2005. aastaks taotletud 300 000 krooni, eraldatud 250 000 krooni

Tänapäeva eesti keele baassõnastikud. 2004–2008

Projekt: Eesti õigekeelsuse alussõnaraamatud

Projekti juht Tiiu Erelt

Projekti täitjad

Tiina Leemets, mag

Argo Mund 

Sirje Mäearu, mag 

Maire Raadik, mag

Projektiga seotud abitööjõud

Kaja Kruusmaa

Õigekeelsuse sõnaraamatutel (ÕS) on olnud läbi aegade eesti kirjakeele ühtlustamise seisukohalt määrav tähtsus. Need on ilmunud lühemate või pikemate vahemike järel (1918, 1925–1937, 1960, 1976, 1999) ning alati pakkunud oma ajas aktuaalseimat sõnavara ning ajakohaseid keelelisi soovitusi. ÕSi sisu tuleb pidevalt uuendada ja täiendada, et kaasas käia toimuvate muutustega. Uuenduste tegemise optimaalne vahemik on praegusel hinnangul iga viie aasta tagant.

ÕS 2005

on ümber töötatud ja täiendatud variant 1999. a ilmunud “Eesti keele sõnaraamatust ÕS 1999”. Muudatustes võetakse arvesse nii uuenenud sõnavara keelekasutust kui ka ÕS 1999 kasutajatelt tulnud märkusi ja ettepanekuid. Korrigeeritakse ÕS 1999 esitust selles osas, mis kasutajatele on valmistanud raskusi. Pärast ÕS 2005 ilmumist kavandatakse järgmist väljaannet juba uuema tehnoloogia võimalusi kasutades (võrguväljaanne, CD jm).

Õpilase ÕS

on mitte lihtsalt suure ÕSi vähendatud ja lihtsustatud variant, vaid emakeeleõppe metoodikat arvestades loodud uue ülesehitusega sõnastik, mida sobib kasutada kooli algastmel ja põhikoolis sissejuhatusena suurele ÕSile. Käsikiri valmis 2003. a lõpuks.

Projekt on järg algselt 2002. aastaks esitatud projektile, mida on seni rahastatud programmi Eesti keele ja rahvuskultuur” alt (2002. a) ja programmi “Keeletehnoloogia ja EKI sõnaraamatud” alt (2003).

2004. aasta põhitulemused:

1. Ilmus “Õpilase ÕS” (autorid Tiiu Erelt ja Tiina Leemets), mida esitleti 5. mail 2004.

2. Jätkus ÕS 2005 paranduste ja täienduste kogumine, keeleprobleemide läbitöötamine, käsikirja parandamine ja täiendamine. Lahendati uuele XML-vormingule üleminekuga seotud probleeme.

Projekti töökava aastaks 2005:

ÕS 2005 käsikirja parandamine ja täiendamine, arvutiversiooniks kohandamisel tekkinud vigade parandamine, paranduste ja täienduste sisseviimine, küljenduskorrektuuri lugemine, trükivalmis seadmine.

2005. aastaks taotletud 360 000 krooni, eraldatud 250 000 krooni

Tänapäeva eesti keele baassõnastikud. 2004–2008

Projekt: Eesti kirjakeele seletussõnaraamat

Projekti juht mag Margit Langemets

Projekti täitjad

Rudolf Karelson, dr

Margit Langemets, mag

Mai Tiits

Tiia Valdre

Leidi Veskis

Piret Voll, mag

 “Eesti kirjakeele seletussõnaraamat” (EKSS) on Eesti Keele Instituudis koostatav esimene eesti kirjakeele kogu sõnavara kirjeldav sõnaraamat. EKSS kajastab tänapäeva eesti keele leksika põhiosa selle eri kasutusaladel, selle koostamisel toetutakse sõnavarakogudele, senistele eesti keele sõnaraamatutele, muudele sõnavara- ja grammatikakäsitlustele ja uuematele teatmeteostele.

Sõnaraamatu toimetamine ja koostamine (alustatud 1960ndatel) on jõudnud lõppfaasi: ilmunud on A-unelus (23 vihikut). Kokku ilmub 27 vihikut (iga aasta üks) ja koos viimase põhivihikuga (2007. a) ka uute sõnade täiendvihik. Ühe vihiku maht on keskeltläbi 22,5 autoripoognat ehk 12,5 trükipoognat, arvutikesksena umbes 1 MB.

Sõnaartiklid koostatakse tekstinäidiste põhjal, aluseks eesti kirjakeele arhiiv (4,3 mln sõnasedelit) ja eesti keele tekstikorpused (TÜ eesti kirjakeele korpus, EKi tekstikorpus). Sõnastikutekst sisestatakse arvutisse struktureeritud tekstina, igal struktuuriüksusel on oma märgend. Koostamispõhimõtted on aja jooksul veidi muutunud (tsitaatidele eelistatakse lühiväljendeid ja leksikograafide näidislauseid). Juba paar aastat tagasi jõuti tööjärku, kus sõnaraamatu algkäsikiri on puudunud, mistõttu vihikute ilmumistempoks olemasoleva tööjõu juures on stabiliseerunud üks vihik aastas.

Riiklik sihtprogramm “Eesti keel ja rahvuskultuur” on toetanud sõnaraamatu koostamist ja toimetamist aastatel 1999-2002 (eraldis kokku 765 000) kr, 2003. aastal rahastati sõnaraamatu sihtprojektist “Keeletehnoloogia ja EKI sõnaraamatud” (425 000 kr).

2004. aasta põhitulemused:

Ilmus “Eesti kirjakeele seletussõnaraamat.” VI köide, 4. vihik (unemaa–varjutaluv). Toim Rudolf Karelson, Tiia Valdre & Leidi Veskis. Eesti Keele Instituut. Tallinn: Eesti Keele Sihtasutus, 2004, 200 lk.

Pooles mahus toimetati järgmist, VII köite 1. vihikut (varjutama–võ).Tegeldi jätkuvalt sõnaraamatu arvutitöötlusega, kontrolliti ja korraldati sõnaraamatu teksti andmebaasiformaati.

Projekti töökava aastaks 2005:

2005. aastal lõpetatakse "Eesti kirjakeele seletussõnaraamatu" VII köite 1. vihiku (25. vihik, varjutama–võ) toimetamine ja trükiks ettevalmistamine. Alustatakse viimase, VII köite 2. vihiku (26. vihik, võ–y-telg) toimetamist, osaliselt ka koostamist (käsikiri puudub osas üliosav–üürnik) – vihik ilmub, kui kõik on valmis (üldse koostamata on üliosav–üürnik) – tõenäoliselt 2007. a., s.t mitte aasta (2006) lõpus, nagu eelnevatel aastatel tavaks olnud. Koostatakse uute sõnade osa (ilmub 2007).Tegeldakse jätkuvalt sõnaraamatu arvutitöötlusega, kontrollitakse ja korraldatakse sõnaraamatu teksti andmebaasiformaati.

2005. aastaks taotletud 800 000 krooni, eraldatud 600 000 krooni

Tänapäeva eesti keele baassõnastikud. 2004–2008

Projekt: Eesti-vene sõnaraamat

Projekti juht mag Margit Langemets

Projekti täitjad

Tiiu Lagle

Maimu Liiv

Helena Kallas, mag

Elli Mets

Projektiga seotud abitööjõud

Helga Laasi, dr  

Astrid Küüst

Tiia Valdre

Ülle Viks, dr 

Eesti keele kui riigikeele õppimist-õpetamist toetavad lisaks vastavatele õpikutele ja muudele õppevahenditele kakskeelsed eesti ja vene keele sõnaraamaatud.

1984-1994 ilmus Eesti Keele Instituudis tehtud 4-köiteline “Vene-eesti sõnaraamat”. Pärast selle valmimist alustati vastupidise, mahuka ja nüüdisaegse eesti-vene sõnaraamatu koostamist ja toimetamist. 2002. a korrigeeritud plaani  järgi tuleb sellest 5-köiteline sõnaraamat, millest seni on ilmunud kolm köidet: 1997 (A–J), 2000 (K–L), 2003 (M-P).

Koostatav sõnaraamat on fundamentaalne sõnaraamat, mis erineb seni ilmunud eesti-vene sõnaraamatutest nii mahu kui ka keeleainese esitusviisi poolest. Sõnaraamatus püütakse ammendavalt kirjeldada mõlemat keelt. Ainulaadne ja eriti oluline on sõnastiku kõikidele eesti märksõnadele automaatselt lisatud hädavajalik grammatiline info, mis aitab eesti sõna õigesti käänata ja pöörata. Sama oluline on vene tõlkevastetele antud põhjalik grammatiline info: põhivormid, sõnaliik, soomärgend, ainsuse-mitmuse kasutamise võimalused jpm. Üksikasjalikult selgitatakse eesti sõnade tähendusi, rohkesti esitatakse kasutusnäiteid ja fraseoloogilisi väljendeid.

IV köide (R-tjah) ilmub (eeldatavasti) 2005.a, V köide (toa-) ilmub (eeldatavasti) 2007. aastal.

2004. aasta põhitulemused:

IV köitega (R–tjah) seotud tööd:·käsikirja koostamine ja sisestamine arvutisse (T. Lagle, M. Liiv, lepinguga H. Laasi): kokku 500 seletava lk (IV köitest jäänud koostada veel ca 150 lk);·eesti poole toimetamine (T. Valdre);·peatoimetamine (N. Melts);· toimetajate paranduste sisestamine arvutisse (A. Küüts).

Projekti töökava aastaks 2005:

IV köitega (R–tjah) seotud tööd: käsikirja koostamine (T. Lagle, M. Liiv, lepinguga H. Laasi): umbes 150 lk; eesti poole toimetamine (T. Valdre); grammatika lisamine (Ü. Viks); korrektuur ja revisjoniparandused (T. Lagle, M. Liiv); peatoimetamine (N. Melts); toimetajate paranduste sisestamine arvutisse (lepinguga); uuele sisestussüsteemile üleminek (uus süsteem on loodud eesti–X-sõnastiku projekti raames, see on veebipõhine XML-editor).

V köitega (tk–Y) seotud tööd: (sügisel) alustatakse käsikirja koostamist (T. Lagle, M. Liiv, lepinguga H. Laasi); eesti poole toimetamine (T. Valdre); peatoimetamine (N. Melts).

2005. aastaks taotletud 500 000 krooni, eraldatud 350 000 krooni

Tänapäeva eesti keele baassõnastikud. 2004–2008

Projekt: Eesti-X-keele sõnastik

Projekti juht dr Urmas Sutrop

Projekti täitjad

Jane Lepasaar

Külli Kuusk

Merike Koppel, mag

Margit Langemets, mag

Ülle Viks, dr

Projektiga seotud abitööjõud

Liisi Piits

Eesmärk on koostada ühtne eesti keele alus tulevaste instituudis tehtavate kakskeelsete eesti-X sõnastike jaoks. See sarnaneb paljus ükskeelsele seletussõnastikule, ent lähtub kakskeelse struktuurist ja on palju kompaktsem. Töö käigus valmib universaalse eesti-X sõnastiku põhi (edaspidi EXS), millest hiljem saab teha erinevaid kakskeelseid tulemsõnastikke, aga mida saab kasutada ka uue ükskeelse seletussõnaraamatu alusena.

EXS on:

a) vastete keeles sõltumatu;

b) tulemsõnastiku mahust sõltumatu – iga mahukategooria jaoks oma valikuprintsiibid: märksõnavalik, infovalik (alustada saab ka mingist konkreetsest mahust);

c) elektrooniliselt töödeldav  - kogu info on eksplitsiitselt esitatud korralikult märgendatud (XML-tüüpi) struktuuriüksuste kaupa. EXS kui andmebaas võib sisaldada enam infot kui tulemsõnastikku tegelikult sisse läheb.

EXS toetud EKI akadeemiliste baassõnaraamatute andmestikule ja arvestab uuemaid arenguid sõnavaras, grammatikas ja keelekorralduses. EXS on kõigepealt aluseks uuele eesti-läti sõnaraamatule ja valmib sellega tihedas koostöös.

2003. aastal eraldas riiklik sihtprogramm “Keeletehnoloogia ja EKI sõnaraamatud” projektile 200 000 kr. 2003. a lõpetati märksõnastiku valimine ja koostamine: kokku on EXS andmebaasis 41 075 märksõna, sh 860 ühendit, 514 märksõnavarianti; homonüümseid märksõnu on 647. Koostatud on elektroonilise andmebaasi struktuur ja struktuurikirjeldus. Kogu eesti-X andmebaas on üle viidud XML-Editori.

2004. aasta põhitulemused:

1. Valminud on kakskeelse XML-editori testversioon (Andres Loopmann), mida on rakendatud eesti-X-keele sõnaraamatus (samuti eesti-vene sõnaraamatus). Eesti–X-sõnastiku andmed viidi XML andmebaasi kujule. Loodi sõnastiku XML struktuur ja selle skeem. Loodud rakendus võimaldab veebi kaudu eesti-X-keele sõnaraamatu artikleid koostada ja parandada.

2. Töötati välja süntaktilise info lisamise põhimõtted (sõnaliigid, sõltuvus, semantilised rollid) ja loodi vastavad võimalused ee-X sisestamissüsteemis. Sel teemal ilmus 2004. a lühem ingliskeelne (keeletehnoloogia kallakuga) ühisartikkel (M. Langemets, Ü. Viks), ilmumas on pikem eestikeelne ühisartikkel (M. Mägedi, M. Langemets, Ü. Viks).

3. Alustati süntaktilise ja semantilise info lisamist andmebaasi (M. Mägedi).

Projekti töökava aastaks 2005:

Jätkatakse süntaktilise ja semantilise info lisamist andmebaasi.

2005. aastaks taotletud 250 000 krooni, eraldatud 250 000 krooni

Keelekorraldus ja oskuskeel. 2004–2008

Projekt: Keelekorraldus

Projekti juht Peeter Päll

Projekti täitjad

Tiiu Erelt

Tiina Leemets, mag

Argo Mund

Sirje Mäearu, mag

Maire Raadik, mag

Projektiga seotud abitööjõud

Kaja Kruusmaa

Keelekorralduse eesmärk Eestis on tagada eesti keele kui riigikeele ja ülemaalise suhtluskeele täisväärtuslik funktsioneerimine kõigil elualadel. Selleks on vajalik ajaga kooskõlas hoida keelereeglid, luua uut oskussõnavara, anda nimesoovitusi ja teha heas mõttes keelepropagandat. programmi raames avaldatakse artikleid keelekorralduse aktuaalsetel teemadel.

Käesolev projekt hõlmab keelekorraldust selle kitsamas tähenduses, s.t keele arengu teadlikku suunamist, keelereeglite ja soovituste väljatöötamist (soovitusi annab Emakeele Seltsi keeletoimkond). projekt hõlmab nii üld- ja oskuskeelekorraldust kui ka nimekorraldust. varasematel aastatel on samanimelise projekti alla arvatud ka keelenõu andmine jm, mis kuulub keelehoolde mõistesse. 2004. aastal rahastatakse seda tegevust eeldatavasti eraldi lepinguga Riigikantselei toetusel.

2004. aasta põhitulemused:

1. Keelekorraldusteemalised artiklid ilmusid ajakirjas Keel ja Kirjandus (2), Oma Keel (5) ja Õiguskeel (4). Ilmus kogumik “Keelenõuanne soovitab 3” (sh 8 mujal ilmumata kirjutist) ja Tiiu Erelti “Eesti ortograafia” venekeelne tõlge.

2. Kogumik “Panganduskeel” (autor Maire Raadik) on käsikirjas valmis, trükki toimetatakse 2005. a.

3. Emakeele Seltsi keeletoimkonnale valmistati ette esildis Eesti kohanimede ortograafiaprobleemide kohta (Peeter Päll; suur ja väike algustäht kirjeldavates nimedes, sidekriipsu kasutamine).

4. Oskussõnavara ja -keelt arendati järgmistel aladel: raamatukogundus (Tiiu Erelt), laborimeditsiin (Sirje Mäearu), sõjandus (Peeter Päll), pangandus (Maire Raadik). Tiiu Erelt pidas ettekande terminoloogiatöö vormide kohta TÜ 11.03.2004 nõupidamisel. Ilmus 2003. a terminoloogiakonverentsi ettekannete kogumik.

5. Vastati nimeteemalistele kirjadele, osaleti kohanimenõukogu ja Tallinna nimekomisjoni töös ning isikunimeseaduse arutelul Riigikogu õiguskomisjonis. Täiendati normitud kohanimede andmebaasi (juurdekasv 6596 kirjet, 15 943 nime) ning eesti onomastika bibliograafiat.

Projekti töökava aastaks 2005:

1. Artiklid keelekorraldusteemadel ajakirjades Keel ja Kirjandus, Oma Keel ja Õiguskeel.

2. Kogumik “Panganduskeel” (autor Maire Raadik, toimetatakse trükki 2005. a).

3. Keelekorraldusprobleemide ettevalmistamine Emakeele Seltsi keeletoimkonnale.

4. Eestis toimuva terminoloogiatöö teaduslik ja metoodiline juhendamine. Kaasatöötamine terminikomisjonides.

5. Tegutsemine nimeteadusliku usaldusasutusena: nimekasutuse ekspertiisid; arvamuste ettevalmistamine kohanimenõukogule ja isikunimekomisjonile (Siseministeeriumi juures) ning Tallinna nimekomisjonile. Normitud kohanimede andmebaasi edasiarendamine ja täiendamine.

2005. aastaks taotletud 280 000 krooni, eraldatud 180 000 krooni

Rahvusliku krestomaatilise tähtsusega ülevaated, leksikonid, teatmeteosed Eesti kultuuri kohta. 2004–2008

Projekt: Eesti piiblitõlgete leksikaalne ja grammatiline andmebaas.

Projekti juht dr Kristiina Ross

Projekti täitjad

Kristiina Ross, dr

Urmas Sutrop, dr

Projektiga seotud abitööjõud

Astrid Küüts

Johanna Ross

Heiki Reila

Inge Käsi

Projekt on jätkuks 2003. aasta riikliku sihtprogrammi “Eesti keele ja rahvuslik kultuur” raames sama nime all funktsioneerinud projektile. Projekti eesmärgiks on koostada 16.-18. sajandi eesti piiblitõlgete leksikaalne ja grammatiline andmebaas.

Kogu eesti kirjakeele areng oli oma esimeses faasis suunatud Piibli väljaandmisele, mis sai teoks 1739. aastal. Seega on Piibli tõlkimisel olnud eesti kirjakeele tekkeloos keskne roll. Selles poolteist sajandit väldanud protsessist on publitseerituna olemas tartumurdeline Wastne Testament (1686), põhjaeestikeelne Uus Testament (1715) ja täispiibel (1739) ning peale selle hajali erinevaid periooditõlkeid kirikukäsiraamatutes. Publitseeritud materjalidele lisaks on arhiivides tallel veel mitmeid käsikirjalisi tõlkeid: 1650ndate aastate lõunaeestikeelne Vana Testamendi tõlge J. Gutslaffilt; 1690ndate  aastate põhjaeestikeelne Vana Testamendi tõlge isa ja poeg Andreas ja Adrian Virginiuselt; 1680ndate aastate Pilistvere piiblikonverentsidel toimetatud Uue Testamendi käsikirjad; põhjaeestikeelse Uue Testamendi Müncheni ja Stockholmi käsikiri; 1739. a täispiibli mustandkäsikirjad jms.

Selleks, et saada ülevaatlikku pilti eesti piiblikeele tegelikust kujunemisloost – aga see tähendab, sisuliselt kogu eesti kirjakeele alusversiooni tekkeloost - , on hädavajalik koondada kogu loetletud materjal ühtsesse andmebaasi, mis võimaldaks jälgida tõlke arengut: a) piiblisalmide kaupa; b) originaali sõnadele pakutud leksikaalsete tõlkevastete kaupa, c) tõlkimisel rakendatud grammatiliste kategooriate kaupa, d) grammatilistele kategooriatele antud vormide kaupa. Selleks tuleb kogu materjal sisestada ja märgendada enam-vähem vastavalt samadele põhimõtetele, mille on välja töötanud TÜ vana kirjakeele töörühm. Koostatava andmebaasi eripära seisneb aga selles, et põhirõhk langeb siin tõlketeksti dünaamikale läbi pooleteise sajandi ning teksti tõlkespetsiifikale. Viimasest tingituna tuleb korpus ühendada nii heebrea ja kreeka kui ka saksa ja ladina piiblikonkordantsidega.

2004. aasta põhitulemused:

2004. aastal jätkus materjali sisestamine. 1739. a. trükipiibel on sisestatud algusest kuni Hesekieli raamatuni (inclusive). Virginiuste tõlgitud Vanast Testamendist sisestati järgmised osad: 3 Ms, 4 Ms, 1Sm, 2Sm, Km, Ru. Lisaks neile, varem kavandatud töödele on algusest kuni lõpuni sisestatud Münchenis paikneva Uue Testamendi käsikiri (Saksamaalt tellitud fotokoopia järgi). Kavandatud tehnoloogilised ülesanded jäid 2004. aastal lahendamata, kuna ei õnnestunud leida sobivat programmeerijat.

Projekti töökava aastaks 2005:

2005. aastal on kavas jätkata Virginiuste Vana Testamendi käsikirja sisestamist, lõpetada 1739. aasta trükipiibli sisestamine ning alustada Pilistvere piiblikonvernetsil redigeeritud Uue Testamendi käsikirja sisestamist. Rahaliste võimaluste olemasolul alustatakse ka Stockholmis paikneva Uue Testamendi käsikirja sisestamist (käsikirja fotokoopia laekus hiljuti Rootsi Kuninglikust Raamatukogust TÜ raamatukogusse).Kuivõrd 2004. aastal ei õnnestunud andmebaasi käivitamiseks ja sõnaraamatu koostamiseks vajalikke tehnilisi lahendusi leida, on kavas 2005. aastal palgata selleks tööle eraldi spetsialist (keda loodetakse finantseerida keeletehnoloogia programmi kaudu – vt EKI programmitaotlus tööle „Leksikograafi töövahendid“). Vastava programmi valmimisel alustatakse sisestatud osade töötlemist. Kui palju on võimalik arvuti abil ära teha ja kui suures osas tuleb eesmärgi saavutamiseks planeerida käsitsi tööd, pole praeguse seisuga võimalik prognoosida.

2005. aastaks taotletud 150 000 krooni, eraldatud 115 000 krooni

Keeletehnoloogia. 2004

Projekt: Eesti keele sõnastikud Internetis

Projekti juht dr Ülle Viks

Projekti täitjad

Ülle Viks, dr

Indrek Hein 

Margit Langemets, mag 

Projektiga seotud abitööjõud

Indrek Kiissel  

Andres Loopmann

lepingulised

Projekti eesmärk on teha laiale avalikkusele Interneti kaudu kättesaadavaks Eesti Keele instituudis valminud ja valmivad sõnastikud, mis toetuvad teaduslikule uurimistööle ning sisaldavad kvaliteetset ja ajakohast teavet eesti keele kohta.

Pabersõnastiku kasutamisvõimalused on piiratud: sealt saab infot otsida ainult märksõna kaudu. Elektrooniline verisoon loob täiesti uusi kasutusvõimalusi, nt otsing eri tunnuste järgi ja mitmest sõnastikust korraga, liikumine tekstist sõnastikku ja vastupidi jne. Interneti vahendusel on sõnastikud kättesaadavad väga suurele auditooriumile, kusjuures erinevatele huvigruppidele (lihtlugejad, õppurid, tõlkijad, keeleteadlased jne) saab luua ka erinevad päringuvõimalused.

Plahvatuslikult suurenenud arvutikasutus on muutunud ohtlikuks rahvuskeele säilimisele. Inglise keele sissetungi ei saa peatada manitsustega. Ainus võimalus on luua vastukaal sellessamas keskkonnas – Internetis. Selleks tuleb teha eesti keele teatmematerjalid (sõnastikud, käsiraamatud jms) mugavalt kättesaadavaks igale arvutikasutajale (koolilapsele, professorile, poliitikule, ärimehele jne) ning hoolitseda selle eest, et esitatu oleks parimal võimalikul tasemel.

Internetis olevad sõnastikud ja nendega seotud mitmekesised päringuvariandid loovad uued võimalused eesti keele õppimiseks ja õpetamiseks kõigil keeleõppe tasanditel: põhikoolist doktoriõppeni, nii emakeelena kui võõrkeelena.

EKI sõnastike sattumine Internetti on varem olnud juhuslik. Neid võib leida EKI enda koduleheküljelt http://www.eki.ee/dict/, aga neid on välja pannud ka teised organisatsioonid: Balti Õpingute Instituut http://www.ibs.ee/ibs(estonia/syn/ ,firmad ASE Computers http://www.ase.ee/dict/ ja Festart http://www.festart.ee/est/demos.html ning eelkõige projekt KeeleWeb, mis sai 2. preemia andmebaaside konkursil 1999 http://ee.www.ee

Käesoleva projekti käigus koondatakse senised sõnastikud ühtsesse süsteemi, lisatakse uusi sõnastikke ning luuakse sobiv kasutajaliides, mis arvestab erinevate huvigruppidega ja võimaldab päringuid eri tasemetel. Lähipäring on mõeldud tavakasutajale, kes otsib mingi üksiksõna tähendust või käänamist või tõlkevastet jms. Komplekspäring on nõudlikumale kasutajale, kes vajab keelematerjali uurimistööks või uue sõnastiku koostamiseks või õppekursuse ettevalmistamiseks jne. Komplekspäring eeldab sõnastiku formaliseerimist ja sõnaartikli osade varustamist struktuurimärgenditega.

Töö põhitulemused:

Projekti üldeesmärk oli teha laiale avalikkusele Interneti kaudu kättesaadavaks Eesti Keele Instituudis valminud ja valmivad sõnastikud, mis toetuvad teaduslikule uurimistööle ning sisaldavad kvaliteetset ja ajakohast teavet eesti keele kohta.

Tulemused:

1. Veebisõnastike uue keskkonna (endise KeeleWeb'i asemel) arendamise huvides osales EKI portaali Keelevara (http://www.keelevara.ee/) käivitamise eeltöödes, EKI sõnastike ettevalmistamisel ja testimisel.

2. Interneti jaoks on lihtpäringu tasemel (otsipiirkonnaks märksõna või kogu tekst) ette valmistatud ja Keelevarale üle antud järgmised EKI sõnaraamatud: Eesti keele seletussõnaraamat (kuni märksõnani varjutaluv), ÕS'1999, Õpilase ÕS, Väike murdesõnastik, Eesti-vene sõnaraamat, Vene-eesti sõnaraamat, Inglise-eesti masintõlkesõnastik (ja selle pöördversioon), Maailma kohanimed.

3. Endisest KeeleWeb'ist on EKI kodulehele üle toodud vana Õigekeelsussõnaraamat (1976) (http://www.eki.ee/dict/qs76/).

4. Soome-eesti suursõnaraamatust (I-II Tallinn 2003) on loodud veebiversioon (http://www.eki.ee/dict/soome/)..

5. Valminud on kakskeelse XML-editori testversioon, mida on rakendatud Eesti-vene sõnaraamatus ja osaliselt Eesti-X-keele sõnaraamatus. Eesti-vene sõnaraamatu kolme esimese köite märgistus on täielikult üle viidud XML-standardile ja sõnastikutekst üle kantud XML-andmebaasi.

Keeletehnoloogia. 2005–2008

Projekt: Leksikograafi töövahendid

Projekti juht dr Ülle Viks

Projekti täitjad

Ülle Viks, dr

Margit Langemets, mag 

Andres Loopmann

Indrek Hein 

Kati Sein

Projektiga seotud abitööjõud

Lepinguga programmeerija

Projekti eesmärk on luua eesti leksikograafidele sobivad töövahendid, mis ühilduvad kehtiva rahvusvahelise märgistusstandardiga (XML) ja rakendavad nii universaalseid kui ka eesti keele põhiseid keeletehnoloogia vahendeid: keeletarkvara ja -ressursse. Keeletehnoloogia eri valdkondades on üha rohkem tarvis sisult kvaliteetseid ja hästi formaliseeritud keeleressursse. See aga eeldab kvaliteetsete struktuuripõhiste töövahendite olemasolu selliste ressursside tekitamiseks.

Lähteseis on järgmine.

1. Praeguseks on elektroonilisele kujule viidud suur osa seni Eesti Keele Instituudis loodud leksikaalsetest keeleressurssidest, sh suured baassõnaraamatud, mitmed andmebaasid jms. Digitaliseerimist alustati juba 1977.a ja seetõttu on selles töös läbi aegade kasutatud väga mitmesuguseid vahendeid ja erinevaid põhimõtteid (vastavalt oma aja tehnilistele võimalustele). Nüüdseks on välja kujunenud ühtsed rahvusvahelised standardid (XML-märgistuskeel) ja on loodud nendel põhinevat baastarkvara (nt XML-editor).

2. Eesti keeletehnoloogias on viimasel aastakümnel loodud hulk tekstitöötluse tarkvara (nt morfoloogiline analüüs ja süntees, morfoloogiline ühestamine, süntaktiline analüüs jne) ning keeleressursse (nt märgendatud tekstikorpused, elektroonilised sõnastikud, keeleandmebaasid jne). Nende kasutamine sõnastiku koostamise käigus võimaldaks seda protsessi oluliselt kiirendada ja tõsta töö kvaliteeti.

3. EKI-s on kasutusel poolautomaatne grammatiline kirjegeneraator morfoloogilise info lisamiseks sõnaartiklisse, kuid suurem osa uutest võimalustest on seni rakendamata. Leksikograafias on vaja saavutada uus tehniline tase.

Ülesanded. Leksikograafidel tuleb vähemalt mõnda aega paralleelselt tegelda kahe eri tööga: (a) olemasolevate sõnastike struktureerimise ja standardiseerimisega – et saada kogu varem arvutisse viidud materjal ühtsesse vormingusse – ja (b) uute sõnastike koostamisega, mis oleksid algusest peale tehtud uute nõuete kohaselt. Sellest tulenevalt koosneb leksikograafi töövahendite komplekt kolmest komponendist:

1) olemasolevate sõnastike jaoks: vahendid sõnastiku struktuurianalüüsiks ning teisendamiseks XML-vormingusse;

2) uute sõnastike jaoks: vahendid sõnastiku lähtematerjali (tekstide, leksikograafiliste allikate jne) töötlemiseks, sh teksti eeltöötlus, lemmatiseerimine v morfoloogiline analüüs, näitematerjali valik, ulatuslik sõnastikepäring jne;

3) kõigi sõnastike jaoks: XML-editor, mille põhimoodulid vastavad sõnastiku koostamise etappidele: sisestamine, infopäringud üle sõnastiku, toimetamine, parandamine, küljendus jne; erineva struktuuriga sõnastikutüübid (kakskeelsed, ükskeelsed, tekstipõhised jne) vajavad igaüks oma editori-versiooni.

Projekt on seotud EKI teiste sama programmi projektidega ja selle tulemused on üheks eelduseks kõigi nende edukale valmimisele:

Eesti õigekeelsuse alussõnaraamatud

Eesti kirjakeele seletussõnaraamat

Eesti-vene sõnaraamat

Eesti-X-keele sõnastik

Eesti keele etümoloogiline sõnaraamat

Eesti murrete sõnaraamat

Eesti piiblitõlgete leksikaalne ja grammatiline andmebaas

Projekti töökava aastaks 2005:

1. Ükskeelse XML-editori loomine õigekeelsussõnaraamatu (ÕS 2005) tarbeks: toimetamis- ja parandamissüsteem, küljendusprogrammi liides.

2. Eesti keele sõnaraamatu (ÕS 2005) üleviimine XML-editori: kirjete süntaksi kontroll ja vastavad parandused.

3. Kakskeelse XML-editori testversiooni edasiarendus (katsetused on tehtud Eesti-vene sõnaraamatuga ja Eesti-X-keele sõnaraamatuga).

4. Piiblitõlgete sõnaraamatu koostamisvahendite loomine: teksti eeltöötlus, lemmatiseerimine, sõnaartiklite koostamine.

2005. aastaks taotletud 770 000 krooni, eraldatud 300 000 krooni.

Keeletehnoloogia. 2005–2008

Projekt: Tarkvara rakendused: kõneprosoodia statistiline modelleerimine eestikeelsele tekst-kõne sünteesile

Projekti juht mag Meelis Mihkla

Projekti täitjad

Hille Pajupuu, dr

Meelis Mihkla, mag 

Indrek Kiissel

Projektiga seotud abitööjõud

Jüri Kuusik

Aastatel 1997-2002 töötati välja eesti keele tekst-kõne süntesaator. Tekst-kõne sünteesi laialdast rakendust piirab seni väljundkõne monotoonsus ja kõne halb sidusus. Väljundkõne kvaliteedi eest „vastutab“ suures osas nn prosoodia generaator, mis juhib kõneüksuste kestuste ja häälekõrguse muutumist ajas. Kui praeguse süntesaatori prosoodiageneraator baseerub suures osas nn „laboratoorsel kõnel“ (isoleeritud häälikud, sõnad ja laused), siis antud projektis kasutatakse reaalsest kõnest saadud akustilisi andmeid. Diktorid (20 meest ja 20 naist) loevad ette erinevaid tekstitüüpe (ilukirjandus, uudised, neutraalsed tekstid), nende salvestistest mõõdetakse kõneüksuste kestusi. Teksti ja kõne üks-ühese vastavuse põhjal saab prosoodia sümbolesituselt üle minna akustilisele ning samuti tuvastada kas ja kuivõrd on teksti struktuur seotud kõne prosoodilise liigendusega. Kõne ajalise struktuuri modelleerimisel võetakse aluseks Sagisaka-Campbelli mitmetasandiline statistiline mudel, mis seostab reaalse kõne erinevatel tasanditel üksuste (häälikud, silbid, sõnad, fraasid) akustiliste tunnuste väärtusi teksti tunnustevektoriga. Projekti esimesel etapil modelleeritakse häälikute, pauside ja pausieelsete pikenduste kestusi kõnes. Häälikute kestuste modelleerimisel analüüsitakse statistilistel meetoditel (üldistatud regressioonanalüüs, neuronvõrgud) häälikute kestusi sõltuvalt kontekstist ja luuakse reeglid kestuste prognoosimiseks. Sünteeskõne loomuliku kõnerütmi tagamiseks uuritakse pause ja pausieelseid pikendusi kõnes. Kõnetempo mõju häälikute kestustele uuritakse Küberneetika Instituudi tempokorpuse akustiliste mõõtmiste alusel. Projekti teisel etapil modelleeritakse intonatsiooni ja uuritakse kõne prosoodilise liigenduse ja teksti süntaktilise liigenduse ühilduvust kõnesünteesis. Põhitooni modelleerimisel on andmetena aluseks põhilised samad suulise kõne korpused, lisaks Eesti Keele Instituudi lausetüüpide modelleerimisandmed. Modelleerimisel rakendatakse E.-L. Asu väljatöötatud eesti keele intonatsioonigrammatika teoreetilisi tulemusi. Lause süntaksi ja prosoodia ühildamiseks planeeritakse kasutada projekti teisel etapil TÜ arvutuslingvistika töörühma poolt väljatöötatavat süntaksianalüsaatorit. Projekti lõppeesmärgiks on luua kõneprosoodia genereerimise tarkvaramoodul täiustatud eestikeelsele tekst-kõne sünteesile.

Projekti töökava aastaks 2005:

1. Prosoodia kõnekorpuse täiendamine 10 diktori lindistustega. Uue materjali kõnevoo segmenteerimine häälikuteks.

2. Pauside ja piirieelsete pikenduste kestuste ja nende asukoha modelleerimine üldistatud regressioonanalüüsi põhjal, et sünteeskõne rütmi loomuliku kõnele vastavaks muuta.

3. Häälikukestuste modelleerimine regressioonanalüüsil ja neuronvõrkude baasil optimaalse prognoosimudeli väljatöötamiseks.

2005. aastaks taotletud 275 000 krooni, eraldatud 150 000 krooni.