Keeletehnoloogia ressursid: AVALEHEKÜLG  ·  TUTVUSTUS  ·  PROJEKTID  ·  TARKVARA  ·  DEMOD  ·  LINGID  

Eesti keeletehnoloogia arenduskava

Versioon 2 (10.02.2000)

Koostajad: Haldur Õim
Heiki-Jaan Kaalep
Einar Meister

Täiendused ja parandused: e-post Einar Meister

Tartu 2000


SISUKORD

1. Sissejuhatus
2. Keele roll infoühiskonnas
3. Keeletehnoloogia olemus
3.1. Keeletehnoloogia rakendusvaldkonnad
3.1.1. Kirjutaja abivahendid
3.1.2. Dokumenditöötlus
3.1.3. Tõlkijate abivahendid ja lokaliseerimine
3.1.4. Masintõlge
3.1.5. Keeleõpe arvuti abil ja sõnaraamatud
3.1.6. Loomulikku keelt võimaldavad kasutajaliidesed
3.1.7. Kõnetehnoloogia
3.2. Uurimistöö põhiprobleemid
3.2.1. Kirjaliku keele töötlemise etapid: sõnadest tähenduseni
3.2.1.1. Sõnavormide analüüs
3.2.1.2. Grammatiline analüüs
3.2.1.3. Semantiline analüüs
3.2.2. Suulise keele töötlus
3.2.2.1. Kõnesüntees
3.2.2.2. Kõnetuvastus
3.2.2.3. Kõnelejatuvastus
3.3. Keeleressursid
3.3.1. Tekstikorpused
3.3.2. Kõnekorpused
3.3.3. Sõnastikud
4. Keeletehnoloogia Eestis: mis tehtud
4.1. Uurimiskeskused
4.2. Arendustöö erafirmades
4.3. Uurimistöö põhiprobleemid
4.3.1. Kirjaliku keele töötlus
4.3.2. Suulise keele töötlus
4.4. Keeletehnoloogia rakendused
4.5. Keeleressursid
4.5.1. Tekstikorpused
4.5.2. Kõnekorpused
4.5.3. Sõnastikud
4.6. Eesti keeletehnoloogia sihtprogramm 1997-1999
4.7. Spetsialistide ettevalmistus
4.8. Keeletehnoloogia kasutajad
5. Keeletehnoloogia Eestis: kuidas edasi
5.1. Arendus- ja uurimistööd
5.1.1. Kirjutaja abivahendid
5.1.2. Dokumenditöötlus
5.1.3. Tõlkijate abivahendid ja masintõlge
5.1.4. Keeleõpe arvuti abil ja sõnaraamatud
5.1.5. Loomulikku keelt võimaldavad kasutajaliidesed
5.1.6. Kõnesüntees
5.1.7. Kõnetuvastus
5.1.8. Kõnelejatuvastus
5.2. Keeleressursid
5.2.1. Tekstikorpused
5.2.2. Kõne andmebaasid
5.3. Seadusandlus
5.4. Haridus/õpetus
5.5. Keeletehnoloogia rolli ja temaatika tutvustamine
5.6. Ühinemine Euroopa Liiduga, rahvusvaheline koostöö
5.7. Eesti keele ja kultuuri arengu soodustamine
6. Lisamaterjalid


Sissejuhatus

Keeletehnoloogia on infotehnoloogia osa, mis tegeleb inimkeele töötlusega. Keeletehnoloogia haarab nii kirjutatud kui ka suulise keele töötlust infotehnoloogilises keskkonnas. Seoses kogu maailma ja ka Eesti liikumisega infoühiskonna suunas kasvab pidevalt ka keeletehnoloogia roll. Euroopa Liit (EL) on tunnistanud oma prioriteediks Euroopa keelelise ja kultuurilise mitmekesisuse säilitamise. Infoühiskonna kontekstis tähendab see seda, et iga rahvuskeele jaoks tuleb luua keeletehnoloogilised ressursid ja -vahendid, mis tagavad kõigile keeltele võrdsed võimalused suhtlemiseks infotehnoloogilises keskkonnas. Keeletehnoloogial on ühtlasi eriline roll puuetega inimeste suhtlemis- ja tööhõive probleemide lahendamisel.

Keeletehnoloogia on üks ELi prioriteete, mida toetatakse mitmete programmide kaudu. Lisaks ELi programmidele, on mitmetes Euroopa riikides käivitatud rahvuslikud keeletehnoloogia arendusprogrammid. Ka Eestis on ellu kutsutud keeletehnoloogia sihtprogramm, mille kaudu on finantseeritud mitmeid arendusprojekte. Kuna eestikeelne turg on liialt väike tekitamaks erafirmade huvi investeerida spetsiaalselt eestikeelsete tarkvaratoodete väljatöötlusse, siis on paratamatult vajalik riigipoolne toetus keeletehnoloogia arendamiseks. Vastasel juhul jäävad paljud eestikeelsed tooted majanduslikel põhjustel lihtsalt loomata ja eestikeelne suhtlemine infoühiskonnas osutub piiratuks. Selle tulemuseks võib kaugemas perspektiivis olla eesti keele väljatõrjumine mitmetest eluvaldkondadest. Seda ohtu kinnitab ka firma Microsoft prognoos, mille kohaselt keeled, mida ei toetata elektrooniliselt, surevad tasapisi välja.

Eesti keeletehnoloogia arenduskava koostamine on vajalik keeletehnoloogia rolli teadvustamiseks infoühiskonnas, eesti keelele teiste keeltega võrdsete võimaluste loomiseks seoses Eesti eelseisva ühinemisega ELiga ja sellest tulenevate tegevuste (korralduslike, uurimuslike, hariduslike, tehnoloogiliste, jne.) teostamiseks vajalike ressursside planeerimiseks ja juhtimiseks.

Mitmed Eesti teadusasutused (TÜ, EKI, Küberneetika Instituut) on osalenud reas ELi keeletehnoloogiaprojektides COPERNICUS-programmi raames, samuti 4. raamprogrammis (EuroWordNet), eeldatavasti osaletakse ka 5. raamprogrammi projektides. Selle tulemusena on loodud mitmeid olulisi keeleressursse ja, mis peamine, omandatud vajalikud teadmised, kogemused ning kontaktid keeletehnoloogiliseks tööks. Kuid osalemine sellistes projektides ei asenda oma rahvuslikku keeletehnoloogia-alast sihipärast tööd, mis kulgeb kindla kava järgi ja võtab arvesse meie spetsiifilised vajadused ja võimalused.

2. Keele roll infoühiskonnas

Käesoleva sajandi lõpukümnendeil toimuv personaalarvutite ja Interneti ülikiire levik on pöördeliselt muutnud inimühiskonna arengut. Infotehnoloogia areng on olnud peadpööritav ja digitaalse informatsiooni hulk on kasvanud plahvatuslikult. Üha suurem osa uutest töökohtadest on seotud informatsiooni tootmise ja haldamisega. Suurem osa sellest informatsioonist on esitatud keelelisel kujul. Ligikaudseil hinnanguil on 80% Internetis levivast informatsioonist inglisekeelne. Inglise keele domineerimine piirab nende inimeste juurdepääsu informatsioonile, kes ei oska seda keelt ja loob eelised neile, kelle emakeeleks on inglise keel või kes on seda piisavalt õppinud. Keelebarjäärid on tõsiseks takistuseks informatsiooni levikul ja töötlemisel. Kuigi võõrkeelte oskus on saanud paljudele töökohtadele kandideerimisel loomulikuks eeltingimuseks ja inglise keel on kujunenud miljonitele inimestele teiseks töökeeleks, oleks loomulik, et igaüks, sõltumata tema emakeelest, omaks võrdseid tingimusi osasaamiseks infoühiskonna võimalustest.

Keeletehnoloogia ülesandeks ongi luua sellised ressursid ja vahendid, mis tagavad kõigile keeltele võrdsed võimalused suhtlemiseks ja tööks infotehnoloogilises keskkonnas.

3. Keeletehnoloogia olemus

Keeletehnoloogia on keelealaste teadmiste rakendamine paremate arvutisüsteemide loomiseks:

Keeletehnoloogia annab meile vahendid, et laiendada ja parandada keele kasutusvõimalusi. Ta tugineb seejuures meie teadmistele keelest ja keele funktsioneerimise põhimõtetest, mis on saadud varasema uurimistöö käigus.

Keeletehnoloogia sisaldab kahte olulist komponenti: tehnoloogilised lahendused ja keeleressursid; neid mõlemaid kasutatakse praktiliste rakenduste loomiseks.

Tehnoloogilised lahendused on meetodid, algoritmid ja programmid erinevate ülesannete lahendamiseks nii dokumenditöötluses (õigekirjakontroll, poolitus, optiline tekstituvastus e OCR (paberil esitatud teksti automaatne teisendamine elektrooniliseks)), kõnesünteesis, kõne- ja kõnelejatuvastuses, info-otsingus.

Keeleressursid on arvutikeskkonnas töödeldavad lähtematerjalide ja keeleliste teadmiste kogumid, mis on hädavajalikud erinevate tehnoloogiliste lahenduste väljatöötamiseks ja testimiseks: leksikonid (elektroonsed sõnastikud, terminoloogiabaasid), formaliseeritud grammatikad (erinevad keele struktuuri kirjeldused), korpused (kõnesignaalide ja tekstide kogumid).

3.1 Keeletehnoloogia rakendusvaldkonnad

3.1.1 Kirjutaja abivahendid

Siia alla kuuluvad mitmed laialt kasutatavad asjad. Üks elementaarsemaid on sõnade automaatne poolitus, nt. plekk/trumm, mitte plekkt/rumm. Poolitus tugineb keele hääliku- ja silbistruktuuri ning sõnavara tundmisele. Õigekirja kontroll omakorda tugineb suurtele sõnaraamatutele, sõnamuutmisreeglitele, liitsõnade ja tuletiste moodustamise reeglitele, grammatikareeglitele ja suurtele tekstikorpustele. Kontrolli käigus leitud vigade parandamine tugineb lisaks veel teadmistele tõenäolistest veatüüpidest. Siia valdkonda kuulub ka võimalus pöörduda tesauruse vm. sõnastiku poole otse tekstis oleva sõnavormi peale klõpsates, ilma et peaks leidma enne algvormi, nt. poest peale klõpsates saame vasteks sõna pood sünonüümid, nt. kauplus.

Kirjutaja abivahendid on kõige vanem ja levinuim keeletehnoloogia valdkond, aga valdkonna kõiki võimalusi pole veel kaugeltki realiseeritud.

3.1.2 Dokumenditöötlus

See on lai valdkond, kuhu kuulub mitmeid keeletehnoloogia komponente. Neist olulisemad on info-otsimine, dokumendi keele tuvastamine, dokumentide liigitamine, kokkuvõtete tegemine, hüperteksti ja viitade automaatne genereerimine, terminikogude loomine ja terminoloogide abivahendid.

Info ja dokumendihalduses ning info-otsingus kasutatakse enamasti üksikute sõnade töötlemiseks sobivaid keeletehnoloogilisi võtteid, mis on osalt samasugused kui kirjutaja abivahendeis. Kuna suur osa info-otsimise meetoditest ja tarkvarast on pärit inglise keelt kõnelevatest maadest, siis ei ole neis arvestatud probleeme, mis tekivad sõnade käänamisest ja pööramisest, liitsõnade moodustamisest ja sõnatuletusest. Need probleemid on omased just rikka morfoloogiaga keeltele nagu eesti, soome, türgi jms. Nende ignoreerimine muudab otsimise ebatäpsemaks, nt. otsisõna pood ei võimalda leida vorme poes ja poest. Keeletehnoloogia pakub siin mitmeid lahendusi, mida saab kasutada nii täpsete kui hägusate (fuzzy) otsimismeetodite puhul. Morfoloogilise analüüsi abil on võimalik leida sõnade algvormid ja liitsõnade osasõnad ning koostada neist indeks, mida info-otsimisprogrammid kasutavad. Nii saab päringuga katus otsida ka plekkkatust. Selleks otstarbeks saab kasutada nt. Filosofti lemmatiseerijat e. algvormide leidjat. Teine võimalus on moodustada kasutaja antud päringusõnast kõik sõnavormid ja siis neid kõiki tekstidest otsida, st tuleb kasutada morfoloogilist sünteesi. Probleemiks on mõlemal juhul see, et nii sõnad kui nende vormid on mitmeti tõlgendatavad, millest üle saamiseks tuleb arvestada ka sõnade konteksti.

Dokumente on võimalik neis sisalduvate sõnade alusel ka liigitada. Seejuures kasutatakse valdavalt statistilisi meetodeid, mis on algselt mõeldud inglise keele jaoks, kuid mida saab kasutada ka morfoloogiliselt keerulisemate keelte korral, kui sõnad algul viia algvormide kujule. Kui võrrelda kahte dokumenti neis sisalduvate sõnade esinemissageduste põhjal, siis algvormide põhjal tehtud statistika annab enamasti parema tulemuse kui sõnavormide peal tehtu. Nt. laused Parlamendis vaieldi valitsuse eelnõu üle ja Valitsus pani oma eelnõuga parlamendi vaidlema kirjeldavad tõenäoliselt sama asja. Seda on ilmselt raske automaatselt leida, kui sõnad pole enne taandatud algvormideks.

Samal moel võib läheneda ka dokumentidest kokkuvõtete tegemisele, kus proovitakse automaatselt eristada need dokumendi osad, kus arvatakse olevat dokumenti kõige täpsemalt iseloomustav tekst. Raamatust indeksisse minevate terminite automaatne valik on samuti juba vana ülesanne, mida saab lahendada automaatselt. Uusim terminite äratundmise kasutusala on automaatne linkide tekitamine hüperteksti. Viimatinimetatud kasutusala puhul on õieti tegemist tähendustega; kuid tehniline lähenemine annab küllalt täpseid tulemusi, kui vastab tõele eeldus, et sõnade esinemine peegeldab tähenduste esinemist.

Keeletehnoloogiat saab info-otsimises kasutada ka sel moel, et kasutatakse olemasolevaid sünonüümisõnastikke või tesauruseid alam- ja ülemmõistetega, et otsitakse tekstist sageliesinevaid ja püsivaid väljendeid, et eraldatakse lause analüüsi käigus väljendite kesksed osad vähemtähtsatest või kasutatakse konteksti, et mitmetitõlgendatavust vähendada.

Keeletehnoloogiliste rakenduste hulka kuulub ka ükskeelsete ja mitmekeelsete sõnastike kasutamine päringute tegemisel. Ükskeelsed sõnastikud, nt. sünonüümisõnastik ja WordNet-tüüpi andmebaas pakuvad variante, mida lisaks esialgsele otsi-terminile kasutada. Nii saab sõnastikku kasutada algse päringu automaatseks või pool-automaatseks laiendamiseks, mis võib oluliselt otsimistulemust parandada. Mitmekeelse sõnaraamatu abil saab ühendada info-otsimist mitmetest erikeelsetest dokumendikogumikest. See on just viimasel ajal muutunud oluliseks uurimisalaks ja selle tähtsust tõstab Euroopa ühinemine.

3.1.3 Tõlkijate abivahendid ja lokaliseerimine

Lisaks arvutile toetuvatele tõlkeprogrammidele kuuluvad siia alla mitmesugused töövahendid terminoloogia haldamiseks ja elektroonilised sõnaraamatud. Need võivad olla nii tavalised arvuti-vahendid kui programmid, mis sisaldavad keeletehnoloogiat. Tõlkimine on nt Euroopa Ühenduse valitsusala suurim kuluartikkel, mis annab tööd tuhandetele tõlkidele. Arvutile toetuvad tõlkeprogrammid jagunevad laias laastus sõnastiku-põhisteks, tõlkemälu-põhisteks ja nn. tõelisteks masintõlkeprogrammideks. Sõnastiku-põhised programmid oskavad pakkuda lähtetekstis olevale sõnale konteksti sobivat vastet sihtkeeles. Tõlkemälu-põhised säilitavad mälus varem tõlgitud lähte- ja sihttekstid. Uut teksti tõlkides otsitakse mälust võimalikult sarnane varemtõlgitud tekstiosa ja pakutakse selle varemtehtud tõlget ka uude tõlkesse. Nn. tõelised masintõlkeprogrammid tõlgivad varem mitte kohatud lauseid: algul nad analüüsivad lähteteksti, siis tõlgivad sõna-haaval, kasutades oma sõnastikku, ja viimaks moodustavad sihtkeele lause, tuginedes grammatikareeglitele.

3.1.4 Masintõlge

Seni on masintõlke suurim puudus võrreldes inimese tehtud tõlkega see, et masin ei saa tekstist aru ega tea, mille jaoks tõlget tehakse. Tänapäeva nn tõelised masintõlkeprogrammid põhinevad transfer-meetodil, kus masin teisendab teksti osalausete kaupa, grammatikat ja kakskeelset sõnastikku kasutades. Sellest tuleneb, et tõlge on parimal juhul üsna sõna-sõnaline. Selleks, et masin oskaks paljudest võimalikest tõlkevariantidest valida konteksti sobivat, tuleb teda reguleerida ehk tema grammatika ja sõnastik sobitada tõlgitava teksti tüübi ja valdkonnaga.

Teksti mõistmiseks tuleb mõnikord lähtekeele kompaktne teade jagada üksikuteks väideteks ja moodustada neist väljundkeelele omane liitlause. Seda tänapäeva masintõlkesüsteemid ei suuda, vähemalt mitte eriti loovalt.

3.1.5 Keeleõpe arvuti abil ja sõnaraamatud

Seni on keeleõppeprogrammides ja elektroonilistes sõnaraamatutes kasutatud enamasti traditsioonilist arvuti-tehnoloogiat, kuid võiks lisada ka keeletehnoloogilisi rakendusi.

Keelekursustel pööratakse sageli põhitähelepanu õpitava keele sõnavara ja grammatika õpetamisele, korrektse häälduse õpetamine on sageli ebapiisav. Kasutades kõnesignaalide analüüsivahendeid on võimalik luua võõrkeelse häälduse hindamise ja treenimise süsteeme, mis koos vastava treeningmetoodikaga aitavad omandada võõrkeelt aktsendivabalt.

Elektrooniliste sõnaraamatute uued põlvkonnad juba sisaldavad keeletehnoloogia elemente (algvormide leidmist, fraaside automaatset leidmist tekstist jm).

3.1.6 Loomulikku keelt võimaldavad kasutajaliidesed

See on omaette lai valdkond, peamiselt seotud andmebaasidega.

Eriti pakuvad huvi kõnetuvastust kasutavad dialoogsüsteemid. Need on leidnud kasutamist kindlalt piiritletud valdkondades, näiteks infootsing telefonikataloogist, lennukite ja reisirongide sõiduplaanidest ning piletite reserveerimine. Reaalselt töötavad sellised infosüsteemid Inglismaal (British Airways lendude info ja piletite reserveerimine), Prantsusmaal (telefoni kataloogi kollaste lehekülgede info), Saksamaal (reisirongide info ja piletite reserveerimine), Itaalias (reisirongide info ja piletite reserveerimine), Hollandis (teatripiletite reserveerimine), Rootsis (Stockholmi turismiinfo).

Viimastel aastatel on see valdkond arenenud kiiresti ja on muutumas järjest populaarsemaks.

3.1.7 Kõnetehnoloogia

Suur kasutajate ring on mitmesuguste puuetega inimesed, põhiliselt pimedad ja kurdid, kelle suhtlemis- ja tööprobleemide lahendamisele aitaksid kaasa mitmed keeletehnoloogia vahendid. Pimedad kasutavad kõnesünteesi programmi, mis võimaldab ette lugeda arvutis leiduvat ja Internetist saadavat tekstikujulist informatsiooni. Kõnesüntesaator ja skanner koos optilise tekstituvastuse programmiga moodustavad lugemismasina, mille abil saab ette lugeda paberkandjale trükitud teksti.

Kõnesüntesaator on vajalik ka kõnepuuetega inimestele suhtlemiseks tavainimestega (enamik inimesi ei oska viipekeelt).

Kurtide inimeste kõnelema õpetamisel on palju abi kõneanalüüsi vahenditest, mis esitavad erinevaid kõneparameetreid visuaalselt arvutiekraanil. Kurtide inimeste kõnevõime on piiratud just selle tõttu, et neil puudub kõneproduktsiooni juhtiv akustilise tagasiside kanal. Seetõttu on nende kõne ebaloomulik ja sageli tavainimesele arusaamatu. Kui kurtidele esitada nende kõnest leitud parameetrid koos lubatud muutumispiiridega visuaalselt, siis on neil võimalus õppida paremini koordineerima oma kõneorganite tööd ja siis muutub ka nende kõne tavainimesele arusaadavamaks.

3.2 Uurimistöö põhiprobleemid

3.2.1 Kirjaliku keele töötlemise etapid: sõnadest tähenduseni

3.2.1.1 Sõnavormide analüüs

Keeletehnoloogilised võtted, mida kirjaliku teksti töötlemisel kasutatakse, ühendavad suurt hulka keelega seotud teadmisi ja matemaatikat, nt. automaatide teooriat. Kuna inimkeel ei ole mingi väike ega lihtne käsitlusobjekt, on vaja kasutada küllalt võimsaid vahendeid. Nt. eesti keele lihtsõnu sisaldav Ülle Viksi "Väike vormisõnastik" võimaldab 35 000 sõna põhjal moodustada miljon sõnavormi, kui lisada aga võimalikud liitsõnad ja tuletised, siis ulatub võimalike sõnavormide arv miljarditesse.

Sõnavormide analüüs on osutunud siiski piiritletud ja üsna hästi lahendatavaks ülesandeks. Praeguseks on sõnavormide analüüs realiseeritud sõnastike ja reeglite kombineerimise teel. Kuigi sõnavorme on palju, on nende moodustamine küllalt reeglipärane. Sõnavormide analüüsiprogrammi ehk morfoloogilise analüsaatori tegemine on mõne inimaasta suurune töö.

3.2.1.2 Grammatiline analüüs

Kirjaliku teksti lauseliikmete määramine või muu mitut sõna haarav lause- või tekstiosa käsitlemine eeldab üldiselt morfoloogilist analüüsi. Sõnavormid on sageli mitmetähenduslikud, mis jääb grammatikate koostajatel tihti kahe silma vahele. Nt. ingliskeelne sõna left võib olla nii tegusõna kui omadussõna. Eesti keeles mees võib olla nii mees ainsuse nimetav kääne kui mesi ainsuse seesütlev. Sõnavormide homonüümiat esineb kõikides keeltes, aga eri ulatuses. Eesti keeles on umbes 40-50% tekstis esinevatest sõnavormidest mitmeti mõistetavad.

Mitmeti mõistetavate sõnavormide hulgast õige valimine ehk ühestamine on üsna hästi lahendatav probleem, kui arvestatakse sõnade naabrust ehk konteksti. Nt. piisab inglise keele puhul sõnapaarist he left, et otsustada, et tegu on tegusõnaga, või eesti keeles suur mees, et teada, et tegu ei ole meega. Ühestamist võib teha nii statistiliste meetoditega, nt. MVM (Markovi varjatud mudel, ingl k. HMM, st. Hidden Markov model) kui ka reeglite abil. Ehkki pole teada ühtegi ühestajat, mis leiaks ainsa sobiva analüüsi kõigile sõnavormidele, on mitmete keelte jaoks olemas ühestajaid, mis suudavad seda anda 95% sõnadele.

Süntaktilist analüüsi võib teha eri põhjalikkusega. Kõige pealiskaudsema analüüsi puhul püütakse leida vaid osa sõnade vahelistest suhetest, nt. millised on nimisõnafraasid ja milline on iga fraasi peasõna. Palju keerulisem on luua analüsaator, mille poolt tehtud analüüs on nii täielik, et selle põhjal võib mõista lause sisu või tõlkida lause teise keelde. Esimest liiki analüüsi võib nimetada pindanalüüsiks, teist aga süvaanalüüsiks. Pindanalüüs on keerulisem kui ühestamine, kuid on siiski suhteliselt hästi tehtav.

Pindanalüüsi puhul jääb lauseehituse mõistmine puudulikuks. Nt. ingliskeelsest lausest I saw the man on the hill with a telescope selguks, et ma nägin meest ja et mees või teleskoop oli künkal ja et teleskoop on seotud künka, mehe või minuga. Eri tõlgendused annaksid erinevad tõlked eesti keelde. Kõige pindmisem süntaktiline analüüs leiaks lausest neli nimisõnafraasi: I, the man, on the hill ja with a telescope. Veidi sügavama analüüsi puhul määratakse esimene fraas subjektiks, teine objektiks ja mõlemast fraasist leitakse fraasi peasõna.

Pindanalüüsi saab kasutada muu hulgas õigekeele kontrollimiseks (grammatika kontrollija), terminoloogi töövahendina, keeleõppeprogrammides, info-otsimisprogrammides, aga ka parandada muude, sõna tasemel töötavate programmide kvaliteeti.

Üldtuntud ja põhjalikult läbiuuritud ning formaliseeritud grammatikateooriate (transformatsiooniline grammatika, LFG, GPSG, HPSG, GB) eesmärgiks on lause nii peen analüüs, et selle põhjal saaks mõista lause tähendust ja sellega seoses ka sõnadevahelisi suhteid ja mõjusid. Nii täielikku grammatilist analüüsi on siiski ülimalt raske realiseerida täiesti ühetähenduslikult. Lahendamata jäävad terved konstruktsioonitüübid, nt. saabusid tema välismaal elavad vanemad ja õed, sest siit me ei saa teada, kus õed elavad. Seega tekst ei sisalda alati õige tähenduse või tõlke valimiseks vajalikku informatsiooni. Sellise taseme lauseanalüüsi on uuritud ja arendatud muis mais juba aastakümneid erinevate lingvistiliste teooriate alusel, kuid veel ei paista silmapiiril lõplikku lahendust ega ole praegu isegi ühtegi üldaktsepteeritud teed lahenduse suunas. Mõnede meetodite puhul tekib palju alternatiive, mõnede puhul ei kata grammatika tekstis ette tulevaid lauseid küllaldaselt ja mõned analüsaatorid oletavad, tehes seejuures vigu.

Kõrgekvaliteedilise süntaktilise analüsaatori puudumine on tähelepanuvääriv asjaolu, sest selle abil oleks võimalik luua küllalt hea masintõlkesüsteem. Paljud muudki keeletehnoloogilised probleemid laheneksid kvaliteetse süntaktilise analüüsi olemasolul.

Süntaksi analüüsi kasutamine täistekstidel põhinevates info-otsisüsteemides võimaldaks oluliselt tõsta otsingu täpsust, kõnesünteesis aga kõne loomulikkust. Süntaksianalüsaator oleks efektiivne ka tavalistes tekstitöötlusprogrammides, võimaldades automaatselt kontrollida teksti grammatilist korrektsust. Samuti on süntaktiline analüüs eeletapiks teksti semantilisele analüüsile.

3.2.1.3 Semantiline analüüs

Juba lausestruktuuride ühene tuvastamine eeldab sõnade ja neist moodustatud konstruktsioonide tähenduste arvestamist. Näiteks traktori nahast kate on süntaktiliselt vähemalt kaheti analüüsitav, kuid semantika praktiliselt välistab analüüsi ((traktori nahast) kate), jääb (traktori (nahast kate)).

Lause- ja fraasisemantika on siiski ka keeleteaduses eneses alles lahendusi otsiv ala, eriti mis puudutab tähenduste formaalset esitamist (mida arvutianalüüs eeldab). Töötavaid lahendusi on olemas vaid kitsamate ainevaldkondade jaoks, mida ka kasutatakse nt semantiliselt orienteeritud infootsisüsteemides.

Kuid ka üksiksõnade tähenduste käsitlemine ja arvestamine keeletehnoloogilistes rakendustes võib neile rakendustele oluliselt efektiivsust lisada, ja siin on tulemused märksa paremad. Tuntuim on nn leksikaalsete või semantiliste andmebaaside kasutamine nt dokumendiotsingus või ka dokumentide koostamisel.

Niisuguses andmebaasis ei ole küll sõnade tähendused üheselt defineeritud, kuid on fikseeritud teatud (vastava rakenduse jaoks olulised) tähenduslikud seosed sõnade vahel: sünonüümia e samatähenduslikkus, hüpo- ja hüperonüümia (auto on liiklusvahendi üks hüponüüme; liiklusvahend on auto, bussi jne hüperonüüm), osa-terviku seosed (mootor on auto üks osi) jne.

3.2.2 Suulise keele töötlus

3.2.2.1 Kõnesüntees

Kui kõne oleks kirjeldatav nii nagu trükitud tekst — elementaarsümbolite jadana, siis oleks kõne tuvastus ja süntees lahendatud vähemalt paar aastakümmet tagasi. Kahjuks (uurijate õnneks!) on kõne olemus teistsugune: koartikulatsioon liidab häälikud keeruliseks akustiliseks kontiinumiks, kus häälikult-häälikule üleminek sisaldab sageli rohkem informatsiooni kui häälikud ise. See on ka üheks põhjuseks, miks vaatamata suurtele pingutustele ligi 40 aasta jooksul on suvalise teksti teisendamine arusaadavaks ja loomuliku kõlaga kõneks lõplikult lahendamata probleem ja aktiivse uurimise teema.

Tekst-kõne sünteesi eesmärgiks on teisendada ortograafiline tekst loomuliku kõlaga kõneks. Selleks on vajalikud järgnevad etapid:

Artikulatoorne süntees baseerub kõneproduktisooni füsioloogilisel mudelil ja kõnetraktis hääle tekkimise füüsikalisel kirjeldusel: modelleeritakse inimese suu, kõri jm tegevust kõnelemise ajal. Need süntesaatorid on praktiliseks rakenduseks sobimatud, kuna sünteesitava häälelaine arvutamine ei ole teostatav reaalajas. Samas on artikulatoorsetel mudelitel oluline roll kõneproduktsiooni mehhanismide teoreetilisel uurimisel;

Formantsüntees: kõnesünteesi formantmudelid baseeruvad kõnesignaali akustilis-foneetilisel kirjeldusel. Baasmudel koosneb allikast ja filtrist, kusjuures allikas modelleerib häälekurdude võnkumist ja filter kõnetrakti resonantssagedusi — formante. Nii allika kui filtri parameetreid juhitakse erinevate foneetiliste reeglite alusel. Kasutades formantmudelit, on realiseeritud kõrge sünteeskõne kvaliteediga süntesaatoreid erinevate keelte jaoks. Eestis on erinevaid formantsüntesaatoreid välja töötatud Küberneetika Instituudis ja Eesti Keele Instituudis.

Kompilatiivne süntees baseerub naturaalkõnest väljalõigatud signaalilõikude (difoonide, trifoonide, silpide, jm.) sobival ühendamisel. Kompilatiivsünteesiks koostatakse kompileeritavate segmentide andmebaas, mis kajastab enamikku sünteesitava keele fonoloogilisi iseärasusi. Sünteesiprotsessis valitakse andmebaasist sünteesitavale tekstile vastavad segmendid ja ühendatakse spetsiaalse signaalitöötlusalgoritmi abil ühtseks lauseks. Tulemuseks on kõrgekvaliteediline sünteeskõne.

3.2.2.2 Kõnetuvastus

Automaatse kõnetuvastuse ülesandeks on mikrofoni kaudu arvutisse sisestatud kõnesignaali teisendamine tekstiks. Kõnetuvastus on väga keeruline ülesanne, sest kõnet mõjutavad paljud tegurid:

Kõnetuvastus sisaldab endas palju erinevaid ülesandeid, olulisemad on järgmised:

Kõnetuvastussüsteemide iseloomustamiseks ja võrdlemiseks kasutatakse järgmisi parameetreid:

Kõnetuvastussüsteeme on välja töötatud enamike suuremate keelte (inglise, prantsuse, saksa, hispaania, itaalia, hiina, jaapani jt.) jaoks, sõnastiku suurus ulatub juba üle 100000 sõna, tuvastuskorrektsus on parematel süsteemidel ca. 95%.

3.2.2.3 Kõnelejatuvastus

Kõnelejatuvastuse ülesandeks on kõneleja isiku kindlakstegemine tema kõnehääle alusel. Automaatse kõnelejatuvastuse eelduseks on tuvastatavate isikute kõnemudelite loomine ja salvestamine arvutis. Eristatakse kahte põhilist ülesannet:

Kõnelejatuvastust rakendatakse salastatud andmetele juurdepääsu reguleerimiseks, pangaoperatsioonide teostamisel. Võrreldes teiste biomeetriliste tunnustega (sõrmejälg, näoprofiil, jne.), on kõnehääl kasutatav ka telefoniteenuse puhul.

3.3 Keeleressursid

Loomuliku kõne ja keele uurimisega tegelejad on jõudnud arusaamisele, et töökindlate ja tõhusate keeletoodete areng sõltub otsustavalt sellest, kui kättesaadavad on suured adekvaatsed keeleressursid: elektroonilised sõnastikud, formaliseeritud grammatikakirjeldused, terminoloogiabaasid, teksti- ja kõnekorpused.

3.3.1 Tekstikorpused

Korpus on elektrooniline keele (teksti või kõne) kogum, mille alusel saab:

Eri keelte jaoks leidub nii sadadest miljonitest sõnadest koosnevaid rahvuslikke tekstikorpusi, kuid ka erivajadusteks loodud korpusi. Nt. võib korpus koosneda autojuhtide suulistest vestlustest kõnet mõistva juhtimissüsteemi imitatsiooniga. Sellist korpust kasutatakse selleks, et kindlaks teha kasutaja-poolseid nõudmisi suuliselt juhitavale juhtimissüsteemile.

Ühte ja sama tekstikorpust saab tavaliselt kasutada mitmel erineval eesmärgil, nt. sõnakasutuse, morfoloogia või grammatika uurimiseks, aga ka sõnastiku tegemiseks ja programmide testimiseks.

Korpused erinevad üksteisest nii mahu kui märgenduse detailsuse poolest. Märgendamine on vajalik, et muuta korpus paremini kasutatavaks. Nt. tõlketekstide korpus, milles on iga lause juures viit originaalile, võimaldab koostada kakskeelseid sõnastikke ning luua uusi võimalusi pakkuvaid keeleõppe programme.

3.3.2 Kõnekorpused

Kõnekorpused (foneetilised andmebaasid) on vajalikud nii keele foneetilisteks ja fonoloogilisteks uuringuteks kui ka kõnetehnoloogiliste seadmete väljatöötamiseks ja testimiseks.

Maailmas on loodud suur hulk erinevate keelte foneetilisi andmebaase, erilise tõuke nende loomiseks on andnud kõnetuvastussüsteemide arendamine, kuna nende treenimiseks on vajalik suuremahulise erinevate kõnelejate poolt eri kõnestiilides loetud kõnematerjali olemasolu.

3.3.3 Sõnastikud

Elektrooniline sõnastik e. leksikon on sõnade ja nende kohta käivate teadmiste kogum. Need teadmised võivad olla nt. morfoloogia, fonoloogia, tähenduse kohta. On raske leida keeletehnoloogilist rakendust, milles üldse ei kasutata mingit leksikoni. Elektroonilised sõnastikud erinevad traditsioonilistest, inimese jaoks mõeldud (paber)sõnastikest nii oma struktuuri kui sisu poolest, mistõttu elektrooniliste sõnastike tegemine traditsiooniliste alusel või lausa nullist on oluline osa keeletehnoloogilisest arendustööst.

Tavaliselt tehaksegi leksikone varasemate pabersõnastike baasil.

4. Keeletehnoloogia Eestis: mis tehtud

Esimesed keeletehnoloogilised tooted eesti keele jaoks olid nn. Kinexi inglise-eesti elektrooniline sõnaraamat (praegu kasutatav aadressil http://www.ibs.ee/dict/), tekstitöötlus- ja kujundusprogrammidesse lisatud automaatne poolitus ning OÜ Filosofti loodud eesti keele õigekirjakontrollija e. speller, mis koos automaatse poolituse ja tesaurusega on aastast 1995 ka Microsoft poolt litsentseeritud ning kuulub eestikeelse standard-kontoritarkvara koosseisu.

Keeletehnoloogiaalase süstemaatilise töö alguseks Eestis võib pidada aastat 1995, kui Kesk-Euroopa maad, nende hulgas Eesti kaasati COPERNICUS-programmi kaudu Euroopa Liidu keeletehnoloogia projektidesse. Tartu Ülikool, Eesti Keele Instituut ja Küberneetika Instituut on osalenud (osalevad) kümnekonnas sellises projektis. Nende projektide põhiliseks sisuks on olnud (mitmekeelsete) keeleressursside — tekstikorpuste, leksikonide, andmebaaside — loomine.

Paralleelselt teadus- ja arendustegevusega on vähehaaval loodud ka uusi lõppkasutajale orienteeritud keeletehnoloogiat kasutavaid produkte.

4.1 Uurimiskeskused

Olulisemad uurimis- ja arenduskeskused on:

4.2 Arendustöö erafirmades

Lisaks eelnimetatud uurimiskeskustele teostatakse Eestis keeletehnoloogia arendustöid mitmes erafirmas:

On ka muid, väiksemaid ja/või välismaiseid firmasid, kes on teinud elektroonilisi sõnastikke, milles üks võimalik keel on eesti, nt. Edumedia Eurotranslator.

Tarkvara lokaliseerimine on Eestis seni täielikult erafirmade valdkond.

4.3 Uurimistöö põhiprobleemid

4.3.1 Kirjaliku keele töötlus

Morfoloogilise analüüsiga tegelevad Eestis nii EKI kui Filosoft. Mõlemal on valminud ka praktiliseks kasutamiseks sobivad morfoloogiline analüsaator ja süntesaator; vt www.eki.ee ja www.filosoft.ee

Süntaksi analüüsi vallas tegeldakse TÜs peamiselt morfoloogilise ühestamise ja pindanalüüsiga. Ühestamist on katsetatud nii statistilise meetodiga MVM (Markovi varjatud mudel, ingl k. HMM, st. Hidden Markov model) kui ka reeglite abil. Mõlema ühestaja kvaliteet on lähedane muude keelte jaoks loodutele: ligikaudu 95% sõnadest saab korrektse ühese analüüsi. Statistiline ühestaja ja süntaksi pindanalüüsil põhinev nimisõnafraaside leidja on kättesaadavad Internetist aadressilt www.eki.ee/keeletehnoloogia

Ka semantilise analüüsiga seotud töödega on Eestis tegeldud.

Filosoft on välja töötanud MS Office'i jaoks eesti keele tesauruse (arvestab sünonüümiat ja antonüümiat), mis on mõeldud kirjutajale abivahendiks sõnavara rikastamisel.

TÜ on osalenud EL 4. raamprogrammi projektis EuroWordNet, kus 8 Euroopa keele jaoks on loodud semantiline andmebaas, milles iga keele sees on sõnade tähenduste vahel fikseeritud semantilised seosed ja üksikkeelte semantilised andmebaasid on omavahel seotud nn Interlingual Indexi kaudu, nii et on võimalik näha, kuidas iga tähendust väljendatakse ülejäänud keeltes (keeled on: inglise, hollandi, saksa, prantsuse, itaalia, hispaania, eesti ja tšehhi). Mitmekeelset andmebaasi eeldatakse kasutada eelkõige tõlkimisel ja mitmekeelses infootsingus.

Samuti on eesti üldkeele tesaurust enam-vähem EuroWordNeti põhimõtete järgi koostatud Eesti keeletehnoloogia programmi raames (TÜ, EKI) ning selle üks osi on õigusterminoloogia tesaurus, mida koostab EKI Õigustõlkekeskuse lähteandmete põhjal.

4.3.2 Suulise keele töötlus

Kõnesünteesi alal on Eestis erinevaid formantsüntesaatoreid välja töötatud Küberneetika Instituudis ja Eesti Keele Instituudis.

Kompilatiivsete kõnesüntesaatorite klassi kuuluv eestikeelne difoonsüntesaator on loodud Eesti Keele Instituudi ja Küberneetika Instituudi koostöös 1998. aastal. Selle demoversioon on kättesaadav internetist aadressilt www.eki.ee/keeletehnoloogia/

Kõnesünteesi esimene etapp on ortograafilise teksti teisendamine hääldustekstiks. See ei ole eesti keele puhul sugugi kerge ülesanne, sest eesti ortograafia ei ole foneetiline. Kirjapildis ei ole 2. ja 3. välde üldjuhul eristatavad (nt. Lapsed mängivad kooli juures. Lapsed lähevad kooli), eristamata on palataliseeritud konsonandid palataliseerimata konsonantidest (nt. Eesti keskmine palk on ligi 4000 krooni kuus; See palk on kuus meetrit pikk) ja palju muud. Lisaks välte ja palatalisatsiooni märkimisel leitakse lingvistilise töötluse käigus ka liitsõnapiirid (lae_kaunistus, mitte laeka_unistus), sõnarõhud (turist, mitte turist) ja silbipiirid, mis on vajalikud kõnesüntesaatori tööks. Sõna tasandil on antud probleem eesti keele jaoks põhimõtteliselt lahendatud, kuid lause meloodiat ja intonatsiooni ei saa veel arvestada, sest puudub piisav süntaksikäsitlus.

Kõnetuvastuse alaseid uuringuid on Eestis teostatud TTÜ Küberneetika Instituudis, praktiliste rakendusteni jõudmiseks kulub veel mitmeid aastaid.

Kõnelejatuvastusega on Eestis tegeldud TTÜ Küberneetika Instituudis, on kaitstud üks magistritöö.

4.4 Keeletehnoloogia rakendused

Kirjutaja-abivahendeid on eesti keele jaoks loonud pms. Filosoft (poolitus, speller ja tesaurus); poolitusprogramme on teinud ka teised, nt Indrek Hein ja Enn Saar.

Dokumenditöötluses kasutatakse Eestis keeletehnoloogiat vähem kui olemasolev tehnoloogiline baas seda võimaldaks. Üksikute eranditena võiks esile tuua Riigikantselei, kus sõnavormide muutlikkust arvestav dokumentide haldus- ja otsisüsteem on kasutusel alates aastast 1996 ja kus sellega on hõlmatud valitsuse otsused ja määrused, ning Õigustõlkekeskus, kus kasutatakse sõnavormide muutlikkust arvestavat terminite andmebaasi.

Eesti keelele on kohandatud optilise tekstituvastuse e. OCR tarkvara. Tegemist on programmi Fine Reader Pro täielikult eestindatud versiooniga, mis sai ajakirja "Arvutimaailm" preemia kui 1998. a. Eesti parim tarkvaratoode. Ta on mõeldud tekstide sisestamiseks arvutisse skanneri abil, võimaldades skanneriga sisestatud eestikeelset teksti ja tabeleid teisendada üldtunnustatud tekstiredaktorite ja tabelitöötlusprogrammide kujule. Aluseks on Vene firma ABBYY (BIT Software), http://www.abbyy.ru poolt loodud Fine Reader Pro 4.0, millele on lisatud eesti keele tähtede ja sõnade "intelligentne" identifitseerimine, kasutades seejuures eesti keele spellerit.

Tõlkijate abivahenditest kasutatakse Õigustõlkekeskuses tõlkemälu (Trados), kus on oma sisemiseks kasutamiseks tehtud ka paralleelistaja e. joondaja. Nimelt on tõlkemälu loomiseks vaja originaal- ja tõlketeksti paralleelistamist e. joondamist, st. lähteteksti fragmentide ja nende tõlgete omavahelise vastavuse leidmist. Sellele alles järgneb lähteteksti fragmendile sobiva tõlke leidmine.

Masintõlkesüsteme Eestis pole. Sõnavormide analüüs ja süntees on praeguseks küllalt hästi lahendatud kuid masintõlke otsustav ja kalleim osa — detailne ja korrektne süntaksi analüüs — on praegu veel lahendusest kaugel.

Tarkvara süstemaatilise lokaliseerimisega (kasutaja-liidese ja abitekstide eestindamisega) Eestis ei tegelda. Märkida tuleb siiski seda, et valdav osa kasutatavatest raamatupidamis- jms majandusarvestusega seotud programmidest on eestikeelsed. Eksisteerib mitu operatsioonisüsteemi Linux eestikeelset varianti ning Linuxil töötav graafiline keskkond KDE on eestikeelne. Samas ei sisalda ükski neist eestikeelseid kirjutaja abivahendeid.

Keeleõpe arvuti abil on lapsekingades: eksisteerib ainult üksikuid eesti keele õpetamiseks ja õppimiseks mõeldud programme ning needki kasutavad pigem traditsioonilisi võtteid kui keeletehnoloogiat.

Loomulikku keelt võimaldavate kasutajaliideste osas Eestis arendustööd ei tehta.

Eestikeelne kõnesüntees on demoversioonina kättesaadav internetist aadressilt www.eki.ee/keeletehnoloogia/

4.5 Keeleressursid

4.5.1 Tekstikorpused

Eestis on loodud mitmeid tekstikorpusi peamiselt TÜ-s ja EKI-s.

TÜ korpused on kättesaadavad aadressilt http://www.cl.ut.ee

Praegu on olemas lausetasandini märgendatud korpused mitmete perioodide kohta, alates 1890ndatest ja lõpetades 1990ndate aastatega, kokku ümmarguselt 3 miljoni sõna ulatuses. Lisaks neile on olemas morfoloogiliselt ja süntaktiliselt märgendatud korpused, kuid palju väiksemas mahus — vastavalt 100 000 ja 50 000 sõna ulatuses. Veel on olemas ainult TÜ-siseseks kasutamiseks Eesti uudisteagentuuride märgendamata tekstid kogumahus ümmarguselt 10 miljonit sõna.

EKI korpus on kättesaadav aadressilt http://www.eki.ee

See koosneb mitmete valdkondade tekstidest kogumahus ümmarguselt 10 miljonit sõna.

Keeletehnoloogias kasutatavateks tekstikorpusteks võivad osutuda ka hoopis muul eesmärgil loodud tekstid, nt. seadusetekstide tõlked, kirjandite kogud jms.

Tekstide loomine elektrooniliselt ning nende kättesaadavus internetis muudab uute korpuste kogumise tehniliselt lihtsamaks kui varem. Samas ei lihtsusta see märgendamist, mis on jätkuvalt tekstikorpuste kasutusvõimaluste avardamisel kitsaskohaks.

4.5.2 Kõnekorpused

TTÜ Küberneetika Instituudis on loodud eesti keele foneetiline andmebaas EÜ COPERNICUS-programmi projekti "BABEL: A Multi-Language Database" raames aastatel 1995-98. See sisaldab etteantud teksti lugemisel salvestatud kõnematerjali 70lt diktorilt (35 meest, 35 naist), kelle hääldus hinnati vastavaks eesti keele hääldusnormidele. Andmebaas on koostatud vastavuses Euroopas väljatöötatud metoodikaga. Eesti keele foneetiline andmebaas sisaldab ligikaudu 12 tundi kõnematerjali, mis on paigutatud kolmele CD-ROMile. Umbes 20% andmebaasi signaalidest on segmenteeritud ja transkribeeritud (see on väga töömahukas protsess — ühe sekundi kõne segmenteerimiseks võib kuluda kuni 1000 sekundit). Andmebaasi materjali kasutamiseks on vajalik see täies mahus segmenteerida.

4.5.3 Sõnastikud

Eestis on paljud pabersõnastikud antud välja ka elektrooniliselt. Hulk elektroonilisi sõnastikke on kasutatavad ka interneti kaudu: ee.www.ee, www.eki.ee. Elektrooniliste sõnastike tegemisega on rohkem või vähem tegevuses TÜ, EKI, Festart, Filosoft jm uurimis- ja kommertsasutused. Momendil on tähelepanuväärseks probleemiks põhjaliku tänapäevase elektroonilise inglise-eesti ja eesti-inglise sõnastiku puudumine.

4.6 Eesti keeletehnoloogia sihtprogramm 1997-1999

1997. a. käivitus Eesti oma keeletehnoloogia sihtprogramm, mida Eesti Informaatikakeskuse kaudu finantseeritakse riigieelarvest. Keeletehnoloogia sihtprogrammi mõte on: luua rahvuskeele jaoks keeleressursse ja pooltooteid (arvutiprogramme), mida siis hiljem kommertsfirmad oma toodete loomisel saaksid kasutada. Keeletehnoloogia sihtprogramm täidab oma eesmärki kõige paremini juhul, kui tema tulemusena ilmub Eesti turule uus, just eesti keelele orienteeritud tarkvara.

1997-1999 loodin KT sihtprogrammi raames nii lõpp-tarbijale mõeldud tarkvara (nii laiatarbe- kui spetsiaalselt riigiasutusele mõeldud tarkvara) kui ka keeletehnoloogia edasiseks rakendamiseks vajalikke pooltooteid ja ressursse. Kolme aasta jooksul kasutati seejuures 2,8 miljonit krooni riigieelarvelisi vahendeid. Sellele lisandus muudest allikatest saadud finantseerimine (eraettevõtlus ja välisfondid). Täpsem informatsioon 1998. a kohta on aadressil http://www.ee/eks ja 1999. a kohta aadressil http://www.eki.ee/keeletehnoloogia

KT sihtprogrammis 1997-1999 osalesid:

  1. Eesti Informaatikakeskus, Rahukohtu 2, Tallinn, telefon +2 6 938 200, http://www.eik.ee/
  2. Eesti Keele Instituut, Roosikrantsi 6, Tallinn, telefon +2 6 411 443, http://www.eki.ee/
  3. Eesti Õigustõlke Keskus, Tõnismägi 8, Tallinn, telefon +2 6 935 136, http://www.legaltext.ee/
  4. OÜ Filosoft, Vaba 19, Tartu, telefon +250 83 408, http://www.filosoft.ee
  5. OÜ Nekstom Tallinn, Endla 90-23, telefon: +2 6 565 642, +2 6 565 643, http://www.nekstom.ee/
  6. TTÜ Küberneetika Instituut, Akadeemia tee 21, Tallinn, telefon +2 6 204 150, http://www.ioc.ee/
  7. Tartu Ülikool, Tiigi 78-223, telefon +27 375 941, http://www.cl.ut.ee/

4.7 Spetsialistide ettevalmistus

Edukaks tööks keeletehnoloogia valdkonnas on vajalikud laialdased teadmised nii keeleteaduse, kõnekommunikatsiooni, infotehnoloogia kui ka signaalitöötluse alalt.

1998.a alates õpetatakse Tartu Ülikoolis eesti ja soome-ugri keeleteaduse osakonnas koostöös arvutiteaduse instituudiga arvutuslingvistikat bakalaureuseõppes. Mitmesuguste eriprogrammide alusel on seda aga õpetatud juba aastaid ning on kaitstud nii magistri- kui doktoriväitekirju. Hetkel teeb arvutuslingvistika (keeletehnoloogia) alaseid väitekirju arvutiteaduse instituudi juures 3 ja üldkeeleteaduse instituudi juures 1 doktorant. 1999.a kaitsti TÜs 3 sellesisulist magistritööd ja 1 doktoritöö.

Kõnetehnoloogia valdkonnas ei ole Eestis sihipäraselt spetsialiste ette valmistatud. Tallinna Tehnikaülikoolis on viimase paarikümne aasta jooksul üksikud arvutiteaduse, elektroonika või raadiotehnika eriala lõpetajad teostanud diplomitöid, mis on olnud seotud kõnesignaalide analüüsi ja/või sünteesiga. 1998. a. kaitsti TTÜs üks magistritöö kõnelejatuvastuse valdkonnas.

4.8 Keeletehnoloogia kasutajad

Keeletehnoloogiat on seni kasutatud üsna vähe. Suurtest firmadest/asutustest on teada:

Laiatarbe-programmidest kasutatakse keeletehnoloogiat kirjutaja abivahendites:

Samuti kasutatakse keeletehnoloogiat teksti sisselugemiseks skanneriga (OCR Abby Finereader Pro, OCR Recognita).

Tõenäoliselt kõige laiemalt levinud keeletehnoloogia tooted on siiski elektroonilised sõnastikud.

5. Keeletehnoloogia Eestis: kuidas edasi

Eesti keeletehnoloogia arendamisel on Eesti riigil võimalik ja vajalik tegutseda korraga mitmel üksteist täiendaval suunal:

  1. Toetada uurimis- ja arendustöid konkreetsetes KT valdkondades, mille olulisus ja/või mahajäämus on momendil selge.
  2. Astuda samme ettevõtluskeskkonna kujundamisel, et erakapital oleks huvitatud eesti keele kasutussfääri laiendamisest ja seega ka KT arendamisest omal initsiatiivil. Esmajoones tuleb selle all mõelda nõudmist, et tarkvara (nii rakendusprogrammid kui operatsioonisüsteemid) oleks lokaliseeritud.
  3. Kujundada Eesti ühiskondlikku teadvust, nii et see oleks teadlik KT võimalustest ja oskaks neid kasutada ning nõuda. Siia alla kuulub nii KT alase hariduse/õpetuse soodustamine, eesti keele ja kultuuri kasutuse ning leviku soodustamine elektroonilises sfääris, eesti keele rolli defineerimine globaliseeruvas maailmas ja ühinevas Euroopas.

Käesolev arenduskava on pigem KT üldisi suundi ja võimalusi näitav kui konkreetsetele rakendustele osutav. Infotehnoloogia, mille osaks KT on, areneb niivõrd kiiresti, et igasugune konkreetsetele rakendustele orienteeritud kava aegub juba kirjutamise hetkeks.

5.1 Arendus- ja uurimistööd

Finantseeritavate arendus- ja uurimistööde (projektide) väljaselgitamise vorm: KT arendusprojektide konkursid (1 kord aastas).

Korraldaja: Eesti Informaatikakeskus
Finantseerimine:
- riigieelarvest
- fondid (eelkõige Innovaatikafond)
Teostajad: nii teadusasutused kui firmad

5.1.1 Kirjutaja abivahendid

Tulevikus võiks selles vallas uurida ja arendada grammatika kontrolli ja teksti mõistetavuse hindamist. Seejuures lähtutakse sellest, et sellised põhiabivahendid nagu õigekirjakontrollija ja poolitaja on olemas.

Eeldab:

  1. "tüüpiliste vigade" korpuse loomist, kusjuures vead sõltuvad kirjutaja emakeelest;
  2. süntaktilise analüüsi probleemide lahendamist, kuid seda saab teha järkjärgult: teatud tüüpi fraaside sees tehakse teatud tüüpi vigu: nimisõnafraasides ühildumisvigu, verbifraasides rektsioonivigu jne

Probleemiks võib olla eesti keele süntaksi teoreetiline läbiuurimatus, eriti just sellisest formaalsest vaatepunktist nagu on vaja KT arendustööks.

5.1.2 Dokumenditöötlus

Infootsing täistekstidest märksõnade (mõistete) järgi;

Eeldab vähemalt:

Mitmekeelne infootsing: vajalikku infot otsitakse tekstidest, mis lisaks eesti keelele võivad olla ka teistes keeltes (eriti aktuaalne EL raames);

Eeldab lisaks eelöeldule vähemalt vastavate keelte vastava ainevaldkonna materjali sisaldavat mitmekeelset tesaurust, kus mõisted on keeliti seotud.

Dokumentide liigitamine ja refereerimine

Eeldab vastava ainevaldkonna mõistelist liigendust (nt tesauruse üldkategooriate tasemel) ja lisaks morfoloogilisele analüüsile süntaktilist analüüsi lause ulatuses (esialgu võib olla suhteliselt lihtsustatud variant).

5.1.3 Tõlkijate abivahendid ja masintõlge

Kuna eesti keele täieliku masintõlkeni jõudmine võtab ilmselt veel palju aega ja nn tõlkemälupõhised abivahendid on vaid piiratud efektiivsusega, siis tuleks tähelepanu koondada sõnastikupõhistele abivahenditele.

Eeldab: Morfoloogilist analüüsi ja sünteesi, (suhteliselt lihtsat) süntaktilist analüüsi sõna süntaktilise rolli kindlakstegemiseks konkreetses kontekstis, ja vastavate sõnastike olemasolu. Lisaks tesaurust (klassifikaatorit), mis nii tõlgitava sõna kui ka relevantse konteksti moodustavate sõnade semantilist klassi võimaldab määrata.

5.1.4 Keeleõpe arvuti abil ja sõnaraamatud

Spetsiaalselt eesti keele õppimiseks/õpetamiseks mõeldud programme on ainult mõned üksikud. Ehkki nende loomise toetamine ei pruugi otseselt toetada eesti keeletehnoloogiat, aitab ta siiski laiendada eesti keele elektroonilist kasutussfääri ja sellega toetab keeletehnoloogiat kaudselt. Samas nt kõnesignaalide analüüsivahendeid saaks kasutada ka eesti keele häälduse õpetamisel vene vm võõrkeelt kõnelevatele inimestele.

Toetada tuleks keeletehnoloogiat kasutavate sõnaraamatute loomist (algvormide ja mitmesõnaliste fraaside automaatne leidmine tekstist). Sellised sõnaraamatud oleksid ka samm tõlkijate abivahendite ning masintõlke suunas.

Eeldused on samad mis eelmises punktis.

5.1.5 Loomulikku keelt võimaldavad kasutajaliidesed

Loomuliku keele kasutamist infopäringul on maailmas küllalt põhjalikult uuritud. Mitmete piiratud valdkondade (sõiduplaanid, piletite tellimine, jne.) puhul on leitud tüüpilised dialoogistruktuurid, mida rakendatakse edukalt ka automaatsetes süsteemides.

Automaatsete eestikeelsete infosüsteemide väljatöötamine eeldab:

  1. eestikeelse dialoogi struktuuri uuringuid kindlalt piiritletud valdkondades;
  2. eestikeelse kõnetuvastuse väljatöötamist.

5.1.6 Kõnesüntees

Sünteeskõne kvaliteedi tõstmiseks on vajalik eelkõige kõne prosoodilise struktuuri (meloodia) täiuslikum modelleerimine.

Eeldab:

  1. lause automaatse süntaktilise analüüsi lahendamist;
  2. inimkõne prosoodilise struktuuri põhjalikku analüüsi.

Juba praegu oleks võimalik luua mitmesuguseid kõnesünteesi kasutavaid rakendusprogramme:

5.1.7 Kõnetuvastus

Kõnetuvastuseks vajalik tehnoloogia maailmas põhimõtteliselt olemas ja seda rakendatakse edukalt põhiliselt mitte-aglutineerivate keeletüüpide korral. Aglutineerivate keelte, sh eesti keele puhul vajab eelnimetatud tehnoloogia olulisi keele-spetsiifilisi ja põhimõttelisi täiendusi.

Eestikeelse kõnetuvastuse väljatöötamine eeldab:

  1. baastehnoloogia soetamist,
  2. uuringuid ja eksperimente tuvastuseks sobivate kõnesegmentide (foneemid, difoonid, trifoonid, silbid) väljaselgitamiseks,
  3. mahuka kõne andmebaasi olemasolu nii uuringuteks kui ka süsteemi treenimiseks ja testimiseks.

5.1.8 Kõnelejatuvastus

Kõnelejatuvastuse meetodid leiavad rakendust nii automaatsete kõnelejatuvastus-süsteemide väljatöötamisel kui ka kohtufoneetikas (ingl. forensic phonetics) kahtlustatava isiku kindlakstegemisel tema kõnesalvestuse alusel. Automaatseid kõnelejatuvastussüsteeme saab kasutada turvasüsteemides, näiteks pääsu reguleerimine infosüsteemides, pangaoperatsioonide teostamine, jne.

Eeldused:

  1. suure kõnelejate arvuga andmebaasi olemasolu,
  2. ulatuslikud uuringud kõnelejaspetsiifiliste tunnuste väljaselgitamiseks ja vastavate signaalitöötlusalgoritmide realiseerimiseks.

5.2 Keeleressursid

5.2.1 Tekstikorpused

Eesti keele jaoks on puudu nii morfoloogiliselt kui ka süntaktiliselt märgendatud korpustest, paralleelkorpustest kui ka eri allkeelte korpustest.

Edaspidi oleks vaja sõlmida lepingud, et eri paigus loodud keeleressursid (mida nende loojad ei teinud hoopiski mitte KT eesmärkidel) oleksid kasutatavad kõigi Eesti KT tegijate poolt. Nt. et ajalehtede, raamatute, uudisteagentuuride tekstide elektroonilised versioonid oleksid kasutatavad uurijatele ja keeletehnoloogiat loovatele firmadele.

5.2.2 Kõne andmebaasid

Kõne- ja kõnelejatuvastuse ning loomulikku keelt kasutavate dialoogsüsteemide väljatöötamiseks on vajalik mitmesuguste kõne andmebaaside loomine. Vajalik on koguda loomuliku kõnematerjali võimalikult paljudelt kõnelejatelt (min. 100 kõnelejat) erinevates kõnestiilides (loetud kõne, spontaanne kõne, dialoog).

Vajalikud oleksid ka paljude diktorite poolt salvestatud spontaanse kõne ja dialoogide andmebaasid.

Lisaks erinevate kõnekorpuste loomisele on vajalik välja töötada ka sobivad liidesed andmebaaside efektiivseks kasutamiseks signaalitöötlussüsteemides.

5.3 Seadusandlus

Tegevus: administratiivsete ja seadusandlike meetmete rakendamine, et tugevdada eesti keele positsiooni arvutikeskkonnas. Nt. riigihankekonkursi juhenditesse lisada punkte, mille mõtteks on, et riist- ja baastarkvara hankimisel eelistada eestikeelse operatsioonisüsteemi ja kontori-tarkvara pakkujaid.

Teostajad: Eesti seadusandlikud ja täitevvõimuorganid

5.4 Haridus/õpetus

Arvestades keeletehnoloogia järjest kasvavat rolli, oleks vajalik laiendada vastava ettevalmistusega spetsialiste koolitamist Eestis.

Tegevus: Keeletehnoloogia ja arvutuslingvistika alase õpetuse andmine Eesti kõrgkoolides.

Teostajad: Tartu Ülikoolis õpetatakse 1997. a. alates arvutuslingvistikat. On tarvis laiendada ja süvendada selles rakenduslikke (keeletehnoloogiale orienteeritud) distsipliine. Kõnetehnoloogia-alast õpetust on otstarbekas korraldada TTÜs Küberneetika Instituudi baasil.

Finantseerija: Haridusministeerium.

5.5 Keeletehnoloogia rolli ja temaatika tutvustamine

Tegevused:

  1. KT seminari korraldamine 1 kord aastas KT olemuse, käimasolevate tööde ja edasiste võimaluste tutvustamiseks ning läbiarutamiseks;
  2. KT vajalikkuse, tulemuste ja võimaluste tutvustused meedias.

Teostajad: Eesti Informaatikakeskus, Sihtprogrammi realiseerimises osalevad organisatsioonid, asutused ja firmad;

Finantseerimine: riigieelarve, fondid, osalejate omavahendid;

5.6 Ühinemine Euroopa Liiduga, rahvusvaheline koostöö

Tegevused: Kontaktid ja koostöö KT valdkonnas EL keeletehnoloogia programmidega, osalemine projektides vastavalt avanevatele võimalustele.

Teostajad: Eesti Informaatikakeskus, Sihtprogrammi realiseerimises osalevad organisatsioonid, asutused ja firmad;

Finantseerimine: Osalejad, EL

5.7 Eesti keele ja kultuuri arengu soodustamine

Tegevused: (suurel määral kattuvad eespool loetletud töödega);

  1. KT rakendamine eesti keele õppeprogrammide loomisel, eriti eesti keele õpetamisel võõrkeelena;
  2. KT rakendamine puuetega inimestele abivahendite ja õppeprogrammide loomisel;
  3. KT pooltoodete kättesaadavaks tegemine ja KT rakenduste soodustamine.

Teostajad: Akadeemilised organisatsioonid ja asutused, firmad;

Finantseerimine: Eesti Informaatikakeskus, fondid, firmad;

Lisamaterjalid

  1. Heiki-Jaan Kaalep. Keeletehnoloogia - mis see on. Arvutimaailm 7/1994 lk 54-55; http://www.ee/eks/article/am.html
  2. Heiki-Jaan Kaalep. Virtuaalne ingliskeelne Eesti http://www.ee/eks/article/kultleht.html
  3. Eesti keeletehnoloogia kodulehekülg 1999 http://www.ee/eks/
  4. Eesti keeletehnoloogia kodulehekülg 2000 http://www.eki.ee/keeletehnoloogia/