Eesti Keele Instituut

Tarkvara

Litsents,
Licence

EKI tarkvara üldlitsents.
Common license for EKI software.

Eesti keele ühendkorpuse 2021 lemmade ja sõnavormide sagedusloendid.

Failid:

EKI morfoloogiakomponentide hetkeversioon
(Demo)

Üksikute moodulite tutvustused leiate allpool (silbitus, tüübituvastus, tüvemuutused, analüüs, süntees).

Kõnesüntees

Lähem tutvustus keeletehnoloogia tarkvara rubriigis.

Võõrnimede hääldusbaas ja skripte

Enne kui kõnesüntees käima lasta, asenda tekstis John kujule Džon.

Inglise-eesti sõnastik

Lähem tutvustus keeletehnoloogia tarkvara rubriigis, sõnastiku ja kasutajaliidese viimaseid versioone küsige meilitsi.

Silbitus

Eesti keele lihtsõnade silbitus: mooduli lähtekood, valmis dll ja näidisprogramm. Silbitus tagastab sisendi karu silbitatud vaste ka-ru ja silpide arvu (2), sisend teist saab kaks võimalikku silbitust: teist (sõnast teine) ja te-ist (tähenduses 'teismi pooldaja') jne.

Tüübituvastus

Algvormis sõna (algvormid on nimetav kääne ja ma-infinitiiv) muuttüübi ja sõnaliigi määramine. Teatab ka tundmatute sõnade kohta nende arvatava(d) muuttüübi(d) ja sõnaliigi(d), nt nada 17_S e nimisõna, mis käändub nagu jada või vada, nadan 02_S, nadani # e sellise fonoloogilise struktuuriga sõna pole lubatud, nadanim 02_A e omadussõna, nadanimm 22_S jne.

Tüvemuutused

Teades tüvekoodi, tagastab moodul sobiva algvormi, algvormist aga moodustab teised tüvevariandid, sidudes nii omavahel nt tüvevariandid pikk, pika, pikka ja pikki.

Morfoloogiline süntees
(Demo)

Moodustab algvormist kogu käänamise-pööramise vormistiku. Sõnast suur moodustab suur, suure, suurt, suurde, suuresse, ..., suured, suurte, suuri, suurtesse~suurisse, ...

Morfoloogiline analüüs
(Demo)

Ütleb suvaliste tekstisõnede kohta, mis on selle algvorm ja mis käändes või pöördes sõna parasjagu võib olla.

Morfoloogiline analüüs Perlis

Perli skript, sõnastikupõhine morfoloogiline analüüs.

Ühestaja
(~ POS tagger)

Programm lauseteks jagatud tekstile morfoloogiamärgendite lisamiseks. Eeltreenitud statistiline mudel ei eelda morfoloogilise analüsaatori olemasolu.

Perl Lingua::ET

Lingua::ET::Sentence.pm Eestikeelse teksti jagamine lauseteks.
Lingua::ET::Numbers.pm Teisendab araabia numbrid tekstiks.

Sõnaloendid
(Estonian wordlist)

Praktiliste rakenduste looja toormaterjal. Sõnaloendeid kasutatakse poolituse ja liitsõnapiiri leidmisel, paroolide turvalisuse kontrolliks, mõeldav on ka elementaarne õigekirjakontroll, mis peab lubatud eestikeelseteks sõnadeks vormide loendis leiduvaid ning praagib välja kõik ülejäänud.

Edevusnumbrite generaator

Eelneval põhinev väike mänguasi.

Anagrammide genereerija

Teeb küll vaid kuni kahest "sõnast koosnevaid" variante ja sõnavormide loend vajaks nii puhastamist kui täiendamist, aga kasutada saab. Kasutage proovimiseks anagramm.cgi-d, lähtekoodi näitab anagramm.txt.

Tekstifailide sortija

Windowsi programm (koos lähtekoodiga Delphi 7), tehtud mitmesuguste loendite, sõnastike jms tähestikuliseks järjestamiseks. Võimalik on alustada ja lõpetada kindlast positsioonist või stringist reas, jätta kindlaid märke vahele, defineerida oma tähestik.

Programmide eestikeelsed kasutajaliidesed:
FAR 1.60 (www.rarsoft.com),
RAR 2.90 (www.rarsoft.com),
Windows Commander

Miskipärast vajadusest muuta programmide kasutajaliidesed eestikeelseks rohkem räägitakse kui tehakse. Siit leiate Peeter Pälli ja Sander Liivaku muu töö kõrvalt valminud eestindused kahele enamkasutatud Norton Commanderi kloonile.

TrueType fondid

EKIs kasutusel olevad fondid murdetekstide ladumiseks ja küljenduseks, lisaks vene keele fondid eesti klaviatuurile kohandatult ja font inglise keele tüüpilise foneetilise transkriptsiooni märkidega häälduste kirjapanemiseks.

Vaata ka


Veebimaterjale puudutavad küsimused: Indrek Hein, Indrek.Hein@eki.ee