Eesti Keele Instituut

EKI tarkvara


Morfoloogiline ühestaja

Morfoloogilise ühestaja ülesanne on enamasti mitmesest morfoloogilise analüüsi väljundist valida konkreetsesse lausesse sobiv analüüsivariant. Näiteks võib 'taevas' olla nii nimetavas kui seesütlevas käändes, kuid lausetes 'Taevas kumas Kuu.' ja 'Taevas kumas loojanguvärvides.' on ühes üks, teises teine variant ainuvõimalikud.

Ühestamiseks on kasutatud Ungaris valminud programmi HunPos, mis põhineb varjatud Markovi mudelil (vt ka kirjeldus). Ühestaja on treenitud Tartu Ülikooli morfoloogiliselt ühestatud korpusel, selle täpsus on 93-94%.


Kasutamine

Laadige Google'i tarkvarasaidilt alla teie opsüsteemile sobiv variant ja treenitud keelemudel. Ühestaja koosneb kahest programmist: hunpos-train ja hunpos-tag, tööks on vaja vaid viimast. Programm eeldab sisendiks sobiva kodeeringuga (hetkel utf-8) tekstifaili, milles iga sõnavorm ja kirjavahemärk on omaette real. Lauseid eraldab tühi rida. Proovimiseks on siin kaasas kaks teksti - test.txt, sobivalt ette valmistatud tekstifail ja test.yhestatud.txt, milles on võrdluseks sama tekst käsitsi ühestatud kujul.

Lisaks keelemudeli faili nimele on võimalik kasutada veel üht kasulikku parameetrit: faili nime, milles sisalduvad eelnevalt valmis tehtud analüüsivariandid neile sõnavormidele, mida testkorpuses ei esinenud. Näidiseks on kaasas fail eesti.morftabel

Tekstifail tuleb suunata hunpos-tag sisendisse, väljud on mugav väljastada uude faili, näiteks test.yhestatud.txt. Linuxi käsurida oleks sel juhul

$ cat test.txt | hunpos-tag et_utf8.model -m eesti.morftabel > test.yhestatud.txt

Käivitades $ hunpos-tag et_utf8.model jääb programm sisendit ootama. Analoogiliselt -- sisestage iga sõnavorm eraldi reale ja lõpetage lause punkti (eraldi real) ning uue reavahetusega.

Programmi puudutavad küsimused: indrek.hein@eki.ee