Morfoloogilise ühestaja ülesanne on enamasti mitmesest morfoloogilise
analüüsi väljundist valida konkreetsesse lausesse sobiv analüüsivariant.
Näiteks võib 'taevas' olla nii nimetavas kui seesütlevas käändes, kuid
lausetes 'Taevas kumas Kuu.' ja 'Taevas kumas loojanguvärvides.' on ühes
üks, teises teine variant ainuvõimalikud.
Ühestamiseks on kasutatud Ungaris valminud programmi
HunPos,
mis põhineb varjatud Markovi mudelil (vt ka
kirjeldus).
Ühestaja on treenitud Tartu Ülikooli morfoloogiliselt
ühestatud korpusel, selle täpsus on 93-94%.
Kasutamine
Laadige Google'i tarkvarasaidilt alla teie opsüsteemile sobiv variant ja
treenitud keelemudel. Ühestaja koosneb
kahest programmist: hunpos-train ja hunpos-tag, tööks on vaja vaid viimast.
Programm eeldab sisendiks sobiva kodeeringuga (hetkel utf-8) tekstifaili,
milles iga sõnavorm ja kirjavahemärk on omaette real. Lauseid eraldab
tühi rida. Proovimiseks on siin kaasas kaks teksti - test.txt,
sobivalt ette valmistatud tekstifail ja test.yhestatud.txt,
milles on võrdluseks sama tekst käsitsi ühestatud kujul.
Lisaks keelemudeli faili nimele on võimalik kasutada veel üht kasulikku
parameetrit: faili nime, milles sisalduvad eelnevalt valmis tehtud
analüüsivariandid neile sõnavormidele, mida testkorpuses ei esinenud.
Näidiseks on kaasas fail eesti.morftabel
Tekstifail tuleb suunata hunpos-tag sisendisse, väljud on mugav väljastada
uude faili, näiteks test.yhestatud.txt. Linuxi käsurida oleks sel juhul
$ cat test.txt | hunpos-tag et_utf8.model -m eesti.morftabel > test.yhestatud.txt
Käivitades
$ hunpos-tag et_utf8.model jääb programm sisendit ootama.
Analoogiliselt -- sisestage iga sõnavorm eraldi reale ja lõpetage lause
punkti (eraldi real) ning uue reavahetusega.
Programmi puudutavad küsimused: indrek.hein@eki.ee
|