Eesti Keele Instituut

EKI tarkvara


TÜVEMUUTUSED


andmefailid



programmid



lähtekood (C)

Tüvemuutused

 


Tüvemuutuste moodul seob omavahel tüvede kõik võimalikud variandid. Selles moodulis sisalduvad teadmised, et tüvest nõbu saab moodustada nõrga astme nõo, aga tüvest lõbu ei saa, kilt võib omastavas olla nii kildi kui kilda.

Morfoloogiline süntees kasutab seda eri vormides esinevate tüvevariantide saamiseks (mägi, m'äe, mäge, m'äkke), analüüs aga lemma tüve leidmiseks. Sel juhul on sisendiks oletuslik vorm, nt kapsata, mille lõpus võib olla formatiiv ta ning vaja on leida lemmat tüvele kapsa. Analüüs teab vormikoodi (nt see peaks olema ilmaütlev kääne) ja sellele vastavaid võimalikke muuttüüpe ja tüvekoode ning proovib need järjest läbi: muuttüüp 1 muutumatu tüvi... tüüp 7 tüvi tugevas astmes... 22 nõrgas astmes. Proovitakse ka verbi: kapsata võib olla nt da-infinitiiv muuttüüpides 29 ja 32 (esimeses on tüvi nõrgas astmes, teises tugevas). Analüüs sõelub tüvemuutuste ja tüübituvastuse abil välja võimalikud lemmad — kapsas (07_S) ja kapsama (29_V).

Vt lisaks Muutüüpide, sõnaliikide, tüvekoodide ja vormikoodide tähistused ning moodulite üldiseloomustus.

Demoprogrammi hetkel pole.


Kuidas moodustada tüvevariandid sõnast palk?

  • tüübituvastus ütleb, et palk kuulub muuttüüpi 22 ja on nimisõna
  • stemguide.txt näitab, et tüübis 22 on viis tüvevarianti, mis on omavahel seotud nii: at > bt > bn > bnv ; bt > btv. Näiteks tüve bn saamiseks tuleb esmalt moodustada at-st bt ja alles sellest bn
  • üleminek at > bt vastab reeglite komplektile ab ja erandite komplektile ab_ba
  • erandifailis ab_ba.exc on rida 22 p'alk p'alka >, nokk rea lõpus märgib, et ka reeglipärane p'alki (viimane rida e vaikimisi reegel failis rules_ab.rul) tuleb moodustada. Väljastatakse kaks bt-tüve — p'alka ja p'alki
  • üleminek bt > bn vastab reeglite komplektile tn ja erandite komplektile nt_tn. p'alka ega p'alki pole erandlikud ja reeglid (rules_tn.rul) tagastavad bn-tüved palga ja palgi (reegel k>g ja välte kadu).
  • analoogiliselt moodustatakse ka kaks viimast tüvevarianti bnv ja btv


1. Kui installeerite esimest korda, looge esmalt sobiv kataloogipuu. Loogiline kataloogide struktuur võiks olla:

c:\eki_morfo\programmid\           (programmid)
c:\eki_morfo\programmid\tyved\     (lähtekood vajadusel)
c:\eki_morfo\andmed\               (andmefailid)

2. Laadige oma arvutisse andmefailid (est_morpho_data.zip) ja pakkige need lahti andmekataloogi. Andmefailid võivad küll asuda samas kataloogis programmide ja teekidega, parem lahendus on aga hoida andmefaile omaette kataloogis ja panna selle nimi keskkonnamuutujasse EST_MORPHO_DATA (vt juhend).

3a. Installeerige silbitus ja tüübituvastus, neid mõlemaid on tüvede moodulil vaja.

3. Laadige oma arvutisse programmid (stem_bin.zip) ja pakkige lahti morfoloogiaprogrammide kataloogi.

(4.) Kui leiate, et teile pakub huvi programmide lähtekood või, mis veel parem, olete valmis seda täiustama, laadige oma arvutisse koodifailid (stem_code.zip) ja pakkige lahti programmide kataloogi sobiva nimega alakataloogis.

Tüvemuutuste moodul koosneb:

teegid:

  • silbitus
  • tüübituvastus
  • stems.dll (tüvemuutuste protseduurid)

andmefailid:

  • Grammatikad e ühest tüvevariandist teise moodustamise reeglid: rules_*.rul, rule_or*.rul
  • Grammatikate erandid: 0g_g0.exc, 0r_r0.exc, 0v_v0.exc, ab_ba.exc, bc_cb.exc, nt_tn.exc, ort1.exc, ort2.exc
  • stemguide.txt (info tüvevariantide moodustamise kohta eri muuttüüpides)

Esimesel käivitamisel teeb moodul erandifailidest enda jaoks sobivamad indeksid laiendiga .ndx. Kui muudate erandeid, aga programm käitub vanaviisi, kustutage samanimeline ndx-laiendiga fail ja käivitage programm uuesti.

Osaliselt on reegli- ja erandifailid programmi sisse ehitatud ja vajaliku faili puudumine tööd ei takista. Reeglid muutuvad siiski pidevalt, mistõttu valdavalt on failides leiduv info uuem ja täpsem.


Tegemisel:

  • reeglite ja erandite faile tüütult palju;
  • versiooninumbri kontroll puudu.


Programme puudutavad küsimused: tarkvara@eki.ee