Mis on mis

Eesti keeles on sõnadel palju muutevorme. Sõnastikes on tavaliselt neist ainult üks - algvorm e lemma. Tekstides võib sõna esineda mistahes vormis.

Noomenil e käändsõnal on 14-15 käänet ainsuses ja mitmuses, nt jalg, jala, jalga, jalale, jalad, jalgu e jalgasid, jalgadega jne. Noomeni algvorm on ainsuse nimetav, nt jalg, harilik, kuus, esimene, see.

Verbil e pöördsõnal on olemas käändelised vormid (infinitiivid, partitsiibid ..., nt jalutamas, jalutada, jalutanud, jalutades jne) ja pöördelised vormid, mis võivad olla lihtvormid (nt jalutavad, jalutage, jalutata, jalutanuksin jne) või liitvormid (nt eitus — ei jaluta, ärge jalutage, ei jalutata; ja liitajad — oleksin jalutanud, on jalutatud). Verbi algvorm on ma-infinitiiv, nt jalutama. Muutumatutel sõnadel muutevorme ei ole, ainus vorm on ka algvormiks, nt jalgsi, nüüd, alla, hei.

Paljudel vormidel on olemas ka paralleelvormid — neil on sama grammatiline tähendus, kuid erinev kuju, nt sabasid & sabu (mõlemad on mitmuse osastava vormid sõnast saba) või aastatel & aastail (mitmuse alaütlev sõnast aasta) või jalutanuksin & oleksin jalutanud (tingiva kõneviisi mineviku ainsuse 1. pööre sõnast jalutama).

Morfoloogiline süntees alustab algvormist ja moodustab kõik muud muutevormid e morfoloogilise paradigma (k.a paralleelvormid). Morfoloogiline analüüs alustab suvalisest muutevormist ja jõuab välja algvormini. (Süsteem tegeleb esialgu ainult lihtvormide sünteesi ja analüüsiga.)

Sõna võib olla lihtsõna (jalg) või liitsõna (laua+jalg, jalg+ratas, ala+vääristama, maa+ilma+kuulus). Liitsõna käändub tavaliselt nii, nagu tema viimane osa, esimesed osad jäävad muutumatuks (laua+jalg : laua+jalad, jalg+ratas : jalg+rattaga, ala+vääristama : ala+vääristasite, maa+ilma+kuulus : maa+ilma+kuulsaid). Sünteesi sisendiks on ainult liitsõna viimane osa. Analüüs otsib sõnavormist võimalikke liitsõnapiire.

Lihtsõna võib olla tuletamata sõna (asi) või tuletis (asine, asjatu, asjatult, asjalik, asjalikkus, asjalikult, asjatama, asjastama jne). Süntees praegu ei moodusta tuletisi, vaid suhtub igasse sisendisse kui lihtsõnasse. Analüüs püüab kõige regulaarsematel juhtudel leida tuletise jaoks tuletusalust — sõna, millest tuletis on saadud, nt jalutamine, jalutav -> jalutama; asjatu, asjatult -> asi; asjastatum -> asjastama. Liited, mida tuletusanalüüs arvestab, on failis der-tab.

Iga muutevorm koosneb kahest osast: tüvest ja formatiivist (piiri märgib kantsulg): jala[le, jala[d, jalga[dega, jaluta[ma, jaluta[ge. Jaotus ei sõltu sellest, kas tüves või formatiivis leidub väiksemaid koostisosi (tuletusliiteid, grammatilisi tunnuseid jne), vrd asja[st - asjalikkuse[st, tule[ga - tulemise[ga, suur[tele - suurema[tele.

Tüvi kannab sõna leksikaalset tähendust ‘jalg’, ‘jaluta’. Formatiiv väljendab muutevormi grammatilist tähendust, nt [le — ainsuse alaleütlev, [d — mitmuse nimetav või kindla kõneviisi ainsuse 2. pööre, [dega — mitmuse kaasaütlev; [ma — ma-infinitiiv, [ge — käskiva kõneviisi oleviku mitmuse 2. pööre. On ka vorme, millel formatiiv puudub (nn null-formatiiv): [0 — ainsuse nimetav (jalg[), ainsuse omastav (jala[); käskiva kõneviisi oleviku ainsuse 2. pööre (jaluta[).

Igal paradigma liikmel e muutevormil on oma unikaalne vormikood (paralleelvormidel ühine). Vormikoodid ja vastavad omakeelsed vorminimed on kirjas failis fcodes.ini. Grammatilised kategooriad, mis on muutevormi tähenduse aluseks, on lahti seletatud Lisas 3.

Tavalises kirjutatud tekstis väldet ei märgita. Kuid on olemas küllalt palju sõnu ja muutevorme, mis erinevad ainult välte e aktsendi poolest, vrd

Mõnes rakenduses võib välte arvestamine olla oluline, nt kõnesünteesis või keeleõppes. Sel juhul tuleb moodulites valida vältega režiim. Tähistada tuleb ainult raske aktsent (e 3. välde): ülakoma raske silbi esimese vokaali ees. (Vältetuvastuse moodul esialgu puudub.)

Eesti keele eripära on morfoloogiliste üksuse suur varieerumine.

Osa formatiive on alati ühel ja samal kujul, kuid nad võivad ka varieeruda. Vrd mitmuse omastav: de / te, nt tuba[de - hobus[te;

da-infinitiiv: da / ta / a, nt `õppi[da - haka[ta - j`uu[a.

Eriti palju varieeruvad tüved: sama sõna tüvi võib eri vormides olla mitmel (kuni viiel) eri kujul, vrd sõna tuba eri muutevormides: tuba, tuba[de, tuba[sid, tuba[deks ... - t`oa, t`oa[s, t`oa[d ... - t`uppa - tube.

Tüvevariante vaadatakse paarikaupa. Mõned tüvevariandid erinevad teineteisest lõpuhäälikute poolest, nt redel - redel|i, hele - hele|da, lusika|s - lusika, p`eeg|el - p`eeg|li jne. Algvormi tüvi on lemmatüvi (tähis a), muud tüvevariandid on muutetüved (tähised b ja c).

Mõned tüvevariandid erinevad sisehäälikute poolest, nt vaade - v`aate, v`andu[ma - vannu[b jne. Koos sisehäälikute teisenemisega muutub ka aktsent, aga vahel ainult aktsent, nt võime - v`õime, v`alva[ma - valva[ta. Sisemuutus seob tüve tugevat astet (tähis t) ja nõrka astet (tähis n). Kui sisemuutusi ei ole, siis see on astmemuutuseta tüvi (tähis 0).

Mõned tüvepaarid erinevad korraga nii sise kui lõpuhäälikute poolest, nt rann|e (an) - r`and|me (bt), v`aat|le[ma (at) - vaad|el[da (bn).

Lõpu- ja sisemuutused tüvedes ei ole seotud konkreetsete muutevormidega, vrd

SgN SgG SgP PlG
`eit (at) eide (bn) `eite (bt) `eite[de (bt)
heide (an) h`eite (at) heide[t (an) heide[te (an)
heide (an) h`eitme (bt) heide[t (an) h`eitme[te (bt)

Kuid on ka tüvemuutusi, mis on seotud grammatiliste tähendustega. Suunduvas käändes võib esineda gemineerunud tüvi (tähis g), nt tuba (at) - t`uppa (atg), maja (a0) - m`ajja (a0g). Mitmuses võib esineda vokaalmitmuse tüvi (tähis v), nt maja (a0) - maju (a0v), v`aati (bt) - v`aate (btv). Mõned tüvemuutused on tingitud järgnevast formatiivist (tähis r), nt mõjub i-ga algav formatiiv: v`oodi (a0) - v`oode[id (a0r), id`ee (a0) - id`e[id (a0r).

Tüvevariante saab üksteisest moodustada tüvemuutusreeglite abil. Iga tüvemuutuste liigi jaoks on oma grammatika, nt lõpumuutuste reeglid on failides rules_ab.rul (a-tüvest b-tüve moodustamine) ja rules_ba.rul (b-tüvest a-tüvi) ning nende reeglite erandid failis ab_ba.exc.

Tüvemuutusreeglite tööd juhib fail stemguid.txt, mis näitab, millised tüvevariandid mingis muuttüübis üldse olla saavad ja kuidas on tüvevariandid omavahel seotud: millest mida moodustada.

Kuidas tüvede ja formatiivide variandid omavahel muutevormides kokku käivad, seda kirjeldavad kombinatoorikareeglid. Iga muuttüübi puhul on iga paradigmaliikme jaoks fikseeritud tüve- ja formatiivivariandi lubatud kombinatsioon. Kui tüüp lubab paralleelvorme, siis näidatakse mõlemad (vahel &). Nt

tüüp SgN SgG SgP PlG PlP ...
06 an[] at[] an[t] an[te] at[id]  
22 at[] bn[] bt[] bt[de] bt[sid] & btv[]  

Sünteesimooduli kombinatoorikareeglid on failis form.rul, analüüsimooduli jaoks on fail form-tab. Mõlema jaoks ühised erandid on failis form.exc.

Reeglifailide sisu on sama, esitusviis erinev. Sünteesi lähtepunkt on sõna algvorm ja tema muuttüüp: iga tüübi all näidatakse iga muutevormi jaoks, milline tüvevariant ja milline formatiivivariant kokku tuleb panna
(22: ------1K:bt[dega]), nt j`alga[dega.

Analüüsi lähtepunkt on sõnavorm ja sellest eraldatav formatiivivariant. Failis form-tab näidatakse iga formatiivivariandi jaoks, mis muutevormi see võib esindada (võimalikud vormikoodid), ja iga võimaliku vormi puhul järgneb loend tüübi ja tüvevariandi paaridest, mis selle formatiivivariandi ees saavad kõne alla tulla
(dega,------1K,,08an,16a0,17a0,18at,19b0,20b0,21bt,22bt,24bt,25bt,26a0).

Tuletusanalüüsiks vajalikud kombinatoorikareeglid on failis der-tab (erandid failis der.exc). Iga tuletusliite variandi jaoks näidatakse tema tuletuskood, millele järgneb loend võimalikest tuletustüve variantidest, mis talle saavad eelneda (samuti tüübi ja tüvevariandi paarid nagu vormianalüüsiski).

Muuttüüp on vältimatu element morfoloogiamoodulites. Ühte muuttüüpi kuuluvad sõnad, mis käänduvad-pöörduvad ühtmoodi kõigis muutevormides, s.t neil on kogu paradigma ulatuses ühesugune formatiivivariantide valik ja ühesugune tüvevariantide kasutusviis. Kui sõna muutub mitmel eri viisil, saab ta mitu tüübinumbrit.

Sõna muuttüüp ja ka sõnaliik sõltuvad suurel määral tema fonoloogilisest struktuurist: algvormi silpide arvust ja lemmatüve viimastest häälikutest. Nt noomenireegel ‘2 Clik 25_A’ ütleb, et kui sõnal on ainsuse nimetavas 2 silpi ja ta lõpeb järjendiga ‘konsonant + lik’, siis on ta adjektiiv ja kuulub tüüpi 25, nt petlik, piinlik. Verbireegel ‘3 Zele 31_V~27_V’ ütleb, et kui verbil on ma-infinitiivi formatiivi ees 3 silpi ja lõpus järjend ‘lühike konsonant + ele’, siis kuulub ta tüüpi 31 või tüüpi 27, nt kõnelema (31: kõnel[da, kõnel[nud... või 27: kõnele[da, kõnele[nud...).

Tuvastusreeglid tüübi ja sõnaliigi määramiseks on failides pos.rul (eristab verbi muudest sõnaliikidest), verb.rul (verbitüüpide tuvastamise reeglid) ja noun.rul (noomenitüüpide ja muutumatute sõnade tuvastamise reeglid). Tuvastuserandid on failis tuvastus.era. Sõnaliikide loend on Lisas 1. Reeglites kasutatavad häälikuklassid on enamasti puhtformaalsed klassid, mille abil saab reeglite kirjapanekut hõlbustada.

Tuvastusreeglitega on võimalik ka välistada teatud struktuuriga sõnu, mis pole omased eesti keelele. Esiteks ei kõlba algvormiks tüüpilised muutevormid, nt reegel ‘3 del #’ välistab algvormide hulgast vanadel. Teiseks saab välistada võõrapärased häälikulised struktuurid, nt reegel ‘1+ j #’ välistab 1- ja enamasilbilised sõnad, mis lõpevad j-ga (nt tadj, tokaj).

Silpide arvu ütleb silbitusmoodul. Silbituse põhireeglid on programmi sisse kirjutatud, erandid ja erandlikumad reeglid on failis syll.exc.

Kõik reeglid ja erandid on tekstifailides ja neid saab vajaduse korral muuta. See võimaldab kohandada süsteemi nt konkreetse ainevaldkonna sõnavaraga või kohandada reegleid nt pärisnimede jaoks (mis võivad käänduda teisiti kui vastavad üldnimed, vrd saag - sae, aga Saag - Saagi).

NB! Reeglite muutmine ilma autoritega konsulteerimata ei ole siiski soovitatav.


Näiteid:

Kuidas moodustada muutevorme liitsõnast, nt jalgrattad

Kuidas moodustada verbi liitvorme, nt ei oska, on sündinud

Kuidas asendada tekstis üks sõnavorm tema sünonüümiga samas vormis (kui on kasutada ka sünonüümisõnastik), nt palavaid - kuumi

Kuidas leida tõlget tuletisele (kui on kasutada ka kakskeelne sõnastik), nt saagimist - ?saagima