EKI tarkvara ANALÜÜS Vigade parandus: 11.okt.2000 ![]() andmefailid ![]() programmid ![]() lähtekood, ver 3.3 (Pascal) |
Morfoloogiline analüüs
Analüüs on tuntuim morfoloogia rakendus, selle mooduli ülesandeks on iga tavatekstis vastu tuleva sõnavormi kohta pakkuda selle lubatud algvormid (kasutagem kohe mitmust, sest võimalusi on pigem mitu kui üks). Lauset 'Kui Eesti Vabariigi välislepingus on käesolevast seadusest erinevad sätted, kohaldatakse välislepingu sätteid' analüüsitakse järgnevalt: kui =kui (ID >kui !41_JD eesti =eesti (ID >eesti !41_G eesti =eesti (SgN >eesti !16_H eesti =eesti (SgG >eesti !16_H vabariigi =riigi (SgG >vaba+riik !22_S välislepingus =lepingu (SgIn >välis+leping !02_S on =on (IndPrSg3 >olema !36_V on =on (IndPrPl3 >olema !36_V käesolevast =oleva (SgEl >käes+olev !02_A seadusest =seaduse (SgEl >seadus !02_S erinevad =erine (IndPrPl3 >erinema !27_V erinevad =erineva (PlN >erinev !02_A "erinev %erine )V_vA
Vt lisaks Muutüüpide, sõnaliikide, tüvekoodide ja vormikoodide tähistused ning moodulite üldiseloomustus. Analüüs ei eelda mingit kindlat sisendit, tema ülesandeks ongi mistahes vormile algvormi leidmine.
Analüüs on olemuselt küll orienteeritud eestikeelsete tavasõnade tuvastamiseks, kuid praktilistest vajadustest johtuvalt annab vastuse ka tekstis esinevate numbrite, kriipsu ja ülakoma abil lisatud käändelõppude jms kohta. Sõnavormi analüüsil
demo_ana.exe Analüüsimiseks kirjutage sõnavorm programmi käivitamisel ilmunud akna sisestusvälja ja vajutage reavahetusklahvile või nupule 'Analüüs'. Sellisel juhul kuvatakse analüüsi tulemused samas aknas. Võimalik on veidi modifitseerida väljundit, asendades analüüsi tulemustes vormikoodi loetavamale kujule (vorminimi või klaarkood). Võimalik on ka lubada või keelata tuletusliidete analüüs. Viimasel juhul leitakse küll sõnavormile 'magajat' õige analüüs: magajat =magaja (SgP >magaja !01_Sosastav kääne lemmast 'magaja', tüüp 1, nimisõna, leidmata jääb aga tuletusalus "magaja %maga )JA_vS <magama ;27_V(magaja on tegijanimi verbist 'magama', tüüp 27) Kui liitsõnaanalüüs on sisse lülitatud, läbib sõnavorm analüüsi kaks korda. Esimesel ringil vaadeldakse seda kui lihtsõna, teisel ringil proovitakse leida võimalik liitsõnapiir ja analüüsitakse viimast leitud komponenti sõnavormis, nt ööuni ööuni =ööuni (SgG >ööun !02_S ööuni =ööuni (IndPrPs_ >ööunima !28_V ööuni =ööuni (ImpPrSg2 >ööunima !28_V # ---------- ööuni =uni (SgN >öö+uni !20_S ööuni =uni (IndPrPs_ >öö+unima !27_V ööuni =uni (ImpPrSg2 >öö+unima !27_VKoos kontrolliga sõnastikus jääb alles üksainus variant: ööuni # ---------- ööuni =uni (SgN >öö+uni !20_S(lemmad ööun ja ööunima ei saa juba fonostruktuuri poolest olemas olla; unima on küll igati ontlik tegusõna, mida aga tegelikus keeles pole). NB Väljundi vormi, tuletuse ja liitsõnaanalüüsi sisse- või väljalülitamine toob kaasa ka meeleshoitud sagedaste sõnavormide analüüsitulemuste uue initsialiseerimise, et analüüsi väljund oleks ühtlane. Väljundi kuju ja analüüsitingimusi on võimalik muuta ka faili töötlemise käigus. Programmi töö lõpetamiseks valige menüüst Fail -> Lõpeta (või vajutage sisestusreal ESC klahvi).
Tekstifaili analüüsimiseks
valige menüüst Programmi demo_ana.exe võib käivitada ka käsurealt. Selleks
Võtmed algavad alati kaldkriipsuga. Lubatud on nii suur- kui väiketähed. Binaarsed võtmed on: /t või /t+ (koos tuletusanalüüsiga), /t- (ilma) /l või /l+ (koos liitsõna analüüsiga), /l- (ilma) /s või /s+ (koos sõnastikuga), /s- (ilma)Vormikoodi kuju saab väljundis muuta võtmega /v /v0 - sisekood /v1 - vorminimi /v2 - klaarkoodVaikeväärtused on hetkel /t+ /l+ /s- /v1, kuid need võivad tulevikus muutuda ning parem on käsureal ette anda kõigi võtmete väärtused. väljundi kirjeldus Faili väljastatakse alati rida #:) algne sõnavorm muutmata kujulKui sõnavormis ei leidunud ühtki tähte, on see rida väljundis ainus, nt #:) 1996Kui analüüs ei leia ühtki sobivat tõlgendust, väljastatakse ### sõnavorm# -------- eraldab liitsõna osa. Väljundi ridade ees tähistab " - väljund on tuletusanalüüsist ? - lemmat ei leitud sõnastikust. Viimane on võimalik ainult siis, kui analüüs toimus sõnastikku kasutades kuid
sõnavorm =vormitüvi (vormikood >lemma !tüüp_sõnaliikvõi tuletusanalüüsist "sõnavorm %vormitüvi )vormikood <lemma ;tüüp_sõnaliik
1. Kui installeerite esimest korda, looge esmalt sobiv kataloogipuu. Loogiline kataloogide struktuur võiks olla: c:\eki_morfo\programmid\ (programmid) c:\eki_morfo\programmid\analyys\ (lähtekood vajadusel) c:\eki_morfo\andmed\ (andmefailid) 2. Laadige oma arvutisse andmefailid (est_morpho_data.zip) ja pakkige need lahti andmekataloogi. Andmefailid võivad küll asuda samas kataloogis programmide ja teekidega, parem lahendus on aga hoida andmefaile omaette kataloogis ja panna selle nimi keskkonnamuutujasse EST_MORPHO_DATA (vt juhend). 3a. Installeerige silbitus, tüübituvastus ja vormimoodustus, neid kõiki on analüüsil vaja. 3. Laadige oma arvutisse programmid (ana_bin.zip) ja pakkige lahti morfoloogiaprogrammide kataloogi. (4.) Kui leiate, et teile pakub huvi programmide lähtekood või, mis veel parem, olete valmis seda täiustama, laadige oma arvutisse koodifailid (ana_code.zip) ja pakkige lahti programmide kataloogi sobiva nimega alakataloogis. Analüüs koosneb: teegid:
andmefailid:
Esimesel käivitamisel teeb moodul paarist erandifailist enda jaoks sobivamad
indeksid laiendiga Osaliselt on reegli- ja erandifailid programmi sisse ehitatud ja vajaliku faili puudumine tööd ei takista. Reeglid muutuvad siiski pidevalt, mistõttu valdavalt on failides leiduv info uuem ja täpsem. Tegemisel:
Programme puudutavad küsimused: tarkvara@eki.ee
|
---|