Eesti Keele Instituut

EKI tarkvara


TÜÜBITUVASTUS


andmefailid



programmid



lähtekood (C)

Tüübituvastus

 


Sõnaliigi- ja tüübituvastus on funktsioon, mis seab algvormis (ma-infinitiiv verbil ja ainsuse nominatiiv noomenil) sisendsõnale vastavusse tema muutüübi ja sõnaliigi VVS-i klassifikatsiooni kohaselt (VVS = Ü. Viks, Väike Vormisõnastik I, II. Tallinn 1992).

Sisendina eeldatakse eestikeelse sõna väiketähtedega kirjutatud algvormi. Väljundiks on string, mis koosneb omavahel alakriipsuga (_) eraldatatud muuttüübi kahekohalisest numbrist ning sõnaliigi tähisest. Erijuhtumid on:

  • paralleeltüübid: kui üks sõna võib muutuda kahe erineva muuttüübi järgi, nt sõnast poodium on ainsuse osastav kas poodiumi (nagu seminari - tüüp 19) või poodiumit (nagu kahjumit - tüüp 02). Lingvistiliselt võrdõiguslike paralleeltüüpide vahel seisab tilde (ütlus 11_S~09_S), juhul kui üks paralleeltüüpidest loetakse põhitüübiks ja teine küsitavaks, on küsitava tüübi ees küsimärk (koer 23_SA?22_SA).
  • homograafid: kui eri sõnad on algvormis ühesugused, nt ehe - ehte ja ehe - eheda või viis - viisi ja viis - viie. Kui homograafid kuuluvad eri muuttüüpidesse, eraldatakse tulemused väljundis püstkriipsuga (ehe 02_A|05_S|06_S).
  • keelud. Kui sisend ei vasta eestikeelse sõna algvormi tingimustele, siis on väljundiks tühi string või trellid (#) sõltuvalt sellest, kas ei leitud ühtki sobivat reeglit või leidus keelav reegel.

Sisendit käsitletakse lihtsõnana, sest muuttüüp sõltub silpide arvust. Liitsõna puhul tuleb õige tulemuse saamiseks väljakutsuvas moodulis eraldada liitsõna viimane komponent ning anda see tüübituvastusele sisendiks. Näiteks sõna rõduuks puhul oleks tüübituvastuse funktsiooni sisendiks ainult uks, vastasel juhul määratakse tüübiks 22_S ja käänatakse rõduuks - rõduuksi - rõduuksi.

Vt lisaks Muutüüpide, sõnaliikide, tüvekoodide ja vormikoodide tähistused ning moodulite üldiseloomustus.



1. Kui installeerite esimest korda, looge esmalt sobiv kataloogipuu. Loogiline kataloogide struktuur võiks olla:

c:\eki_morfo\programmid\                (programmid)
c:\eki_morfo\programmid\tyybituvastus\  (lähtekood vajadusel)
c:\eki_morfo\andmed\                    (andmefailid)

2. Laadige oma arvutisse andmefailid (est_morpho_data.zip) ja pakkige need lahti andmekataloogi. Andmefailid võivad küll asuda samas kataloogis programmide ja teekidega, parem lahendus on aga hoida andmefaile omaette kataloogis ja panna selle nimi keskkonnamuutujasse EST_MORPHO_DATA (vt juhend).

3a. Installeerige silbitusmoodul, sest seda kasutab tüübituvastus oma tööks.

3. Laadige oma arvutisse programmid (tyyp_bin.zip) ja pakkige lahti morfoloogiaprogrammide kataloogi.

(4.) Kui leiate, et teile pakub huvi programmide lähtekood või, mis veel parem, olete valmis seda täiustama, laadige oma arvutisse koodifailid (tyyp_code.zip) ja pakkige lahti programmide kataloogi sobiva nimega alakataloogis.

Tüübituvastus koosneb:

teegid:

  • silbitus
  • ago_typedet.dll (reeglitega tuvastus)
  • typedet.dll (reeglid ja erandid)

andmefailid:

  • noun.rul
  • verb.rul
  • pos.rul
  • stemdet.rul (tüvetuvastusreeglid, alles tegemisel)
  • stemdet.exc (tüvetuvastuserandid)
  • typedet.exc (tühi fail)
  • tyybituvastus.era (tüübituvastuserandid).


Tegemisel:

  • tüvetuvastus veel pooleli;
  • versiooninumbri kontroll puudu.


Programme puudutavad küsimused: tarkvara@eki.ee