ELA, eesti keele lausete eraldaja tekstist (testversioon).

Tarmo Vaino
OÜ Filosoft
tvaino@psych.ut.ee

Sisukord

1. ELA programmipaketi failid
2. Installeerimine
3. Algoritmi lühikirjeldus.
4. ELA kasutamine
5.1 ELA sisend
5.2 ELA väljund
6 Probleemsed juhud
7 Tehnilised andmed
8 Teadaolevad vead ja puudused

1. ELA programmipaketi failid

ela.exe eesti keele lausestaja DOSis kasutamiseks
ela.fst lausestaja poolt lausestamiseks kasutatav tabel
baltic.cnv lausestaja poolt kasutav tabel täpitähtede teisendamiseks Win 1257 (Baltic) kooditabelist lausestajas kasutatavale kujule ja tagasi

Download (33 K)

2. Installeerimine

Kõik ELA paketti kuuluvad failid tuleb panna ühte kataloogi ja selle kataloogi nimi lisada keskkonnamuutujasse PATH.

3. Algoritmi lühikirjeldus

Programm töötab kahes etapis.

Esiteks eraldatakse sisendtekstist sõned ja määratakse nende klassid:

Klassi number

Klassi kirjeldus

3

Faili lõpp.

4

Lõiguvahe (mitu reavahetust või taandega algav rida).

6

Ornament (tärnidest jms koosnev sõne).

7

Väiketähega algav sõne.

8

Suurtähega algav sõne.

9

Alustav sulg - [{(.

10

Lõpetav sulg – )}].

11

Järgarv.

12

Üks punkt.

13

Kaks punkti

14

Kolm punkti.

15

Hüüumärk.

16

Küsimärk.

17

Väikese algustähega tiitel (prof. jms).

18

Suure algustähega tiitel (Prof. jms).

19

Väikese algustähega lühend, mis võib esineda suvalises positsioonis.

20

Suure algustähega lühend, mis võib esineda suvalises positsioonis.

21

Ainult lause keskel esinev lühend.

22

Midagi initsiaalilaadset (punktiga suurtäht).

23

Väiketäheline kuunimetus (jaanuar, veebruar jne).

24

Kuunime lühend (jaan., veebr. jne).

25

Suutäheline kuunimetus (Jaanuar, Veebruar jne).

26

Rooma numbrid (I-XII).

27

Alustav jutumärk.

28

Lõpetav jutumärk.

29

Komad (,;).

30

Koolon.

Teiseks määratakse failis "ela.fst" esitatud tabeli (graafi) abil sõneklassidele tuginedes lausete algused ja lõpud.

4. ELA kasutamine

"ela.exe" on mõeldud kasutamiseks DOSist järgmise käsureaga:

ela [-h] [-o väljundfailide-kataloog] [-e väljundfaili-laiend] [-f lausestaja-tabel] sisendfail [sisendfail…]

5.1 ELA sisend

ELA lausestab argumendiks antud ASCII formaadis tekstifailid, kusjuures täpitähed peavad olema esitatud Balti kooditabeli (WIN 1257) kohaselt.

5.2 ELA väljund

Väljundfaili nimi saadakse sisendfaili nimest laiendi asendamise teel. Väljundfaili laiendiks on vaikimisi ".lal" (seda saab –e parameetri abil muuta). Väljundfailis on iga sõna ise real, lause algus on tähistatud märgendiga $LA$ ja lause lõpp märgendiga $LL$. Sulud, jutumärgid, komad, lauselõpu punktuatsioon jms on tõstetud sõnast lahku. Kui lause lõppeb lühendiga, mille lõpus on üks punkt, siis jääb see lühendi lõppu ja eraldi lauselõpupunkti ei tule. Kui lause lõppeb lühendiga, mille lõpus on kaks (kolm) punkti, siis lüendi

Näiteks, kui fail "proov.txt" sisaldab teksti:

Tere!
------
Esimene lause. Teine lause.

siis käsuga:

ela proov.txt

saame väljundfaili "ela.lal":

$LA$
Tere
!
$LL$
-----
$LA$
Esimene
Lause
.
$LL$
$LA$
Teine
Lause
.
$LL$

6 Probleemsed juhud.

Mõned lausestajad märgendavad otsese kõne saatelause iseseisvaks lauseks. Käesolev märgendaja seda ei tee.

Teksti kujundamiseks kasutatud jooned, tärnid jms loetakse nn ‘ornamendiks’ ja need ei kuulu ühtegi lausesse.

7 Tehnilised andmed

Lausestajat on testitud MS DOS 7 peal (Win NT 4.0). Lausestaja töötas P5 200 protsessoriga arvutil kiirusega ~6000 sõna sekundis.

8 Teadaolevad vead ja puudused

Antud ELA versioon loeb ornamendiks (vt punkt 4) kõik sõned, mis ei sisalda ühtegi eesti keele tähte või numbrit. Ornamendi käsitlust peaks muutma veidi paindlikumaks.

Sulgude käsitlust tuleks muuta täpsemaks/paindlikumaks.