L 57L 58L 59

Sõnavarastatistika

Sõnavarastatistika ehk leksikostatistika on keelestatistika osa, mis tegeleb sõnavara statistilise uurimisega.

Sama sõna tähistab ka statistilist meetodit keelte sõnavara erinevuse ja kokkulangevuse määra kindlakstegemiseks.

Eesti leksikostatistikas on tehtud näiteks järgmisi uurimisi:

eesti sõnavara – eesti kirjakeele sõnavara kasv ja areng kaheksa ajavahemikus 1660–1976 ilmunud sõnaraamatu alusel; sõnavara sotsiaalne jagunemine 1976. a ÕSi märgendiga sõnade alusel;

eesti sõnade sagedus (nt eesti ilukirjandusproosa autorikõne lekseemide sagedus; kirjakeelesõnade sagedus 1990. aastate ilukirjandus- ja ajalehetekstide põhjal);

eesti sõna kvantitatiivsed karakteristikud – sõna foneetiline ehitus (konsonantide ja vokaalide esinemus eri positsioonides, sõna pikkus tähtedes ja silpides mõõdetuna, sõna pikkuse ja sageduse seos), sõna grammatiline ehitus (tuletusliidete ja liitsõnaosade sagedus, sõnade jaotumus sõnaliigiti), sõnade semantiline rühmitumine;

eesti teksti analüüs – tekstide leksikaalse rikkuse hindamine, tekstide leksikaalse seose mõõtmine;

Heiki-Jaan Kaalep ja Kadri Muischnek on koostanud "Eesti kirjakeele sagedussõnastiku" Tartu, 2002.

Tavaline inimene aga esitab hoopis küsimuse, kui palju on eesti keeles sõnu. Sellele lihtsale küsimusele on raske vastata. Esiteks kerkib vastuküsimus, kas eesti keele all on mõeldud üksnes eesti kirjakeelt või eesti keelt laiemalt koos kõigi koha- ja sotsiaalmurretega. Teiseks tekib raskusi sõna piiride määramisega: tihtipeale on ebaselge sõna ja sõnavormi piir, kokkukirjutatu (seega omaette sõna) ja lahkukirjutatu piir. Kolmandaks on eesti keeles liitsõnade moodustamine lihtne, tuhanded sõnad võivad omavahel täiendsõnana või põhisõnana igatmoodi kombineeruda ning moodustada aina uusi ja uusi sõnu juurde. Raske pole paljude tuletistegi tegemine.

Mujal maailmas ongi loendatud kirjanike või üksikute teoste sõnu. Näiteks on teada, et Shakespeare kasutas oma töödes 24 000 sõna, Puškin 21 200, Hugo 28 000, Homerose eepostes on 6084 ja "Kalevalas" 7830 erinevat sõna. Need arvud näitavad ühe sõnarikka inimese aktiivse sõnavara suurust, mis on alati palju väiksem kui inimese passiivne sõnavara.

On teada ka sõnade arv paljudes sõnaraamatutes. Ameeriklaste kõige suuremas sõnavaramus – Websteri sõnaraamatus on üle 600 000 sõna, soome kirjakeele seletussõnaraamatus "Nykysuomen sanakirja" on 201 000 sõna, eesti 1976. a "Õigekeelsussõnaraamatus" on 125 000 sõna, ÕS 1999-s ja ÕS 2006-s 130 000 ümber. Kas võib siit välja lugeda, et eesti keel on sõnade arvult vaesem kui inglise või soome keel? See oleks siiski ennatlik: asi on ainult selles, kui suure sõnaraamatu tegemine on eesmärgiks seatud. Õigekeelsussõnaraamatut koostades on raskus pigem selles, kuidas tohutu sõnamaterjali hulgast kõige olulisem välja valida ja sõnaraamatusse mahutada. Sõnu on aga eesti keeles palju, palju rohkem. Kui mõelda veel eesti oskussõnavara peale (kas või keemia, botaanika ja zooloogia hiigelnomenklatuuridele), siis ainuüksi eesti kirjakeeleski poleks miljonist sõnast rääkida sugugi palju. Kui võtame aga juurde murdesõnavara, mis kirjakeeles ei esine, siis tuleks lisada ehk veel paarsada tuhat sõna.

Ainult nii üldiselt saab vastata sellele lihtsale küsimusele.