Tekstikorpustest on vabalt kasutatavad:

  • Kaks tekstikorpust täiskasvanud lugejale: 697 ja 3350 lausega.

  • Lastekorpus 1956 lausega

 

Kõnekorpustest on CC BY 4.0 litsentsiga kastuatavad ja allalaetavad järgmised korpused:

  • Meeshääle üksiklausete korpus Meelis: 1000 lauset ja 3 arvamusartiklit, 2 tundi, 16 min, 752MB
  • Naishääle üksiklausete korpus Liivika: 2000 lauset ja 3 arvamusartiklit, 3 tundi ja 34 min, 1,14 GB
  • Naishääle üksiklausete korpus Külli: 2000 lauset ja 3 arvamusartiklit, 3 tundi ja 24 min, 1,09 GB
  • Naishääle üksiklausete korpus Kersti: 2000 lauset ja 3 arvamusartiklit, 3 tundi ja 35 min, 1,15 GB
  • Tüdrukhääle üksiklausete korpus Lee: 2000 lauset ja seotud tekst, 3,0 tundi, 990 MB
  • Meeshääle ilukirjanduskorpus Meelis: 10 210 lauset, 4,8 GB
  • Naishääle ilukirjanduskorpus Külli:

Korpused allalaetavad autoriseeritud kasutajale siit:  https://www.eki.ee/litsents/

Lisaks on teaduslikel eesmärkidel võimalik kasutada 8 keelejuhi kõnekorpusi: kolm meeshääle korpust "Einar", "Tõnu" ja "Tõnis"; neli naishääle korpust "Madli", "Riina", "Liisi" ja "Eva" ning üks lapshääle korpus "Luukas". Kõnekorpus "Eva" sisaldab lisaks 2000 lausele ka 11000 üksikut sõna ja sõnavormi. Kui teil on huvi kasutada nimetatud kõnekorpusi (foneemi tasandil märgendatud ja segmenteeritud helifailid) teaduslikel eesmärkidel, siis võtke palun ühendust Liisi Piitsaga: See e-posti aadress on spämmirobotite eest kaitstud. Selle nägemiseks peab su veebilehitsejas olema JavaSkript sisse lülitatud., tel 6177535. Nende korpuste kasutamise tingimused fikseeritakse vastavas lepingus.

 

Kõnesünteesikorpuste analüüsi ja täiendamise programmipakett võimaldab:

  • komplekselt analüüsida korpuse struktuuri lause-, fraasi-, sõna-, silbi- ja foneemitasandil;
  • esile tuua foneemide, diftongide ja difoonide jaotuste statistika;
  • otsida baaskorpusest lauseid, mis sisaldavad foneeme sobivas ümbruses (eelmise ja/või järgmise foneemi määratlemisega) ning erineva asendiga sõnas (rõhulises või rõhuta silbis) ja/või fraasis (fraasi alguses, keskel või lõpus).

Kõnesünteesikorpuste analüüsi ja täiendamise programmipaketi  kasutusjuhend.

Programmide lähtekoodid on kättesaadavad VisualStudio2008 projektidest.