Eesti Keele Instituut

EKI tarkvara


HÄÄLDUSBAAS JA SKRIPTID


haaldus.csv



eksperimentaalne javascript tekstiasendusteks



Hääldusbaasi pidevalt täienev tööversioon (~300000 kirjet)

Võõrnimede hääldused

Hääldusbaas on ajapikku kogunenud subtiitrite helindamisprojekti käigus. Hetkel sisaldab see ~60 000 kirjet, neist ~20 000 on varustatud hääldusega (või on häälduse asemel +, mis tähendab, et hääldus on sama, mis kirjapilt). Kui sõnal on hääldus, on sõna ise reeglina lemmakujul ehk ainsuse nimetavas. Teine kasutatud erimärk on apostroof häälduses rõhulise silbi ees.

CSV on tüüpiline andmebaasi tabeli väljavõte teksti kujul. Lisaks võõrnimele ja hääldusele on nende vahel väli keelekoodi jaoks.

Sobiva häälduse leidmiseks

  • - eralda tekstist sõne ja puhasta lisamärkidest, nt koma selle taga.
  • - katseta käändelõppe nt lühemast pikema poole.
  • - kui sõne lõpus on käändelõpp ja esiots leidub hääldusbaasis, siis asenda tekstis sõne baasist leitud hääldusega + eraldatud käändelõpp

Loomulikult pole miski nii lihtne, nagu kasutusjuhend lubab. Kui tüvele leidub baasis mitu hääldusvarianti, tuleb esmalt eelistada täpset (nt pose ja posé). Kui ka täpseid on mitu, siis seda, millisest keelest tekst tõlgiti, selle puudumisel ilma keelekoodita varianti ja viimaks miski muu keele märgendiga varianti. Käändelõppude sobitamine tüve otsa nõuab vähemalt täis- ja kaashäälikute kontrolli. Näiteks Versailles'ile võiks välja praakida, kuivõrd baasist leitud häälduse ver'sai külge sobiks "le", aga mitte "ile". Kui sõna on sidekriipsuga mitmeosaline (Põhja-Pas-de-Calais, Ida-Hampshire, passé-sammud), proovige selle eri elemente. Jne. Hääldusbaasi mõistlik rakendamine on teie kätes.


Programme puudutavad küsimused: tarkvara@eki.ee