Eesti keele tekst-kõne süntees



·       Tutvustus

·       Demod

·       Installeerimis- ja kasutusjuhend

·       Eestikeelne korpuspõhine kõnesüntees riikliku programmi "Eesti keele keeletehnoloogiline tugi" raames.


Tutvustus


Tekst-kõne süntees on inimlugemise analoogiks. Vaadeldes lugemist füsioloogia tasandil, näeme, et tegu on väga keeruka protsessiga. Joonisel on esitatud teksti häälega ettelugemise lihtsustatud skeem ja kujutatud inimese füsioloogilised organid, mis on kaasatud lugemisprotsessi.

Arvutil imiteeritav tekst-kõne süsteem on lihtsustatud mudel füsioloogilisest lugemisprotsessist. Tekst-kõne süsteem eeldab oma sisendis teksti, mis on eelnevalt juba arvutisse viidud. Tähemärkide optiline tuvastussüsteem või ekraanilugeja jääb tavaliselt tekst-kõne süsteemi käsitlusest välja. Süsteem ei sisalda ka tagasisideahelat, mis väljundi analüüsi põhjal võimaldaks automaatselt kõne valjust ja häälekõrgust kohandada vastavalt keskkonna tingimustele.

Nii nagu inimlugemine, sisaldab tekst-kõne süntesaator loomuliku keele töötlusmoodulit, mis teisendab sisendteksti hääldustekstiks koos soovitud intonatsiooni ja kõnerütmiga. Digitaalne signaalitöötlusmoodul teisendab sisendis oleva sümbolinformatsiooni loomuliku kõlaga kõneks.

Eesti keele tekst-kõne sünteesil teisendatakse eestikeelne kirjalik tekst suuliseks kõneks. Joonisel on toodud eestikeelse tekst-kõne süntesaatori plokkskeem, mis põhineb kompilatiiv- e ahelsünteesi filosoofial. Süsteem sisaldab teksti linvistilist töötlust, prosoodia generaatorit ning kõneüksuste ja kõneprosoodia andmebaase.

Kompilatiiv- ehk ahelsünteesil kasutame kõneüksustena difoone, millede akustilistes signaalides sisalduvad loomulikud üleminekud häälikult häälikule. Difoonid on kahest järjestikusest häälikust koosnevad segmendid (vokaal-konsonant, vokaaal-vokaal, konsonant-vokaal, vokaal-paus jne).

Difoonide kõnelainete

. . .

ja prosoodilise informatsiooni põhjal

moodustatakse väljundkõnesignaal.

Eesti keele tekst-kõne süntees on Eesti Keele Instituudi, Küberneetika Instituudi ja OÜ Filosoft ühisprojekt. Oleme liitunud ka rahvusvahelise sünteesiprojektiga MBROLA.

Demod

Kui tahate kuulata, kuidas eestikeelne sünteeskõne kõlab, siis proovige sünteesidemo aknas mõnd sõna või lauset. On võimalik lasta endale ette lugeda uudiseid Eesti Päevalehtedest.

Kui teil on huvi kõnesüntesaatorit oma arvutis proovida, siis järgige installeerimisjuhendit. Nõuded arvuti riistvarale on minimaalsed, vaja on vaid helikaarti ja kõlareid või kõrvaklappe. Süntesaator töötab Windows keskkonnas.


Difoonsünteesi installeerimis- ja kasutusjuhend

Süntesaatori installimiseks tuleb allalaadida ja käivitada kaks moodulit toodud järjekorras.

1. MBROLA signaalitöötlusprogramm (ver 3.5, maht 1.8 MB)
2. Eestikeelse kõnesünteesi tarkvara koos difoonide andmebaasiga ja reeglipõhise prosoodiamooduliga (ver 1.0, maht 9.6 MB) või statistilise prosoodiamooduliga (ver 2.0, maht 9.6 MB)

Õnnestunud installimise tulemusena tekib töölauale programm TKSyntees.

Selle käivitamisel ilmub ekraanile aken, kuhu on võimalik teksti tippida või kopeerida (nt Ctrl+C & Ctrl+V) ja lasta endale ette lugeda. Programm võimaldab muuta kõnetempot, kõne ilmekust (lause põhitooni), kõnevaljust, häälekõrgust ja -tämbrit. Sünteeskõnet saab salvestada ka mp3-formaadis faili "MP3-väljund". Kasutaja saab häälestada süntesaatorit oma maitse kohaselt ja valitud seadeid salvestada "Kasutaja seadete salvestus", mis jäävad kasutaja vaikeväärtusteks konkreetses arvutis. Pärast süntesaatori seadete katselist muutmist saab taastada nii "Kasutaja vaikeväärtusi" kui ka "Süsteemi algseadeid". Lisaks on võimalik modifitseerida "Kõneprosoodiat" (kõneühikute kestusi ja põhitooni sagedust) ning salvestada prosoodiaandmeid pho-faili ja väljundkõnet ennast wav-formaadis faili.

Eesti keele süntesaator on integreeritav teistesse Windows-põhistesse rakendustesse nn SAPI-liidese abil. Vastava tarkvara võib allalaadida Foneetika ja kõnetehnoloogia labori leheküljelt.

Eesti keele tekst-kõne sünteesi programmid on kasutatavad priivarana mitteärilisteks ja mittesõjalisteks eesmärkideks.

Kui teil on programmi TKSyntees installeerimise-kasutamisega probleeme või küsimusi sünteesi kohta, siis palun võtke ühendust .


Korpuspõhine kõnesüntees

2006. aastal käivitus riikliku programmi "Eesti keele keeletehnoloogiline tugi" raames projekt "Eestikeelne korpuspõhine kõnesüntees". Projekti eesmärgiks on luua kõrgekvaliteediline kõnesüntesaator, mis põhineks mõõduka suurusega (kuni üks tund salvestatud kõnet) kõnekorpusel. Kui difoonide andmebaasil põhineval sünteesil vastab igale võimalikule häälikult-häälikule üleminekule täpselt üks difoon, siis korpuspõhisel sünteesil on kogu kõnekorpus sünteesi akustiliseks baasiks ja kõneüksus valitakse konteksti põhjal. Kõneüksuste valik korpusest algab kõrgematelt tasanditelt (sõna, kõnetakt, silp) ja eelistatakse võimalikult pikki kõnestringe. Sellega minimeeritakse vajalikke kõnesignaali ühenduspunktide arvu kõnevoos. Kõneüksuste valikul optimeeritakse kõneüksuste lingvistilisi ja füüsikalisi parameetreid erinevate sobivuskriteeriumide alusel.
Korpuspõhise sünteesi loomine eeldab järgmiste ülesannete lahendamist:
- tekstikorpuse loomine;
- kõnekorpuse salvestamine professionaalsete diktorite esituses;
- kõnekorpuse märgendamine ja segmenteerimine eri tasanditel (fraas, sõna, kõnetakt, silp, foneem);
- korpuse esitamine fonoloogiliste struktuuridena, mida on võimalik kasutada valikalgoritmi realiseerivas programmis;
- kõneüksuste füüsikaliste (kestus, põhitoon, intensiivsus) ja lingvistiliste (üksuse naabrus, asend lausungis, rõhulisus, välde jm) parameetrite väärtuste määramine;
- kõneüksuste valikalgoritmide loomine;
- kõneüksuste heuristilise valiku ja signaalide ühendamise süsteem;
- kõnesignaali füüsikalisi ja lingvistilisi omadusi arvestavate heuristikute määramine tajukatsete meetodil;
- kõnesüntesaatori realiseerimine Festival - Unisyn ja Multisyn arenduskeskkonnas;
- kõne ajalise struktuuri ja põhitooni modelleerimine statistiliste meetodite abil.

Sünteeskõne loomulik rütm ja kõla modelleeritakse prosoodia generaatoriga. Käesoleva projekti raames modelleeritakse sidusa kõne korpuste baasil erinevate statistiliste meetodite (regressioon, klassifikatsioon ja regressioonipuud, närvivõrgud) abil kõne ajalist struktuuri ja põhitooni sagedust. Statistilist prosoodiamudelit on rakendatud difoonsünteesi baasil.

Korpuspõhine kõnesüntesaator on veel väljatöötluse faasis. Projekti raames loodud ressurssidest ja väljatöötatud sünteesimoodulitest on praegu kättesaadavad:

1. Kõnekorpuse jaoks koostatud tekstikorpus (692 lauset)
2. Kõnekorpus (54 minutit kõnet)
3. Statistilise prosoodiamudeli rakendus difoonsünteesil (eelnevalt peab olema installitud MBROLA signaalitöötlusprogramm)
4. Eestikeelsete elektrooniliste teabetekstide ettelugemise süsteem nägemispuudega inimestele