Arvutimaailm 7/1994 lk 54-55
Heiki-Jaan Kaalep

Keeletehnoloogia - mis see on

Turg

Tehnoloogia on viis, kuidas asju tehakse. Inimestevaheline suhtlemine, mis valdavalt toimub ju keele vahendusel, on niivõrd tähtis ja ulatuslik valdkond, et tehnoloogiline mahajäämus selles (alates kirjaoskamatusest ja lõpetades telefonide puuduse või viletsa arvutisidega) takistab oluliselt kogu ühiskonna arengut.

Väikegi edusamm suhtlemisega seotud tehnikas (s.h. tarkvaras) muudab oluliselt inimest ja ühiskonda. Muutused tehnoloogias tähendavad muutusi tarbimises ja tootmises; ühtede rikastumist ja teiste mahajäämist ning vaesumist. Personaalarvutite ning ülemaailmsete arvutivõrkude levik toovad kaasa vahendid, mis on oluliselt intelligentsemad kui senised suhtlemist hõlbustavad tehnilised seadmed. Jutt on vahenditest, mille oluliseks osaks on tarkvara ja mida kokku võiks nimetada keeletehnoloogiaks - s.o. tehnoloogiaks, mis on seotud inimkeele kasutamisega.

Ka Eestis areneb tormiliselt Internet ja valmistutakse Euroopasse integreerumiseks; ilmselgelt kasvab vajadus tõlkimise järele. Näiteks Euroopa Ühenduses kehtib põhimõte, et kõik tähtsamad bürokraatlikud dokumendid nagu seadused, otsused jms. peavad olema kättesaadavad iga liikmesmaa emakeeles; see tähendaks igal aastal kümnete tuhandete lehekülgede tõlkimist eesti keelde. Eesti tulevikku on lihtne ennustada: see, mis toimub praegu Ameerikas ja Euroopas, toimub varsti ka Eestis.

Veel 5 aastat tagasi ei olnud USA-s loomuliku keelega seotud programmidele turgu. Juba 1993. a. saadi aga loomuliku keelega tegelevate programmide ja nende teenuste müügist u. 71,6 miljonit dollarit. Iseenesest ei ole see USA mastaape arvestades suur summa, kuid ta kasvab pidevalt. Mainitud 71,6 miljonist umbes pool maksti masintõlkega seotud süsteemide eest; lisaks neile loomuliku keele liideste eest andmebaasidele, teksti liigitamise ja sisu otsimise süsteemide, grammatika ja stiili korrektorite, jutukirjutajate (s.t. vahendite, mis teisendavad suulise kõne kirjalikuks tekstiks) eest. Euroopa vastav turg oli 1993. a. u. 20 miljonit dollarit ja optimistlike hinnangute kohaselt võiks 1996. a. USA ning Euroopa turg kokku moodustada 340 miljonit dollarit.

Keeletehnoloogia praktikas

6-8 juulil 1994 toimus Pariisis Language Engineering Convention. See oli rakendusliku arvutilingvistika foorum, kus peeti ettekandeid, diskussioone ja demonstreeriti olemasolevaid kommertsprodukte.

Nii elementaarsetest asjadest nagu sõnade õigekirja või lauseehituse kontroll seal juttu ei tehtud. Põhiliselt kõneldi programmidest, mis seotud tõlkimise, kõne, ettevõtte info-käsitlemise ja info-otsinguga suurtest dokumendikogudest.

Masintõlge

Pärast 1970-ndaid ja 80-ndaid aastaid, mil huvi masintõlke kui kättesaamatu vastu oli väga väike, on muutunud nii arvutid kui ühiskond. See, et tekstid koostatakse arvutitega, et igal telefoniga inimesel on võimalik oma arvuti lülitada modemi kaudu ülemaailmsesse võrku ja et Euroopa Ühenduses kehtib põhimõte - kõik keeled on võrdsed, s.t. informatsioon peab olema võrdselt kättesaadav nii suure kui väikese keele kõnelejale - kõik see tähendab, et osaline ja piiratud masintõlgegi võib olla vajalik ja müüdav produkt.

On selge, et kui tekste luuakse arvuti abil, on mugav neid ka töödelda (s.h. tõlkida) arvuti abil; käsitöö ei suuda ju automaadiga mahu poolest võistelda.

Siin on mitu võimalust.

Üldiselt võib väita, et olemasolevad programmid ei ole mitte niivõrd sügavate teoreetiliste tööde kui hästi tehtud inseneri-töö tulemus, kus suurt tähelepanu on pööratud kasutaja-liidesele ja -mugavusele.

Igatahes Louxemburgis kasutavad eurobürokraadid praegu 200 000 lk. masintõlget aastas; veel 2 aastat tagasi oli see arv 2000 lk.

Kõnetehnoloogia

Kuigi praegu juba on võimalik osta vahendeid, mis mikrofoni kaudu sisestatava kõne teisendavad tekstiks arvuti mälus, on suulise kõne mõistmisel piirangud sõnavarale praegu siiski veel suuremad kui masintõlke puhul. Sellele vaatamata eksisteerivad kasulikud inimkõnet äratundvad süsteemid. Näiteks on Itaalias kasutusel automaatne telefoni-operaator, mis häälega öeldud numbri järgi ütleb, kellele see number kuulub (Itaalia seadused lubavad seda). Kurioosumina võiks veel tuua süsteemi, mis võimaldab videomakki suulise kõne abil programmeerida; aga kui paljud siis ikkagi oma videomakki üldse programmeerivad?

Ühismälu

Ettevõtted, mis tegutsevad teadusmahukas sfääris ja on ka suured, vajavad palju tõhusamaid vahendeid nii sisese kui välise informatsiooniga toime tulemiseks. Nad peavad olema kursis uute tehnoloogiatega ja teadma, milline argument on parim konkreetse allhankija taganttorkimisel.

Lennukitööstuses kulub lennuki disainimise alustamisest kuni tema tootmisse andmiseni 25-35 aastat; seejärel on lennuk tootmises 10 a. ja siis tahab ta juba moderniseerimist. Üks keskmine insener jõuab enne pensionile minekut töötada aga vaid 40 aastat; nii et inimene, kes osales projekteerimisel, on moderniseerimise ajaks juba töölt lahkunud. Reeglina on küll alles kirjeldus, KUIDAS üksikud osad (näit. mootor) on tehtud, aga MIKS ta just selline on, teab ainult insener ise. Pealegi on tootmine sageli rahvusvaheline, nii et tuleb hoolitseda ka ettevõtte-sisese dokumentatsiooni tõlkimise eest. Seega on nõuded suuremad kui traditsiooniline ettevõtte infosüsteem suudab lahendada. Lahendust nähakse ettevõtte ühismälus (corporate memory), mis sisuliselt on targalt organiseeritud dokumentide kogum (teadmiste baas). Seda loovaid ja teenindavaid süsteeme konverentsil ka tutvustati.

Infootsing

On üldiselt teada, et kui leiutise tegemine maksab alla 100 000 $, siis on odavam see leiutis uuesti teha kui otsida arhiividest tema kirjeldust. Aga kui otsimine oleks odavam? Kui meil oleks programm, mis meie küsimise peale ise dokumendikogusid läbi vaataks? Selleks peavad dokumendid (kokkuvõtted, aruanded, seaduste tekstid, toote-kirjeldused jms) eksisteerima arvutile loetaval kujul; ja seda nad tavaliselt ka on, kuna nad ju arvutitega koostataksegi. Teiseks peab see programm mingil moel aru saama, mis on iga konkreetse dokumendi sisu. Võib proovida dokumente enne andmebaasi paigutamist arvuti abil liigitada ehk indekseerida, kasutades näiteks võtmesõnu või mingeid keerulisemaid meetodeid, mis üldiselt annavad paremaid tulemusi. Ka siin kehtib seaduspärasus, et mida kitsam on dokumentide temaatika ja mida paremini on nende iseloom ette teada, seda täpsem on saadud automaatne liigitus. Arvutivõrkude areng toob kaasa rõõmu, et ka kitsalt spetsialiseeritud andmebaaside klientide hulk on küllalt suur ja kulutused informatsiooni kättesaadavuse parandamiseks tasuvad end ära.

Võimalik on ka ülalkirjeldatud funktsioone täitvaid programme ühendada: näiteks tõlkijatele vajalik terminoloogiline andmebaas, millele saab ligi arvutivõrgu kaudu või võrgus töötav masintõlke-server; või andmebaas, mis vastab suhteliselt vabalt sõnastatud päringule, kusjuures see päring võib olla kliendi poolt valitud keeles ja ka väljastatav dokument võib olla mitte selles keeles, milles tehti päring. Siin on igaühel võimalik mõelda ja kombineerida, et olemasolevaid teadmisi ja algoritme ning programme ühendada uuel moel, mis kasutajate huvi ärataks ja läbimüügi tagaks. Nagu igasugust tööstust, nii iseloomustab ka keelerakenduslikku tarkvaratööstust tootmine vastavalt nõudlusele, mitte tehnoloogilistele võimalustele.

Lingvistilised ressursid

Siiski on Euroopas jõutud äratundmisele, et tee sellest, mis on teoreetiliselt võimalik, selleni, mis praktiliselt toodetav, on üksikfirmadele liiga raske. Kujutame näiteks ette, et mõni tarkvarafirma tahaks luua primitiivset inglise-eesti masintõlkesüsteemi tarkvarapakettide juhendite tõlkimiseks, mis on teoreetiliselt üsna lihtne ülesanne. Kindlasti on sel puhul vaja inglise-eesti sõnastikku arvutis, mingeid reegleid lausekonstruktsioonide ja fraaside tõlkimiseks ja siis veel tekste, mille peal oma tulemusi kontrollida. Sõnastiku võib võtta raamatukogust ja käsitsi sisse toksida, reegleid võib saada grammatika õpikutest, tekste võib samuti ise sisestada. Seda kõike võib teha ja saada hiigelsuure töö tulemusena kaunis kasutuskõlbliku programmi, aga tuleb tõdeda, et kulud on liiga suured. Ja iga firma, kes püüab midagi analoogilist teha näiteks teist tüüpi tekstidega või hoopis info-otsingu vallas masintõlke asemel, peab jällegi sisestama sõnastiku, tekstid ja kõik muu. Asi pole ju ainult selles, et üks firma ei luba oma sõnastikku teistel kasutada, vaid pigemini selles, et konkreetse produkti jaoks tehtud töö ei ole pahatihti teistesse valdkondadesse üldse ülekantav.

Hoopis parem oleks, kui firmadele ja ka uurijatele oleksid kättesaadavad lingvistilised ressursid - sõnastikud arvutis, formaalsed grammatikad, tekstide kogumid ehk korpused. Nad saaksid nende hulgast valida mingi alamhulga, mida konkreetsete operatsioonisüsteemide, arvutite ja standarditega seotud programmide aluseks võtta. Euroopa Ühenduses leitakse, et selline "poolele teele" vastutulek on hädavajalik, et mitmekeelne Euroopa saaks konkureerida ükskeelse Ameerika ja Jaapaniga. Enamgi veel; probleemid, millega Euroopa oma mitmekeelsuse tõttu on silmitsi, kerkivad kindlasti peatselt kogu mitmekeelse maailma ette; ja siis võiks Euroopal olla teatud edumaa.

Selle edumaa nimel finantseerib EÜ mitmeid sihtprogramme keeletehnoloogia alal, püüdes ka Kesk- ja Ida-Euroopat oma programmidesse haarata. Finantseerimine käib seejuures järgmiselt: kuulutatakse välja, et EÜ finantseerib mingi valdkonna süva- või rakendusteadust ja palutakse esitada oma taotlused, kusjuures ühes taotluses peab olema esindatud mitu organisatsiooni, nii akadeemilist kui ärilist. Teatud hulka valitud projekte siis ka finantseeritakse.

Kõige rohkem on lingvistilisi ressursse praegu inglise keele osas; teiste Euroopa keelte puhul on pilt ebaühtlane, kuid igal juhul halvem.

Eesti keele tehnoloogia

Eesti keele puhul ei saa mingist teadlikust keelepoliitikast selles vallas rääkida. Üksikute firmade poolt on loodud üksikuid produkte: automaatne poolitus Ventura ja TEX-i jaoks; sõnade õigekirja kontrollija Eedi; inglise-eesti sõnastik arvutis. Keeleressurssidest võiks mainida Tartu Ülikoolis loodavat eesti keele tekstikorpust ja Eesti Keele Instituudis (end. KKI) loodud sõnastikke, eriti Eesti esimest morfoloogiasõnastikku "Väike vormisõnastik", mis, kuigi mõeldud kasutamiseks inimese poolt, on siiski tehtud arvuti abil ja seega küllalt hõlpsalt arvuti-kasutuseks kohandatavad.

Kui veidi fantaseerida, siis võiks näiteks tõeline arvutil kasutatav ja häkkeritele kergesti kättesaadav terminoloogia-sõnastik palju kaasa aidata eestikeelse arvuti-terminoloogia arengule ja ühtlusele. Kui võtta eeskuju EÜ keeletehnoloogia-alastest sihtprogrammidest, siis peaks töösse haarama mõne tarkvara-firma, tõlke-büroo, ülikooli või instituudi ja kogu ettevalmistavat tööd riigi poolt finantseerima. Või finantseerida hoopis mõnda projekti, mille eesmärk oleks Eesti seaduste automaatne tõlge inglise ja vene keelde? Või programmi, mis kontrolliks uute seaduste terminoloogiat ja vastavust varasematega?

Ja soovitus firmale

Tulgem tagasi maa peale. Kui mõni firma peaks ikkagi tahtma luua mõnd produkti, mis on seotud loomuliku keele töötlusega, peaks ta kõigepealt hoolikalt valima nishshi, millele oma rakendus suunata. Nagu ärimehed teavad, on võimalik müüa probleeme või täpsemalt lahendusi probleemidele; ja kui tarbija oma probleemi ei tunneta, tuleks see talle kõigepealt teadvustada. Kui selline paljutõotav ja kitsalt defineeritud ülesanne on leitud, peab kommertsprodukti looja veel silmas pidama, et praegust tehnoloogiat arvestades on tal oma produktile kõige mõistlikum valida sisestus klaviatuurilt, mitte aga kõne abil. Arukas on veel piiratud süntaks ja sõnastik ning väljastus kirjalikult või masinkõne abil.

Keeletehnika (language engineering) pole iseenesest midagi muud kui tarkvara-tehnika (software engineering) erijuht!

Heiki-Jaan Kaalep
hkaalep@psych.ut.ee
Tiigi 78 - 230
Tartu EE2400
tel. (27) 430-803