Eesti keele ühendkorpuse 2021 allkorpuste (veebikorpus 2021; Vikipeedia 2021; DOAJ; uudisvood 2014-2021) lemmade ja sõnavormide sagedusloendid ENC 2021 DOI https://metashare.ut.ee/repository/browse/eesti-keele-uhendkorpus-2021/99bc4882a9ba11eca6e4fa163e9d454743ae7727c5b042a58bebd5b32d929a6a/ Korpus koosneb ajavahemikus 2019-2021 kogutud tekstidest ja kajastab seega kõige värskemat keelekasutust. Enamasti ei saa siiski välistada, et mõni tekst on kirjutatud varem. Korpuse maht: - 944 907 713 sõnet - 7 756 705 erinevat lemmat - 857 784 lemmat üle sageduspiiri (ipm* 0,011, mis vastab ENC 2021 puhul sagedusele 10 või rohkem). Lemmad on töötlemata, mis tähendab, et: - suur- ja väiketähelised kujud on ühendamata - sagedused näitavad üksiksõna kasutust (ühendverbe, nimisõnafraase jm näidatakse osiste kaupa) - esineda võib võõrkeelseid sõnesid - sõnaliiki pole arvestatud ('hall' A ja 'hall' S on koos)**. * ipm (instances per million) näitab lemma või sõne puhul promille ehk keskmist esinemist miljoni kohta. ** Eesti keele jaoks pole 'lempos' ehk lemma+sõnaliik oluline, sest sõnaliike eristab juba väliskuju ning 'hall' näitel jääks homonüümne hall+S (hallaöö, spordihall) ikkagi üheks lemmaks.