Tartu Ülikooli Eesti keele spontaanse kõne foneetiline korpus koosneb kõne salvestistest, mis on märgendatud erinevatel lingvistilistel tasanditel: märgitud on sõnad ja häälikud ning nende piirid helisignaalis. Korpus sisaldab põhiliselt kahe osalejaga vestlusi.
Korpus sobib nii häälduse kui üldisemalt suulise keelekasutuse uurimiseks ja kõnetehnoloogiliste rakenduste treenimiseks. Seda on mugav kasutada, sest lisaks detailsele foneetilisele märgendusele sisaldab see ka tavaortograafias transkriptsiooni, mistõttu on korpus töödeldav kirjakeelele mõeldud tööriistadega (nt morfanalüsaator).
Eesti keele spontaanse kõne foneetilises korpuses on:
Korpuse koostamisel on eesmärgiks koguda võimalikult hea kvaliteediga spontaanse kõne salvestusi. Enamik salvestusi on tehtud foneetika labori salvestuskabiinis või stuudios, välitöö tingimustes on salvestused tehtud vaikses ruumis. Salvestamiseks kasutatakse peamikrofone ja iga kõneleja signaal salvestatakse eraldi kanalisse. Ühe salvestuse kestus on umbes 30 minutit. Heli salvestatakse wav-formaadis resolutsiooniga 16 bitti ja 44.1 kHz.
Korpus koosneb neljast alamkorpusest:
Alamkorpus SKK3 koosneb Kätlin Aare doktoritöö jaoks tehtud kolme kõnelejaga salvestustest. Salvestused viidi läbi Stockholmi ülikooli hingamislaboris, salvestati helisingaal, video ning hingamisandmed. Vaata täpsemalt siit.
Alates 2018. aastast salvestatakse dialoogid ka videos, mis võimaldab analüüsida multimodaalset kõnet. Video salvestatakse GoPro kaameratega, iga kõneleja jälgib üks kaamera otsevaates ning osadel dialoogisalvestustel lisaks üks kaamera mõlema kõneleja külgvaates. Kõigist videosalvestustest on ka OpenPose tarkvara abil tuvastatud näo ja keha andmed, millest on kasu multimodaalse kõne uurimisel. Siin on katkend ühest dialoogi salvestusest ja OpenPose andmetest:
Kõik kõnelejad osalevad korpuses teadlikult ning vabatahtlikult. Neile on enne salvestust selgitatud korpuse eesmärke ja neid on instrueeritud vestlema poole tunni jooksul vabalt valitud teemadel. Monoloogisalvestuste puhul salvestatakse avalikku loengut või konverentsiettekannet, aga ka seal toimub salvestamine kõnelejaga kooskõlastatult.
Kõnelejate valikul üritatakse saavutada võimalikult ühtlast soolist, vanuselist ja piirkondlikku esindatust. Sotsiaalse tausta osas domineerib akadeemiline, enamik kõnelejaid on kõrgharidusega või üliõpilased. Hetkeseisuga on korpuses 207 keelejuhti, kelle sotsiodemograafilist tausta ilmsestavad järgnevad joonised.
Korpuse märgendamispõhimõtteid on detailselt kirjeldatud korpuse märgendajatele mõeldud juhendis.
Korpuse märgendamiseks kasutatakse kõneanalüüsiprogrammi Praat, segmentimis- ja märgendusinfo salvestatakse TextGrid formaadis.
Korpuse salvestused nimetatakse nii, et failinimes on kodeeritud info alamkorpuse, vestluse ja kõneleja kohta. Failinimi agab alamkorpuse tähisega ja sellele järgnevad numbrid viitavad salvestusele ning sidekriipsu järel kolmekohaline number ja alakriipsule järgnev tähemärk täihistab kõnelejat. Näiteks failinimi “SKK001-003_M” tähendab, et see on stuudios salvestatud dialoogide salvestus number 01, keelejuht 003_M. Sama vestluse teine pool võiks näiteks kanda nime SKK001-005_N”. Kõik failid (wav, mp4 ja TextGrid) saavad sama nime, erinevad ainult laiendi poolest.
Segmentimiskihid on järgmised:
Märgendamise töövoog on järgmine:
Esmane sõnatasandi segmentatsioon saadakse automaatse kõnetuvastuse abil. Seejärel kontrollitakse automaatselt tuvastatud sõnatasandi märgendus käsitsi üle ja segmenditakse käsitsi häälikutasand. Monoloogide puhul on kasutatud ka häälikutasandi loomiseks peale sõnatasandi kontrollimist autosegmenteerijat, mille tulemust siis käsitsi parandatakse. Käsitsi sõna- ja häälikutasandil märgendatud faile on hetkeseisuga NA.
Kõigile sõna- ja häälikutasandil märgendatud failidele lisatakse automaatlselt CV-tasand, silbitasand, lausungitasand ja morfmärgendus tehakse Filosofti analüsaatoriga.
Osale sõna- ja häälikutasandil märgendatud failidele lisatakse käsitsi taktitasand. Taktitasandile märgitakse kõnetaktide piirid, kõnetakti rõhulisus ning välde. Taktitasandi märgendust on hetkel NA.
Häälelaadi tasandile märgitakse kärisev hääl, mis tuvastatakse automaatselt kärinatuvastusega ning seejärel kontrollitakse käsitsi.Kärinamärgendusega faile on hetkeseisuga NA.
Osale sõna- ja häälikutasandil märgendatud failidele lisatakse intonatsioonifraaside märgendus. IP-tasandi märgendusega faile on hetkeseisuga NA.
Viimane versioon korpusest on v 1.3 kuupäevaga 20. oktoober 2023 (Varundatud DataDOI repositooriumisse).
Heli | Video | Sõnasegmente | Leksikaalseid üksuseid | Häälikud | Silbid | Taktid | IP piirid | Kärin | |
---|---|---|---|---|---|---|---|---|---|
SKK0 | 84:48:21 | 25:40:25 | 641301 | 394668 | 84:15:04 | 25:52:46 | 25:52:46 | 17:05:52 | 51:16:44 |
SKK1 | 12:51:39 | NA | 124170 | 73920 | 12:51:39 | 02:34:08 | 00:45:26 | NA | 12:16:10 |
SKK2 | 17:33:44 | NA | 134295 | 88580 | 17:33:44 | 04:50:03 | NA | NA | 09:18:11 |
SKK3 | 19:41:04 | 17:17:14 | 109800 | 72531 | 19:41:04 | NA | NA | NA | 16:44:56 |
Kokku | 134:54:48 | 42:57:40 | 1009566 | 629699 | 134:21:30 | 33:16:57 | 26:38:12 | 17:05:52 | 89:36:01 |
Veebipõhine otsingumootor võimaldab otsida korpusest sõna piires, vastuseks antakse 2-sekundiline helilõik ja selle märgendus. Täpsemaid juhiseid leiab otsingu lehelt.
Tervikkorpusele on võimalik keele uurimise või keeletehnoloogilise rakenduse arendamise eesmärgil ligipääsu saada, selleks tuleb esitada uurimisplaan ning sõlmida konfidentsiaalsuskokkulepe. Ligipääsu küsimiseks võta ühendust Pärtel Lippusega ([email protected]).
Kasutamise korral palume ka viidata:
Lippus, Pärtel, Kätlin Aare, Anton Malmi, Tuuli Tuisk & Pire Teras. 2023. Phonetic Corpus of Estonian Spontaneous Speech v1.3. Institute of Estonian and General Linguistics, University of Tartu. https://doi.org/10.23673/re-438.
Kopeeri viide BibTeX formaadis:
@misc{ekskfk_2023,
title = {Phonetic {Corpus} of {Estonian} {Spontaneous} {Speech} v1.3},
url = {https://doi.org/10.23673/re-438},
doi = {10.23673/re-438},
language = {et},
author = {Lippus, Pärtel and Aare, Kätlin and Malmi, Anton and Tuisk, Tuuli and Teras, Pire},
month = {oct. 20},
year = {2023},
organization = {Institute of Estonian and General Linguistics, University of Tartu},
}
Tartu Ülikooli Eesti keele spontaanse kõne foneetiline korpus on loodud riikliku programmi “Eesti keeletehnoloogia” toel:
Korpuse märgendamisel on aegade jooksul osalenud Anette Ross, Ann Siiman, Anneliis Klaus, Annika Pant, Anton Malmi, Enel Põld, Hannabel Aria, Helen Türk, Helena Joachim, Helmi Lindström, Joel Kannukene, Käbi Suvi, Kätlin Aare, Katrin Leppik, Leena Karin Toots, Liis Raasik, Lotta Saadla, Maarja-Liisa Pilvik, Maia Bubnov, Margit Tätte, Margot Möller, Merike Parve, Merle Põdra, Nele Ots, Pärtel Lippus, Pille Jahisoo, Pille Pipar, Pire Teras, Sander Pajusalu, Sille Midt, Tjorven Siiboja, Tuuli Tuisk.
Eesti keele spontaanse kõne foneetilise korpuse sagedussõnastik koostatud korpuse 20. juuni 2019 seisuga (v1.0.5). Korpus lemmatiseeriti Filosofti morfanalüsaatoriga, tabelis on antud 1000 sagedasema sõna lemma, sõnaliik (Estmorfi sõnaliigid) ning sagedus.