Interdistsiplinaarne seto korpus SetKo

ELAN

Audio- ja videosalvestiste ning nende põhjal loodud transkriptsioonide ja märgendustasandite tehniliseks sidumiseks kasutame programmi ELAN. See võimaldab korraga jälgida heli- või videosalvestise liikumist ajajoonel ning vaadelda iga ajahetkega seotud annotatsiooni. ELAN lubab korpust annoteerida hierarhiliselt, st kõnelejate kaupa nii, et kõik ühe kõnelejaga seotud read, st nii tekstirida kui ka hilisem morfoloogilise märgenduse rida on omavahel seotud, kuid erinevate kõnelejate read on omavahel sõltumatud. Nii on väga lihtsasti võimalik märkida korragarääkimisi ja kattuvat kõnet ning teha ka kompleksseid päringuid olemasolevast materjalist. ELAN võimaldab uurijal hiljem iga hetk märgendust, transkriptsiooni vms kontrollida ja paranda ning vajadusel lisada analüüsitasandeid. Samuti on ELANi xml-kujul väljundit hõlbus viia online-kujule, kasutades ANNEX ja TROVA vahendeid. See võimaldab teha mitmetasandilisi kompleksseid päringuid ja annab ligipääsu ka teistele uurijatele nii keeleteaduse kui ka folkloristika valdkonnast. Isikuandmete kaitseks säilitatakse siiski ligipääsupiirangud.

SetKo projektis on ELAN oluline tööriist mitme etapi puhul. Esimene neist on heli- ja videofailide litereerimine lihtsustatud transkriptsioonis. Selle jaoks loome ELANis tööfaili, kus on eraldi tekstiread iga keelejuhi ja ka iga küsitleja jaoks. Kõik voorud seome heli- või videofailis vastava ajavahemikuga, mil need kõlasid. Lisaks on eraldi rida metainfoks, mis hõlmab nii kommentaare salvestusel kõlavate segajate kohta (nt tiksuv kell, automüra, raadio taustal vms) kui ka viiteid sellele, kui keelejuht või mõni muu kõneleja räägib vene keeles või eesti kirjakeeles. Ka lisame rea teemamärgenduseks, kuhu märgime hilisemas tööetapis vestluse temaatika.

Teine oluline etapp, kus ELANit kasutame, on morfoloogilise märgenduse lisamine. Morfoloogilise märgendamise teeme suuresti automatiseeritult, mis on võimalik tänu varasemalt märgendatud seto tekstidele, mis asuvad murdekorpuses. Varasemate tekstide põhjal on moodustatud n-ö sõnastik, kus igale sõnakujule (sõnele) on määratud sõnaliik ning morfoloogiline vorm, vajadusel ka tähendus. Skripti abil võrdleme sõnastiku sõnesid uute tekstide sõnedega ning sobivuse korral määrame uutele sõnedele sõnastikus oleva morfoloogilise-sõnaliigilise info. Kuna võib juhtuda, et ühel sõnakujul on mitu võimalikku märgendust (nt tee on nii nimisõna nimetavas või omastavas käändes või ka tegusõna ainsuse teise isiku käskivas kõneviisis) või ei ole sõnastikus üldse vastava sõne infot, järgneb automatiseeritud märgendamisele ühestamine ja täiendav märgendamine. ELANis tehtava ühestamise käigus kontrollime vormide sobivust ning eemaldame mitme märgenduse korral vale(d) märgenduse(d). Sõnedele, millele sõnastikust sobivat märgendust ei leidunud, määrame vastav sõnaliik ja morfoloogiline info käsitsi.

ELANi tööfail, kus toimub esmalt litereerimine ning hiljem märgenduse kontroll, näeb välja SELLINE.