#Eesti keele puudepank / Estonian Dependency Treebank ##versioon 31.12.2016
Selles korpuses on morfoloogiliselt ja sõltuvussüntaktiliselt analüüsitud eestikeelsed tekstid, kokku umbes 400000 sõna 30000 lauses. Tekstid on pärit eesti keele Tasakaalus korpusest http://www.cl.ut.ee/korpused/grammatikakorpus/ ja Koondkorpusest http://www.cl.ut.ee/korpused/segakorpus/ ning jagunevad ilukirjanduse, ajakirjanduse, teaduse ja populaarteaduse tekstiklasside vahel.
Tekstid on esmalt analüüsitud reeglipõhise, kitsenduste grammatikal põhineva sõltuvussüntaktilise analüsaatoriga; automaatselt analüüsitud faile on parandatud käsitsi.
Süntaktilise märgenduse juhend paikneb dokumentatsiooni hulgas (syntmargendus.pdf). Morfoloogilise märgenduse selgitus paikneb lingil: http://www.cl.ut.ee/korpused/morfliides/seletus
Võrreldes 2014. a versiooniga on parandatud automaatsel töötlemisel väljatulnud vigu, lisatud ütte märgend, parandatud ühendverbe, uuesti läbi analüüsitud kolmandik ilukirjandusest. Võrreldes 2015. a versiooniga on prandatud vigaseid mitteprojektiivseid lauseid ja palju muud. Asesõnade mõni ja mõlemad morfoloogiline kirjeldus on ebatäpne.
Dokumentatsioon:
- lähtefailide kirjeldus ja maht: puudepangaallikad.pdf
- formaadikirjeldus: formaadiselgitus.pdf
- märgendus: syntmargendus.pdf
Kooditabel on utf8.