Skip to content

EstSyntax/EDT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

#Eesti keele puudepank / Estonian Dependency Treebank ##versioon 31.12.2016

Selles korpuses on morfoloogiliselt ja sõltuvussüntaktiliselt analüüsitud eestikeelsed tekstid, kokku umbes 400000 sõna 30000 lauses. Tekstid on pärit eesti keele Tasakaalus korpusest http://www.cl.ut.ee/korpused/grammatikakorpus/ ja Koondkorpusest http://www.cl.ut.ee/korpused/segakorpus/ ning jagunevad ilukirjanduse, ajakirjanduse, teaduse ja populaarteaduse tekstiklasside vahel.

Tekstid on esmalt analüüsitud reeglipõhise, kitsenduste grammatikal põhineva sõltuvussüntaktilise analüsaatoriga; automaatselt analüüsitud faile on parandatud käsitsi.

Süntaktilise märgenduse juhend paikneb dokumentatsiooni hulgas (syntmargendus.pdf). Morfoloogilise märgenduse selgitus paikneb lingil: http://www.cl.ut.ee/korpused/morfliides/seletus

Võrreldes 2014. a versiooniga on parandatud automaatsel töötlemisel väljatulnud vigu, lisatud ütte märgend, parandatud ühendverbe, uuesti läbi analüüsitud kolmandik ilukirjandusest. Võrreldes 2015. a versiooniga on prandatud vigaseid mitteprojektiivseid lauseid ja palju muud. Asesõnade mõni ja mõlemad morfoloogiline kirjeldus on ebatäpne.

Dokumentatsioon:

  • lähtefailide kirjeldus ja maht: puudepangaallikad.pdf
  • formaadikirjeldus: formaadiselgitus.pdf
  • märgendus: syntmargendus.pdf

Kooditabel on utf8.

About

Estonian Dependency Treebank

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages