Ülevaade. Artikkel käsitleb digitaalse ressursi loomist aastatest 1866-1890 pärinevatest vallakohtuprotokollidest. Vallakohtuprotokollide tekstiandmebaas sisaldab ligi 420 000 sõna XML-märgendusega failides. Tekstid on keeleliselt mitmekesised, keelise kuju põhilised mõjutajad on uue vs. vana kirjaviisi kasutamine, murdelisus ning vallavõi kohtukirjutaja hariduslik ning keeleline taust. Samuti mängivad suurt rolli protokollide sisestamisel tehtud ortograafilised valikud. Tekstide keelelise analüüsi ning märksõnastamise jaoks katsetati automaatset morfoloogilist analüüsi ning nimeüksuste tuvastamist EstNLTK vastavate moodulite abil, hinnati väljundi kvaliteeti ning kaardistati analüüsi parandamise põhilised viisid. Vallakohtute protokollide kättesaadavaks tegemine ja otsitavuse parandamine tekstide keelelise ja temaatilise märgendamise abil aitab luua rikkalikku digitaalset ressurssi, mille kasutajaskonna moodustavad väga erineva tausta ja huvidega inimesed.
Ülevaade. Artikkel käsitleb eestikeelsete tekstide arvutianalüüsi alamprobleemi: ajaväljendite automaatset tuvastamist tekstist. Üles-anne on püstitatud kaheosalisena: tekstist tuleb üles leida ajaväljendid (piiritleda ajaväljendifraasid) ning normaliseerida leitud ajaväljendite semantika (st esitada semantika eeldefineeritud märgenduskeele raamides). Artiklis kirjeldatakse ajaväljendite tuvastamisel kasutatavat märgenduskeelt ning piiritletakse vaadeldavate ajaväljendite hulk lähtuvalt märgenduskeele (aga ka praktilise analüüsi) võimalustest. Antakse ülevaade loodud reeglipõhise ajaväljendite tuvastaja tööpõ-himõtetest ajaväljendite leidmisel ning semantika normaliseerimisel kasutatavatest strateegiatest. Programmi testimiseks moodustatakse Tartu Ülikooli koondkorpuse tekstidest u 70 000-sõnaline korpus, millel parandatakse käsitsi automaatse tuvastamise vead ning hinnatakse tuvastaja töö kvaliteeti.* Võtmesõnad: arvutilingvistika, reeglipõhine keeletöötlus, semantiline märgendus, annoteerimine, eesti keel
SissejuhatusAjaväljendite tuvastamine on tekstide automaatse analüüsi alamprobleem, mis seisneb ajaväljendite leidmises tekstist ning nende semantika kirjeldamises fikseeritud märgendusviisi alusel. Probleemi lahendamine aitab kaasa mitmete keeletehnoloogia rakenduste (nt automaatne küsimustele vastamine, sisukokkuvõtete tegemine, dialoogisüsteemid) arengule. Samuti võib ülesannet käsitleda laiemas kontekstis, tekstide ajasemantilise analüüsi alamülesandena, kus laiemaks probleemiks on sündmuste tuvastamine tekstides ning sündmuste ajalise järgnevuse määramine.Viimase aastakümne jooksul on tekstide ajasemantiline analüüs pälvinud automaatse infoeraldamise (ingl information extraction) kontekstis laialdast tähelepanu. Välja on töötatud ajasemantika märgendamise keeli, nt spetsiaalselt
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.