Ülevaade. Artikkel käsitleb eestikeelsete tekstide arvutianalüüsi alamprobleemi: ajaväljendite automaatset tuvastamist tekstist. Üles-anne on püstitatud kaheosalisena: tekstist tuleb üles leida ajaväljendid (piiritleda ajaväljendifraasid) ning normaliseerida leitud ajaväljendite semantika (st esitada semantika eeldefineeritud märgenduskeele raamides). Artiklis kirjeldatakse ajaväljendite tuvastamisel kasutatavat märgenduskeelt ning piiritletakse vaadeldavate ajaväljendite hulk lähtuvalt märgenduskeele (aga ka praktilise analüüsi) võimalustest. Antakse ülevaade loodud reeglipõhise ajaväljendite tuvastaja tööpõ-himõtetest ajaväljendite leidmisel ning semantika normaliseerimisel kasutatavatest strateegiatest. Programmi testimiseks moodustatakse Tartu Ülikooli koondkorpuse tekstidest u 70 000-sõnaline korpus, millel parandatakse käsitsi automaatse tuvastamise vead ning hinnatakse tuvastaja töö kvaliteeti.* Võtmesõnad: arvutilingvistika, reeglipõhine keeletöötlus, semantiline märgendus, annoteerimine, eesti keel
SissejuhatusAjaväljendite tuvastamine on tekstide automaatse analüüsi alamprobleem, mis seisneb ajaväljendite leidmises tekstist ning nende semantika kirjeldamises fikseeritud märgendusviisi alusel. Probleemi lahendamine aitab kaasa mitmete keeletehnoloogia rakenduste (nt automaatne küsimustele vastamine, sisukokkuvõtete tegemine, dialoogisüsteemid) arengule. Samuti võib ülesannet käsitleda laiemas kontekstis, tekstide ajasemantilise analüüsi alamülesandena, kus laiemaks probleemiks on sündmuste tuvastamine tekstides ning sündmuste ajalise järgnevuse määramine.Viimase aastakümne jooksul on tekstide ajasemantiline analüüs pälvinud automaatse infoeraldamise (ingl information extraction) kontekstis laialdast tähelepanu. Välja on töötatud ajasemantika märgendamise keeli, nt spetsiaalselt