Ülevaade. Artikkel käsitleb digitaalse ressursi loomist aastatest 1866-1890 pärinevatest vallakohtuprotokollidest. Vallakohtuprotokollide tekstiandmebaas sisaldab ligi 420 000 sõna XML-märgendusega failides. Tekstid on keeleliselt mitmekesised, keelise kuju põhilised mõjutajad on uue vs. vana kirjaviisi kasutamine, murdelisus ning vallavõi kohtukirjutaja hariduslik ning keeleline taust. Samuti mängivad suurt rolli protokollide sisestamisel tehtud ortograafilised valikud. Tekstide keelelise analüüsi ning märksõnastamise jaoks katsetati automaatset morfoloogilist analüüsi ning nimeüksuste tuvastamist EstNLTK vastavate moodulite abil, hinnati väljundi kvaliteeti ning kaardistati analüüsi parandamise põhilised viisid. Vallakohtute protokollide kättesaadavaks tegemine ja otsitavuse parandamine tekstide keelelise ja temaatilise märgendamise abil aitab luua rikkalikku digitaalset ressurssi, mille kasutajaskonna moodustavad väga erineva tausta ja huvidega inimesed.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.