The benefits of this automation include storing all information; making the drafts available and accessible almost instantly to everyone with authorized access; and avoiding information loss, delays, and misinterpretations inherent to using a ward clerk or transcription services.
Manual subject indexing in libraries is a time-consuming and costly process and the quality of the assigned subjects is affected by the cataloguer's knowledge on the specific topics contained in the book. Trying to solve these issues, we exploited the opportunities arising from artificial intelligence to develop Kratt: a prototype of an automatic subject indexing tool. Kratt is able to subject index a book independent of its extent and genre with a set of keywords present in the Estonian Subject Thesaurus. It takes Kratt approximately 1 minute to subject index a book, outperforming humans 10-15 times. Although the resulting keywords were not considered satisfactory by the cataloguers, the ratings of a small sample of regular library users showed more promise. We also argue that the results can be enhanced by including a bigger corpus for training the model and applying more careful preprocessing techniques.
Ülevaade. Artiklis käsitletakse seni uurimata eestikeelset ressurssi: ravimipakendites sisalduvaid infolehti ja arstidele suunatud ravimeid tutvustavaid kokkuvõtteid. Nimetatud ainestiku analüüsimiseks kasutatakse mõnda läbipaistvat statistilist meetodit, mis võimaldavad kerge ja grammatilisi erinevusi. Taolise analüüsi eesmärgiks on ühest küljest katsetada nimetatud meetodite efektiivsust tekste eristavate karakteristikute leidmisel, kuid ka koguda andmestikust lähtuvaid taustateadmisi keeletehnoloogiliste rakenduste efektiivsemaks loomiseks. * Võtmesõnad: korpuslingvistika, tekstilingvistika, tekstikorpused,
SissejuhatusInfotehnoloogia võidukäiguga seoses on kasvanud kõiksugu dokumentide ja tekstide hulk ning kättesaadavus, mis omakorda on loonud nõudluse tehnoloogiate ja algoritmide järele, mis võimaldaksid seda ressurssi efektiivsemalt töödelda ja hallata. Nii näiteks on näha jätkuvalt kasvavat huvi erinevatest tekstidest informatsiooni kogumise (ingl information extraction), nende automaatse liigitamise (document classification), automaatse kokkuvõtmise (automatic summarisation) jms vastu.Käsikäes saadaval olevate tekstide hulgaga on suurenenud ka nende varieeruvus, kuna tekste luuakse väga erinevatel eesmärkidel ning erinevatele sihtgruppidele. Keeletehnoloogias on paraku üsna tavapärane olukord, kus ühe keelekogu alusel loodud mudel või meetod toimib selle kogu raames suurepäraselt, kuid teisele korpusele rakendades annab meetod märksa tagasihoidlikemaid tulemusi (Kilgarriff 2001). Põhjus ongi enamasti erinevate tekstikogude keelekasutuse suures varieeruvuses, mistõttu on tarvis uurida funktsioonilt ja keelelistelt tunnustelt
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.