Ülevaade. Artiklis käsitletakse seni uurimata eestikeelset ressurssi: ravimipakendites sisalduvaid infolehti ja arstidele suunatud ravimeid tutvustavaid kokkuvõtteid. Nimetatud ainestiku analüüsimiseks kasutatakse mõnda läbipaistvat statistilist meetodit, mis võimaldavad kerge ja grammatilisi erinevusi. Taolise analüüsi eesmärgiks on ühest küljest katsetada nimetatud meetodite efektiivsust tekste eristavate karakteristikute leidmisel, kuid ka koguda andmestikust lähtuvaid taustateadmisi keeletehnoloogiliste rakenduste efektiivsemaks loomiseks. * Võtmesõnad: korpuslingvistika, tekstilingvistika, tekstikorpused,
SissejuhatusInfotehnoloogia võidukäiguga seoses on kasvanud kõiksugu dokumentide ja tekstide hulk ning kättesaadavus, mis omakorda on loonud nõudluse tehnoloogiate ja algoritmide järele, mis võimaldaksid seda ressurssi efektiivsemalt töödelda ja hallata. Nii näiteks on näha jätkuvalt kasvavat huvi erinevatest tekstidest informatsiooni kogumise (ingl information extraction), nende automaatse liigitamise (document classification), automaatse kokkuvõtmise (automatic summarisation) jms vastu.Käsikäes saadaval olevate tekstide hulgaga on suurenenud ka nende varieeruvus, kuna tekste luuakse väga erinevatel eesmärkidel ning erinevatele sihtgruppidele. Keeletehnoloogias on paraku üsna tavapärane olukord, kus ühe keelekogu alusel loodud mudel või meetod toimib selle kogu raames suurepäraselt, kuid teisele korpusele rakendades annab meetod märksa tagasihoidlikemaid tulemusi (Kilgarriff 2001). Põhjus ongi enamasti erinevate tekstikogude keelekasutuse suures varieeruvuses, mistõttu on tarvis uurida funktsioonilt ja keelelistelt tunnustelt