2016
DOI: 10.15388/klbt.2014.7674
|View full text |Cite
|
Sign up to set email alerts
|

Corpus of transcribed parliamentary speeches for authorship attribution and author profiling tasks

Abstract: Straipsnyje pristatome Seimo posėdžių stenogramų tekstyną, parengtą specialiu formatu, tinkančiu įvairiems autorystės nustatymo tyrimams. Tekstyną sudaro apie 111 tūkstančių tekstų (24 milijonai žodžių), kurių kiekvienas atitinka vieną parlamentaro pasisakymą eilinės sesijos posėdžio metu bei apima 7 Lietuvos Respublikos Seimo kadencijas: nuo 1990 metų kovo 10 dienos iki 2013 metų gruodžio 23 dienos. Pasisakymų tekstai sugrupuoti pagal autorius į 147 grupes, todėl tinka individualių autorių autorystės nustatym… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
2

Citation Types

0
0
0
2

Year Published

2017
2017
2017
2017

Publication Types

Select...
1
1

Relationship

0
2

Authors

Journals

citations
Cited by 2 publications
(2 citation statements)
references
References 22 publications
0
0
0
2
Order By: Relevance
“…query) efektyvumą [15] ir sprendžiant tekstų klasifikavimo (pagal žanrą, stilių ir pan. ), taip pat ir autoriaus identifikavimo uždavinius [19,7,27]. Tačiau kalbos mokslo požiūriu autorystės nustatymas nėra įdomus uždavinys, nebent siekiama nustatyti to paties teksto, kurį reikėjo kuo tiksliau atpasakoti, atpasakojimo autorių (plg.…”
Section: įVadasunclassified
See 1 more Smart Citation
“…query) efektyvumą [15] ir sprendžiant tekstų klasifikavimo (pagal žanrą, stilių ir pan. ), taip pat ir autoriaus identifikavimo uždavinius [19,7,27]. Tačiau kalbos mokslo požiūriu autorystės nustatymas nėra įdomus uždavinys, nebent siekiama nustatyti to paties teksto, kurį reikėjo kuo tiksliau atpasakoti, atpasakojimo autorių (plg.…”
Section: įVadasunclassified
“…3) arba pasitelkiant tikimybines kontekstines gramatikas. Nežinomi modelio parametrai, sąlyginės tikimybės, įvertinamos remiantis n-gramų (n iš eilės einančių žodžių) dažnumų statistika tekstyne [4,17,7].…”
Section: įVadasunclassified