This paper presents the ParlaMint corpora containing transcriptions of the sessions of the 17 European national parliaments with half a billion words. The corpora are uniformly encoded, contain rich meta-data about 11 thousand speakers, and are linguistically annotated following the Universal Dependencies formalism and with named entities. Samples of the corpora and conversion scripts are available from the project’s GitHub repository, and the complete corpora are openly available via the CLARIN.SI repository for download, as well as through the NoSketch Engine and KonText concordancers and the Parlameter interface for on-line exploration and analysis.
The analysis of social discourses from the perspective of historical changes deserves special attention. Such a study could play a key role in revealing social changes and latent narrative of those in power; and understanding the underlying social dynamic in a given period. Until the recent years, such issues were analyzed mainly in a qualitative approach. In our paper we present a new way of revealing/discovering and interpreting social discourses using an advanced NLP method called word embedding. Based on word similarities we can understand the main structural frames of a given system and using a dynamic approach we can reveal the social changes in a historical period. In our study we created a large corpus from the Hungarian "P art elet" journal . This was the official journal of the governing party, hence it represents not just a media discourse of the era, but the official discourse of the government, too. One of the main focal points of our research is to study the evolution of the semantic content of some of the concepts related to the topics of agriculture and industry, which are two central notions of the examined era.
Tanulmányunkban a magyarországi kollektivizálás második hullámát egy, a társadalomtudományban használatos módszer adaptálásának segítségével vizsgáljuk, rámutatva, hogy a nagy adatbázisok elemzése milyen nagyobb, általánosabb történettudományi összefüggések levonására kínál lehetőségeket. Majd ugyanezt a kutatási kérdéskört egy szövegbányászati módszer, az úgynevezett topikmodellezés alkalmazásával elemezzük. Írásunk célja annak illusztrálása, hogy az egyre nagyobb számban elérhető digitális gyűjteményeknek a hazai történettudomány számára még részben újfajta módszerekkel történő elemzése milyen lehetőségeket és korlátokat rejt magában. Elemzésünk a korai Kádár-korszak agrárpolitikaijogszabályalkotásának vizsgálatát végzi el, arra a fő kutatási kérdésre keresve a választ, hogy milyen módon tükröződik vissza a jogszabályalkotásban a korszak gazdaságpolitikája, milyen módon reagált a jogszabályalkotás a korszak gazdaság- és társadalompolitikai változásaival kapcsolatban felmerülő szabályozási igényekre. A témaalapú osztályozás mellett szövegeinket szövegbányászati módszerekkel is vizsgálat alá vesszük, elemzésünk harmadik részében pedig kísérletet teszünk a két módszer kombinálására – azzal a céllal, hogy összefüggést találjunk a CAP-kódkönyvben meghatározott közpolitikai topikok, konkrétabban az agrárpolitikai altopikok, valamint a topikmodellezés során kapott témák között.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.