2009
DOI: 10.1007/s10579-009-9100-5
|View full text |Cite
|
Sign up to set email alerts
|

Valence extraction using EM selection and co-occurrence matrices

Abstract: This paper discusses two new procedures for extracting verb valences from raw texts, with an application to the Polish language. The first novel technique, the EM selection algorithm, performs unsupervised disambiguation of valence frame forests, obtained by applying a non-probabilistic deep grammar parser and some post-processing to the text. The second new idea concerns filtering of incorrect frames detected in the parsed text and is motivated by an observation that verbs which take similar arguments tend to… Show more

Help me understand this report
View preprint versions

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
4
0
1

Year Published

2011
2011
2017
2017

Publication Types

Select...
2
2
2

Relationship

0
6

Authors

Journals

citations
Cited by 7 publications
(5 citation statements)
references
References 23 publications
0
4
0
1
Order By: Relevance
“…Prace Zespołu Inżynierii Lingwistycznej IPI PAN sytuują się na granicy językoznawstwa teoretycznego, lingwistyki korpusowej, leksykografii elektronicznej i -oczywiście -przetwarzania języka naturalnego. W drugiej połowie pierwszej dekady XXI wieku zespół podejmował prace nad automatycznym wydobywaniem informacji walencyjnych z jedynie morfoskładniowo znakowanych korpusów (Przepiórkowski, Fast 2005;Dębowski 2009;Przepiórkowski 2009;Hajnicz 2011). Prace doprowadziły do powstania nowych algorytmów i narzędzi, lecz wydobywane informacje walencyjne obarczone były zbyt dużym błędem, by stać się podstawą gruntownego słownika walencyjnego wysokiej jakości.…”
Section: Podsumowanieunclassified
“…Prace Zespołu Inżynierii Lingwistycznej IPI PAN sytuują się na granicy językoznawstwa teoretycznego, lingwistyki korpusowej, leksykografii elektronicznej i -oczywiście -przetwarzania języka naturalnego. W drugiej połowie pierwszej dekady XXI wieku zespół podejmował prace nad automatycznym wydobywaniem informacji walencyjnych z jedynie morfoskładniowo znakowanych korpusów (Przepiórkowski, Fast 2005;Dębowski 2009;Przepiórkowski 2009;Hajnicz 2011). Prace doprowadziły do powstania nowych algorytmów i narzędzi, lecz wydobywane informacje walencyjne obarczone były zbyt dużym błędem, by stać się podstawą gruntownego słownika walencyjnego wysokiej jakości.…”
Section: Podsumowanieunclassified
“…A number of recent works have applied modern machine learning techniques to SCF induction, including point-wise co-occurrence of arguments (Debowski, 2009), a Bayesian network model (Lippincott et al, 2012), multi-way tensor factorization (Van de Cruys et al, 2012) and Determinantal Point Processes (DPPs) -based clustering (Reichart and Korhonen, 2013). However, all of these systems induce type-level SCF lexicons and, except from the system of (Lippincott et al, 2012) that is not capable of learning traditional SCFs, they all rely on supervised parsers.…”
Section: Previous Workmentioning
confidence: 99%
“…Most existing systems rely on handwritten rules (Briscoe and Carroll, 1997;Korhonen, 2002;Preiss et al, 2007) or simple cooccurrence statistics (O'Donovan et al, 2005;Chesley and Salmon-Alt, 2006;Ienco et al, 2008;Lenci et al, 2008;Altamirano and Alonso i Alemany, 2010;Kawahara and Kurohashi, 2010) applied to the grammatical dependency output of supervised statistical parsers. Even the handful of recent systems that use modern machine learning techniques (Debowski, 2009;Lippincott et al, 2012;Van de Cruys et al, 2012;Reichart and Korhonen, 2013) use supervised parsers to pre-process the data 2 .…”
Section: Introductionmentioning
confidence: 99%
“…Rather, we treated each potential complement independently of other complements, and only attempted to determine the strength of its own attachment to the verb. This approach is similar to the one used by Dȩbowski (2009), who also collected single possible complements from a (Polish) corpus; however, Dȩbowski (2009) also defined a second filtering step in which full frames are constructed.…”
Section: Related Workmentioning
confidence: 99%