Hinrichs et al., 2005) Informations (News) 800 000 AnglaisOntoNotes (Pradhan et al., 2007) News, dialogue oral, conversation téléphonique, weblogs, flux radio 50 000Chinois OntoNotes (Pradhan et al., 2007) ou télédiffusés 400 000 Catalan AnCora-Ca (Recasens & Marti, 2010) Informations 400 000Espagnol Ancora-Es (Recasens, 2010) Informations 400 000 Japonais NAIST Text (Idia et al., 2007) Informations 970 000 Hollandais COREA (Heindrickx et al., 2008) Informations, parole, encyclopédie 325 000 Tchèque PDT (Nedouluzhko et al., 2009) Journaux d'information 800 000 Polonais PCC (Ogrodniczuk et al., 2013) Nombreux genres oraux et écrits 514 000Cet article a pour objectif de décrire la ressource et son outil de requêtage, puis de présenter une étude de corpus portant sur la question de l'accord en genre et nombre lors de la reprise coréférentielle. Cette étude questionnera directement certaines hypothèses acceptées sur le langage écrit mais jamais étudiées sur l'oral, tout en fournissant une première illustration des capacités d'analyse qu'offrent le corpus et son outil d'interrogation. Présentation du corpus ANCOR Contenu : corpus audio sourcesLe corpus ANCOR ne concerne que la modalité orale. Sans constituer une ressource équilibrée comme le corpus PCC polonais, il a pour ambition de représenter une réelle diversité de situations discursives orales. Il regroupe ainsi l'annotation de quatre corpus de parole spontanée transcrits sous Transcriber (Barras et al., 2001). Ces corpus sont présentés dans le tableau 2. Deux d'entre eux ont été extraits du corpus ESLO, qui regroupe des entretiens sociolinguistiques présentant un degré d'interactivité faible (Baude et Dugua 2011, Eshkol-Taravella et al. 2012. A l'opposé, les deux autres corpus, OTG et Accueil_UBS (Nicolas et al., 2002), concernent des dialogues homme-homme interactifs. Ces deux derniers corpus différent par le média utilisé : le corpus OTG regroupe des conversations de visu au sein d'un office de tourisme pour OTG, tandis qu'Accueil_UBS a été enregistré dans un standard téléphonique. Au total, le corpus regroupe 488 000 mots et correspond à une durée d'enregistrement de 30,5 heures. Tableau 2 -Contenu du corpus ANCOR : corpus audio sources Corpus Méthodologie d'annotationL'annotation a été réalisée sur le logiciel GLOZZ (Mathet et Widlöcher, 2009) Encoding Initiative). Les annotations réalisées sous GLOZZ sont séparées du corpus source avec lequel elles sont synchronisées. Une telle annotation déportée permet un enrichissement multi-niveaux du corpus, ce qui est intéressant en termes d'évolutivité. Afin de limiter la charge cognitive des experts et pour favoriser la cohérence intra-annotateurs, le processus d'annotation a été divisé en quatre étapes successives :1. Caractérisation des mentions (annotateurs : étudiants de Master ou de doctorat en linguistique) 2. Vérification de la phase 1 par un superviseur 3. Caractérisation des relations de coréférence ou anaphoriques (annotateurs identiques) 4. Vérification de la phase 3 par un superviseur. Schéma ...
Cet article présente notre utilisation de la théorie des types dans laquelle nous nous situons pour l'analyse syntaxique, sémantique et pour la construction du lexique. Notre outil, Grail permet de traiter le discours automatiquement à partir du texte brut et nous le testons sur un corpus de récit de voyages pyrénéens, Ititpy. Nous expliquons donc notre usage des grammaires catégorielles et plus particulièrement du calcul de Lambek et la correspondance entre ces catégories et le λ-calcul simplement typé dans le cadre de la DRT. Une flexibilité du typage doit être autorisée dans certains cas et bloquée dans d'autres. Quelques phénomènes linguistiques participant à une forme de glissement de sens provocant des conflits de types sont présentés. Nous expliquons ensuite nos motivations d'ordre pragmatique à utiliser un système à sortes et types variables en sémantique lexicale puis notre traitement compositionnel du temps des évènements inspiré du Binary Tense de (Verkuyl, 2008).
We present CROC (Coreference Resolution for Oral Corpus), the first machine learning system for coreference resolution in French. One specific aspect of the system is that it has been trained on data that come exclusively from transcribed speech, namely ANCOR (ANaphora and Coreference in ORal corpus), the first large-scale French corpus with anaphorical relation annotations. In its current state, the CROC system requires pre-annotated mentions. We detail the features used for the learning algorithms, and we present a set of experiments with these features. The scores we obtain are close to those of state-of-the-art systems for written English.We present ANCOR, a French corpus annotated with coreference relations which is freely available and large enough to serve the needs of data-driven approaches
Résumé. Cet article présente une étude expérimentale portant sur les chaînes de référence en français oral spontané. Elle a été menée le corpus de dialogue oral annoté en coféférence ANCOR et a porté sur la comparaison des résultats distributionnels obtenus sur les deux types d'annotation présentes dans le corpus : d'une part, une annotation en chaîne, qui repose sur l'identification des liens entre expressions linguistiques (nominales ou pronominales) qui ont un même référent. Et d'autre part, une annotation en première mention, où les liens sont faits entre la première mention d'une entité et les expressions suivantes qui ont le même référent. Nos résultats expérimentaux nous ont permis de retrouver certaines hypothèse de la littérature, concernent avant tout les capacités de certains types de mentions (définis, démonstratifs, pronoms etc...) à ancrer (ou non) les chaînes de référence. D'autres résultats plus originaux ont également été obtenus, qui concernent la configuration globale des chaînes appréhendées en termes de configurations de transition (ou non) entre définis et indéfinis, ou entre groupes nominaux et pronoms. Enfin, notre étude a montré que les heuristiques que l'on peut tirer sur l'accord en gere ou en nombre dans les chaînes de référence ne sont pas impactées par le type d'annotation retenu.Abstract. This paper details an experimental study conducted on ANCOR, a French corpus of spoken dialogue annotated with co-reference relations. Two annotation schemes have been conducted on the corpus: on the one hand, annotation of reference chains consisting in identifying relations between successive mentions of a referent, on the other hand, first-mention annotation where all the co-reference relations are targeting the first mention of the referent. The study reported here compares the distributional results observed on both annotations. Our experimental results confirm hypotheses of the literature regarding the ability of definite, demonstrative or pronominal mention to anchor a reference chain. In addition, this comparative study provides original findings on the transitions between definite and indefinite mentions, and noun phrases and pronouns, in reference chains. Lastly this comparison shows that standard heuristics concerning gender and number agreement in reference chains are not affected by the annotation scheme.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.