Hinrichs et al., 2005) Informations (News) 800 000 AnglaisOntoNotes (Pradhan et al., 2007) News, dialogue oral, conversation téléphonique, weblogs, flux radio 50 000Chinois OntoNotes (Pradhan et al., 2007) ou télédiffusés 400 000 Catalan AnCora-Ca (Recasens & Marti, 2010) Informations 400 000Espagnol Ancora-Es (Recasens, 2010) Informations 400 000 Japonais NAIST Text (Idia et al., 2007) Informations 970 000 Hollandais COREA (Heindrickx et al., 2008) Informations, parole, encyclopédie 325 000 Tchèque PDT (Nedouluzhko et al., 2009) Journaux d'information 800 000 Polonais PCC (Ogrodniczuk et al., 2013) Nombreux genres oraux et écrits 514 000Cet article a pour objectif de décrire la ressource et son outil de requêtage, puis de présenter une étude de corpus portant sur la question de l'accord en genre et nombre lors de la reprise coréférentielle. Cette étude questionnera directement certaines hypothèses acceptées sur le langage écrit mais jamais étudiées sur l'oral, tout en fournissant une première illustration des capacités d'analyse qu'offrent le corpus et son outil d'interrogation.
Présentation du corpus ANCOR
Contenu : corpus audio sourcesLe corpus ANCOR ne concerne que la modalité orale. Sans constituer une ressource équilibrée comme le corpus PCC polonais, il a pour ambition de représenter une réelle diversité de situations discursives orales. Il regroupe ainsi l'annotation de quatre corpus de parole spontanée transcrits sous Transcriber (Barras et al., 2001). Ces corpus sont présentés dans le tableau 2. Deux d'entre eux ont été extraits du corpus ESLO, qui regroupe des entretiens sociolinguistiques présentant un degré d'interactivité faible (Baude et Dugua 2011, Eshkol-Taravella et al. 2012. A l'opposé, les deux autres corpus, OTG et Accueil_UBS (Nicolas et al., 2002), concernent des dialogues homme-homme interactifs. Ces deux derniers corpus différent par le média utilisé : le corpus OTG regroupe des conversations de visu au sein d'un office de tourisme pour OTG, tandis qu'Accueil_UBS a été enregistré dans un standard téléphonique. Au total, le corpus regroupe 488 000 mots et correspond à une durée d'enregistrement de 30,5 heures.
Tableau 2 -Contenu du corpus ANCOR : corpus audio sources
Corpus
Méthodologie d'annotationL'annotation a été réalisée sur le logiciel GLOZZ (Mathet et Widlöcher, 2009) Encoding Initiative). Les annotations réalisées sous GLOZZ sont séparées du corpus source avec lequel elles sont synchronisées. Une telle annotation déportée permet un enrichissement multi-niveaux du corpus, ce qui est intéressant en termes d'évolutivité. Afin de limiter la charge cognitive des experts et pour favoriser la cohérence intra-annotateurs, le processus d'annotation a été divisé en quatre étapes successives :1. Caractérisation des mentions (annotateurs : étudiants de Master ou de doctorat en linguistique) 2. Vérification de la phase 1 par un superviseur 3. Caractérisation des relations de coréférence ou anaphoriques (annotateurs identiques) 4. Vérification de la phase 3 par un superviseur.
Schéma ...