Search citation statements
Paper Sections
Citation Types
Year Published
Publication Types
Relationship
Authors
Journals
Le corpus ANCOR ne concerne que la modalité orale.
Hinrichs et al., 2005) Informations (News) 800 000 AnglaisOntoNotes (Pradhan et al., 2007) News, dialogue oral, conversation téléphonique, weblogs, flux radio 50 000Chinois OntoNotes (Pradhan et al., 2007) ou télédiffusés 400 000 Catalan AnCora-Ca (Recasens & Marti, 2010) Informations 400 000Espagnol Ancora-Es (Recasens, 2010) Informations 400 000 Japonais NAIST Text (Idia et al., 2007) Informations 970 000 Hollandais COREA (Heindrickx et al., 2008) Informations, parole, encyclopédie 325 000 Tchèque PDT (Nedouluzhko et al., 2009) Journaux d'information 800 000 Polonais PCC (Ogrodniczuk et al., 2013) Nombreux genres oraux et écrits 514 000Cet article a pour objectif de décrire la ressource et son outil de requêtage, puis de présenter une étude de corpus portant sur la question de l'accord en genre et nombre lors de la reprise coréférentielle. Cette étude questionnera directement certaines hypothèses acceptées sur le langage écrit mais jamais étudiées sur l'oral, tout en fournissant une première illustration des capacités d'analyse qu'offrent le corpus et son outil d'interrogation. Présentation du corpus ANCOR Contenu : corpus audio sourcesLe corpus ANCOR ne concerne que la modalité orale. Sans constituer une ressource équilibrée comme le corpus PCC polonais, il a pour ambition de représenter une réelle diversité de situations discursives orales. Il regroupe ainsi l'annotation de quatre corpus de parole spontanée transcrits sous Transcriber (Barras et al., 2001). Ces corpus sont présentés dans le tableau 2. Deux d'entre eux ont été extraits du corpus ESLO, qui regroupe des entretiens sociolinguistiques présentant un degré d'interactivité faible (Baude et Dugua 2011, Eshkol-Taravella et al. 2012. A l'opposé, les deux autres corpus, OTG et Accueil_UBS (Nicolas et al., 2002), concernent des dialogues homme-homme interactifs. Ces deux derniers corpus différent par le média utilisé : le corpus OTG regroupe des conversations de visu au sein d'un office de tourisme pour OTG, tandis qu'Accueil_UBS a été enregistré dans un standard téléphonique. Au total, le corpus regroupe 488 000 mots et correspond à une durée d'enregistrement de 30,5 heures. Tableau 2 -Contenu du corpus ANCOR : corpus audio sources Corpus Méthodologie d'annotationL'annotation a été réalisée sur le logiciel GLOZZ (Mathet et Widlöcher, 2009) Encoding Initiative). Les annotations réalisées sous GLOZZ sont séparées du corpus source avec lequel elles sont synchronisées. Une telle annotation déportée permet un enrichissement multi-niveaux du corpus, ce qui est intéressant en termes d'évolutivité. Afin de limiter la charge cognitive des experts et pour favoriser la cohérence intra-annotateurs, le processus d'annotation a été divisé en quatre étapes successives :1. Caractérisation des mentions (annotateurs : étudiants de Master ou de doctorat en linguistique) 2. Vérification de la phase 1 par un superviseur 3. Caractérisation des relations de coréférence ou anaphoriques (annotateurs identiques) 4. Vérification de la phase 3 par un superviseur. Schéma ...
Le corpus ANCOR ne concerne que la modalité orale.
Hinrichs et al., 2005) Informations (News) 800 000 AnglaisOntoNotes (Pradhan et al., 2007) News, dialogue oral, conversation téléphonique, weblogs, flux radio 50 000Chinois OntoNotes (Pradhan et al., 2007) ou télédiffusés 400 000 Catalan AnCora-Ca (Recasens & Marti, 2010) Informations 400 000Espagnol Ancora-Es (Recasens, 2010) Informations 400 000 Japonais NAIST Text (Idia et al., 2007) Informations 970 000 Hollandais COREA (Heindrickx et al., 2008) Informations, parole, encyclopédie 325 000 Tchèque PDT (Nedouluzhko et al., 2009) Journaux d'information 800 000 Polonais PCC (Ogrodniczuk et al., 2013) Nombreux genres oraux et écrits 514 000Cet article a pour objectif de décrire la ressource et son outil de requêtage, puis de présenter une étude de corpus portant sur la question de l'accord en genre et nombre lors de la reprise coréférentielle. Cette étude questionnera directement certaines hypothèses acceptées sur le langage écrit mais jamais étudiées sur l'oral, tout en fournissant une première illustration des capacités d'analyse qu'offrent le corpus et son outil d'interrogation. Présentation du corpus ANCOR Contenu : corpus audio sourcesLe corpus ANCOR ne concerne que la modalité orale. Sans constituer une ressource équilibrée comme le corpus PCC polonais, il a pour ambition de représenter une réelle diversité de situations discursives orales. Il regroupe ainsi l'annotation de quatre corpus de parole spontanée transcrits sous Transcriber (Barras et al., 2001). Ces corpus sont présentés dans le tableau 2. Deux d'entre eux ont été extraits du corpus ESLO, qui regroupe des entretiens sociolinguistiques présentant un degré d'interactivité faible (Baude et Dugua 2011, Eshkol-Taravella et al. 2012. A l'opposé, les deux autres corpus, OTG et Accueil_UBS (Nicolas et al., 2002), concernent des dialogues homme-homme interactifs. Ces deux derniers corpus différent par le média utilisé : le corpus OTG regroupe des conversations de visu au sein d'un office de tourisme pour OTG, tandis qu'Accueil_UBS a été enregistré dans un standard téléphonique. Au total, le corpus regroupe 488 000 mots et correspond à une durée d'enregistrement de 30,5 heures. Tableau 2 -Contenu du corpus ANCOR : corpus audio sources Corpus Méthodologie d'annotationL'annotation a été réalisée sur le logiciel GLOZZ (Mathet et Widlöcher, 2009) Encoding Initiative). Les annotations réalisées sous GLOZZ sont séparées du corpus source avec lequel elles sont synchronisées. Une telle annotation déportée permet un enrichissement multi-niveaux du corpus, ce qui est intéressant en termes d'évolutivité. Afin de limiter la charge cognitive des experts et pour favoriser la cohérence intra-annotateurs, le processus d'annotation a été divisé en quatre étapes successives :1. Caractérisation des mentions (annotateurs : étudiants de Master ou de doctorat en linguistique) 2. Vérification de la phase 1 par un superviseur 3. Caractérisation des relations de coréférence ou anaphoriques (annotateurs identiques) 4. Vérification de la phase 3 par un superviseur. Schéma ...
will take place in Denver on June 4 and 5 and is colocated with SemEval and NAACL. As in 2014 at COLING, also on this occasion *SEM and SemEval chose to coordinate their programs by featuring a joint invited talk. In this way, *SEM aims to bring together the ACL SIGLEX and ACL SIGSEM communities.The acceptance rate of *SEM 2015 was quite competitive: out of 98 submissions, we accepted 36 papers for an overall acceptance of 37%. The acceptance rate of long paper that were accepted for oral presentation (18 out of 62) is 29%. The papers cover a wide range of topics including distributional semantics; lexical semantics and lexical acquisition; formal and linguistic semantics; discourse semantics; lexical resources, linked data and ontologies; semantics for applications; and extra-propositional semantics: sentiment and figurative meaning.The *SEM 2015 program consists of oral presentations for selected long papers and a poster session for long and short papers.Day One, June 4th:• Joint *SEM SemEval keynote talk by Marco Baroni;• Oral presentation sessions on distributional semantics, lexical semantics, and extra-propositional semantics;• Poster session.Day Two, June 5th:• Keynote talk by Preslav Natkov;• Oral presentation sessions on semantics for applications, lexical resources and ontologies, formal semantics, and discourse semantics;• *SEM Best Paper Award.We cannot finish without saying that *SEM 2015 would not have been possible without the considerable efforts of our area chairs, their reviewers, and the computational semantics community in general.We hope you will enjoy *SEM 2015, Distributional semantic methods have some a priori appeal as models of human meaning acquisition, because they induce word representations from contextual distributions naturally occurring in corpus data without need for supervision. However, learning the meaning of a (concrete) word also involves establishing a link between the word and its typical visual referents, which is beyond the scope of classic, text-based distributional semantics. Since recently several proposals have been put forward about how to induce multimodal word representations from linguistic and visual contexts, it is natural to ask if this line of work, besides its practical implications, can help us to develop more realistic, grounded models of human word learning within the distributional semantics framework.In my talk, I will report about two studies in which we used multimodal distributional semantics (MDS) to simulate human word learning. In one study, we first measured the ability of subjects to link a nonce word to relevant linguistic and visual associates when prompted only by exposure to minimal corpus evidence about it. We then simulated the same task with an MDS model, finding its behavior remarkably similar to that of subjects. In the second study, we constructed a corpus in which child-directed speech is aligned with real-life pictures of the objects mentioned by care-givers. We then trained our MDS model on these data, and inspected the generaliza...
Despite the convexity of structured maxmargin objectives Tsochantaridis et al., 2004), the many ways to optimize them are not equally effective in practice. We compare a range of online optimization methods over a variety of structured NLP tasks (coreference, summarization, parsing, etc) and find several broad trends. First, margin methods do tend to outperform both likelihood and the perceptron. Second, for max-margin objectives, primal optimization methods are often more robust and progress faster than dual methods. This advantage is most pronounced for tasks with dense or continuous-valued features. Overall, we argue for a particularly simple online primal subgradient descent method that, despite being rarely mentioned in the literature, is surprisingly effective in relation to its alternatives.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.
Copyright © 2025 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.