This paper employs both a web-ascorpus and a Twitter-as-corpus approach to present a longitudinal case study of the establishment of three recently coined, synonymous neologisms: rapefugee, rapeugee and rapugee. We describe the retrieval and processing of the web and Twitter data and discuss the dynamics of the competition between the three forms within and across both datasets based on quantitative summaries of the results. The results show that various languageexternal events boost the usage of the terms both on the web and on Twitter, with the latter typically ahead of the former by some days. Beside absolute frequencies, we distinguish between several special usages of the target words and their effects on the establishment process. For the web corpus, we examine target words appearing in the title of websites and metalinguistic usages; for the Twitter corpus, we examine hashtag uses and retweets. We find that the use of hashtags and retweets significantly affects the spread of the neologisms both on Twitter and on the web.
This paper presents an overview of challenges and approaches in multilingual coreference resolution. We give an introduction to the terminology used in the field as well as to the basic approaches to resolving coreference relations and discuss the challenges that a system faces when new languages are added. Current systems show that multilinguality can either be approached by adding languages incrementally or it can be part of the original system design. The paper describes the challenges of multilinguality in coreference resolution with respect to existing evaluation criteria, annotation schemes, availability, usability, and accuracy of already existing linguistic tools for preprocessing.
A navegação consulta e descarregamento dos títulos inseridos nas Bibliotecas Digitais UC Digitalis, UC Pombalina e UC Impactum, pressupõem a aceitação plena e sem reservas dos Termos e Condições de Uso destas Bibliotecas Digitais, disponíveis em https://digitalis.uc.pt/pt-pt/termos.Conforme exposto nos referidos Termos e Condições de Uso, o descarregamento de títulos de acesso restrito requer uma licença válida de autorização devendo o utilizador aceder ao(s) documento(s) a partir de um endereço de IP da instituição detentora da supramencionada licença.Ao utilizador é apenas permitido o descarregamento para uso pessoal, pelo que o emprego do(s) título(s) descarregado(s) para outro fim, designadamente comercial, carece de autorização do respetivo autor ou editor da obra. Na medida em que todas as obras da UC Digitalis se encontram protegidas pelo Código do Direito de Autor e Direitos Conexos e demais legislação aplicável, toda a cópia, parcial ou total, deste documento, nos casos em que é legalmente admitida, deverá conter ou fazer-se acompanhar por este aviso.
Sentence-alignment and application of russian-german multi-target parallel corpora for linguistic analysis and literary studies Autor(es):Zhekova, Desislava; Zangenfeind, Robert; Mikhaylova, Alena; Nikolaienko, Tetiana
ResumoEste artigo apresenta a aplicação de corpora multialvo paralelos -compostos por um único texto-fonte e múltiplas traduções-alvo desse texto -para análise linguística. Discute-se o alinhamento, busca interativa e visualização deste tipo de dados usando uma ferramenta específica chamada ALuDo (Alinhamento com Lucene para Dostoievski). Trata-se de uma aplicação Java que utiliza gramáticas locais, informação ontológica, dicionários bilingues e abordagens estatísticas para alinhamento e pesquisa. O conjunto de dados utilizado é constituído pelo romance russo Crime e Castigo de Fiodor Dostoievski e três traduções do romance em alemão. Com este corpus bilingue é possível levar a cabo investigação significativa no campo da linguística e dos estudos literários. Adicionalmente, publicamos parte do corpus paralelo resultante. Palavras-chave: alinhamento interativo; alinhamento baseado em regras; alinhamento estatístico; resolução de correferência; identificação de paráfrase.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.