Neues von KorAP 1 EinleitungSeit Mai 2017 befindet sich KorAP1 am IDS in einer Beta-Version im Parallelbetrieb zu COSMAS II2 und ermöglicht einen umfassenden Zugriff auf einen Teil von DeReKo (Kupietz et al. 2010). In der Zwischenzeit sind viele neue Funktionen für die Datensuche hinzugekommen, um von Nutzern getestet und bewertet zu werden. Während KorAP noch weit von der Stabilität entfernt ist, mit der COSMAS II seine Dienste anbieten kann, ermöglicht der Status der Beta-Version einen hohen Grad an Flexibilität, Funktionalitäten einzuführen, zu verändern und gegebenenfalls wieder zu verwerfen.Diese Flexibilität wird zum einen durch die modulare Architektur von KorAP begünstigt (Diewald et al. 2016), die in Zukunft auch optionale Komponenten zur Datenanalyse unterstützen wird (Kupietz/Diewald/Fankhauser 2018), zum anderen durch ein bewusst einfaches Benutzerinterface, in dem neue Funktionalitäten erst angezeigt werden, wenn der Nutzer sie benötigt.
AnfrageoptionenUm Zugriff auf neue Annotationsarten zu ermöglichen, wird zudem die Unterstützung von Anfragesprachen in KorAP ständig erweitert. So wurden Dependenzrelationen für einen Teil von DeReKo mithilfe des MaltParsers3 annotiert4 und über die ANNIS-Anfragesprache zugänglich gemacht. Beispiel: tt/p="PPOSAT" ->malt/d[func="DET"] node 1 https://korap.ids-mannheim.de/, Authentifizierung über einen COSMAS-II-Zugang. 2 https://www.ids-mannheim.de/cosmas2/. 3 http://www.maltparser.org/. 4 Eine Unterstützung des am Leibniz-WissenschaftsCampus Empirical Linguistics & Computational Language Modeling entwickelten Dependenz-Parsers (Do/Rehbein 2017) ist in Vorbereitung.
Die Korpusanalyseplattform KorAP ist von Grund auf sprachenunabhängig konzipiert. Dies gilt sowohl in Bezug auf die Lokalisierung der Benutzeroberfläche als auch hinsichtlich unterschiedlicher Anfragesprachen und der Unterstützung fremdsprachiger Korpora und ihren Annotationen. Diese Eigenschaften dienen im Rahmen der EuReCo-Initiative aktuell besonders der Bereitstellung weiterer National-und Referenzkorpora neben DeReKo. EuReCo versucht, Kompetenzen beim Aufbau großer Korpora zu bündeln und durch die Verfügbarmachung vergleichbarer Korpora quantitative Sprachvergleichsforschung zu erleichtern. Hierzu bietet KorAP inzwischen, neben dem Zugang durch die Benutzeroberfläche, einen Web API Client an, der statistische Erhebungen, auch korpusübergreifend, vereinfacht.
Wikipedia is a valuable resource, useful as a lingustic corpus or a dataset for many kinds of research. We built corpora from Wikipedia articles and talk pages in the I5 format, a TEI customisation used in the German Reference Corpus (Deutsches Referenzkorpus -DeReKo). Our approach is a two-stage conversion combining parsing using the Sweble parser, and transformation using XSLT stylesheets. The conversion approach is able to successfully generate rich and valid corpora regardless of languages. We also introduce a method to segment user contributions in talk pages into postings.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.