Zusammenfassung. Mit der lexikalischen Datenbank dlexDB stellen wir der psychologischen und linguistischen Forschung im World Wide Web online statistische Kennwerte für eine Vielzahl von verarbeitungsrelevanten Merkmalen von Wörtern zur Verfügung. Diese Kennwerte umfassen die durch CELEX ( Baayen, Piepenbrock und Gulikers, 1995 ) bekannten Variablen der Häufigkeiten von Wortformen und Lemmata in Texten geschriebener Sprache. Darüber hinaus berechnen wir eine Reihe neuer Kennwerte wie die Häufigkeiten von Silben, Morphemen, Zeichenfolgen und Mehrwortverbindungen sowie Wortähnlichkeitsmaße. Die Datengrundlage bildet das Kernkorpus des Digitalen Wörterbuchs der deutschen Sprache (DWDS) mit über 100 Millionen laufenden Wörtern. Wir illustrieren die Validität dieser Kennwerte mit neuen Ergebnissen zu ihrem Einfluss auf Fixationsdauern beim Lesen von Sätzen.
This article introduces childLex, an online database of German read by children. childLex is based on a corpus of children's books and comprises 10 million words that were syntactically annotated and lemmatized. childLex reports linguistic norms for lexical, superlexical, and sublexical variables in three different age groups: 6-8 (grades 1-2), 9-10 (grades 3-4), and 11-12 years (grades 5-6). Here, we describe how childLex was collected and analyzed. In addition, we provide information about the distributions of word frequency, word length, and orthographic neighborhood size, as well as their intercorrelations. Finally, we explain how childLex can be accessed using a Web interface.
Zusammenfassung. In diesem Beitrag stellen wir childLex vor, eine online-Datenbank zur Schriftsprache für Kinder im Deutschen. childLex basiert auf einem Korpus aus Kinder- und Schulbüchern, das ca. 10 Millionen Wörter umfasst, und stellt verschiedene linguistische Normen auf der lexikalischen, superlexikalischen und sublexikalischen Ebene zur Verfügung. Diese werden in der psychologischen Forschung dringend zur Erstellung von altersadäquaten Stimulus- und Trainingsmaterialien benötigt. Separate Normen sind für drei verschiedene Altersbereiche verfügbar: 6 – 8 Jahre (1. – 2. Klasse), 9 – 10 Jahre (3. – 4. Klasse) und 11 – 12 Jahre (5. – 6. Klasse). Hier beschreiben wir Aufbau und Analyse von childLex und vergleichen Frequenznormen auf der lexikalischen, superlexikalischen und sublexikalischen Ebene mit denen des DWDS-Kernkorpus, eines umfassenden Korpus zur Schriftsprache für Erwachsene. Dabei zeigt sich, dass die beiden Korpora im hochfrequenten Bereich und auf der sublexikalischen Ebene gut übereinstimmen, während sie auf der lexikalischen und superlexikalischen Ebene sowie im mittel- bis niederfrequenten Bereich stark voneinander abweichen. Abschließend erläutern wir, welche Variablen in childLex verfügbar sind und wie sie sich abfragen lassen.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.