Clarin 2022
DOI: 10.1515/9783110767377-007
|View full text |Cite
|
Sign up to set email alerts
|

Building Paths to Corpus Data

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1

Citation Types

0
1
0
1

Year Published

2023
2023
2023
2023

Publication Types

Select...
1
1

Relationship

1
1

Authors

Journals

citations
Cited by 2 publications
(2 citation statements)
references
References 0 publications
0
1
0
1
Order By: Relevance
“…Die zweite grundlegende Annahme von EuReCo und der vierte, oben unterschlagene, Grund für die Entscheidung, keine statischen Auszüge aus den Ausgangskorpora zu kopieren, sondern diese in ihrer Gesamtheit nur virtuell zu verbinden, war bzw� ist, dass eine allgemeine Vergleichbarkeit von Korpora kein erreichbares und daher auch kein besonders sinnvolles Ziel ist� Korpora können bei sinnvoller Größe und Streuung nicht allgemein perfekt vergleichbar sein, da es immer ein Kriterium geben wird, anhand dessen die Korpora nicht vergleichbar sind� Ob eine Ungleichverteilung bzgl� einer Variable relevant ist, hängt dabei von der konkreten Fragestellung ab� Hinzu kommt, dass schon einsprachige Korpora nicht allgemein repräsentativ sein können, da ihre Grundgesamtheit (= Sprache) nicht allgemein definierbar ist (Koplenig 2017) und auch schon die Frage, ob ein einsprachiges Korpus ausreichend repräsentativ ist, von der Fragestellung und ihrer Ziel-Sprachdomäne abhängt� Aus diesen Gründen wurde für EuReCo, wie für DeReKo, eine Art Ur-Stichprobenansatz (Kupietz et al� 2022) verwenden und so die Analysen auch leichter reproduzierbar und replizierbar machen� Listing 1 zeigt z�B� den vollständigen R-Quellcode zu den Kookkurrenzanalysen, die einen Einblick in die Gemeinsamkeiten und Unterschiede der Funktionsverbgefüge mit "pune în …" und "in … setzen" geben sollen� Die node-und ContextSize-Parameter in beiden Kookkurrenzanalysen zeigen jeweils, wie mit KorAP's Anfragesprache Poli-qarp+ (Przepiórkowski et al� 2004) auch so genannte "interne Erweiterungen" (Steyer & Brunner 2009) bzw� interne Kollokate ermittelt und eingegrenzt werden können� So können mit Hilfe der focus-Funktion auch der Kontext der Basis 6 https:// korap�ids-mannh eim�de/ ?q= Test&cq= refe rTo+ "druk ola�20180 909�1b_ wo rds" 7 https:// korap�nlp�nytud�hu/ 8 https:// CRAN�R-proj ect�org/ pack age= RKorA PCli ent, https:// git hub�com/ KorAP/ RKorA PCli ent, Diese Korpusbefunde liefern bereits einige Hypothesen zu den Gemeinsamkeiten und Unterschieden von "pune în …" und "in … setzen"� Wobei sich Hypothesen hier u�a� auf die möglicherweise unzulänglichen Übersetzungen, die fehlenden lokalen, intra-textuellen Kontexte, die fehlenden globalen, extra-textuellen Kontexte und auf die Frage anspielt, ob diese Befunde verallgemeinerbar sind und falls ja, wie eng umgrenzt diese Sprachdomäne ist� Bei der Überprüfung der Hypothesen hinsichtlich mehrerer dieser Aspekte ist ein Grundprinzip von KorAP hilfreich, nach dem aggregierende Darstellungen wann immer möglich mit ihren zugrundeliegenden Konkordanzen verlinkt sind bzw� mit KorAP-Anfragen, die genau diese Konkordanzen liefern (Kupietz et al� 2017b: 323…”
Section: Vergleichbarkeit Und Repräsentativitätunclassified
“…Die zweite grundlegende Annahme von EuReCo und der vierte, oben unterschlagene, Grund für die Entscheidung, keine statischen Auszüge aus den Ausgangskorpora zu kopieren, sondern diese in ihrer Gesamtheit nur virtuell zu verbinden, war bzw� ist, dass eine allgemeine Vergleichbarkeit von Korpora kein erreichbares und daher auch kein besonders sinnvolles Ziel ist� Korpora können bei sinnvoller Größe und Streuung nicht allgemein perfekt vergleichbar sein, da es immer ein Kriterium geben wird, anhand dessen die Korpora nicht vergleichbar sind� Ob eine Ungleichverteilung bzgl� einer Variable relevant ist, hängt dabei von der konkreten Fragestellung ab� Hinzu kommt, dass schon einsprachige Korpora nicht allgemein repräsentativ sein können, da ihre Grundgesamtheit (= Sprache) nicht allgemein definierbar ist (Koplenig 2017) und auch schon die Frage, ob ein einsprachiges Korpus ausreichend repräsentativ ist, von der Fragestellung und ihrer Ziel-Sprachdomäne abhängt� Aus diesen Gründen wurde für EuReCo, wie für DeReKo, eine Art Ur-Stichprobenansatz (Kupietz et al� 2022) verwenden und so die Analysen auch leichter reproduzierbar und replizierbar machen� Listing 1 zeigt z�B� den vollständigen R-Quellcode zu den Kookkurrenzanalysen, die einen Einblick in die Gemeinsamkeiten und Unterschiede der Funktionsverbgefüge mit "pune în …" und "in … setzen" geben sollen� Die node-und ContextSize-Parameter in beiden Kookkurrenzanalysen zeigen jeweils, wie mit KorAP's Anfragesprache Poli-qarp+ (Przepiórkowski et al� 2004) auch so genannte "interne Erweiterungen" (Steyer & Brunner 2009) bzw� interne Kollokate ermittelt und eingegrenzt werden können� So können mit Hilfe der focus-Funktion auch der Kontext der Basis 6 https:// korap�ids-mannh eim�de/ ?q= Test&cq= refe rTo+ "druk ola�20180 909�1b_ wo rds" 7 https:// korap�nlp�nytud�hu/ 8 https:// CRAN�R-proj ect�org/ pack age= RKorA PCli ent, https:// git hub�com/ KorAP/ RKorA PCli ent, Diese Korpusbefunde liefern bereits einige Hypothesen zu den Gemeinsamkeiten und Unterschieden von "pune în …" und "in … setzen"� Wobei sich Hypothesen hier u�a� auf die möglicherweise unzulänglichen Übersetzungen, die fehlenden lokalen, intra-textuellen Kontexte, die fehlenden globalen, extra-textuellen Kontexte und auf die Frage anspielt, ob diese Befunde verallgemeinerbar sind und falls ja, wie eng umgrenzt diese Sprachdomäne ist� Bei der Überprüfung der Hypothesen hinsichtlich mehrerer dieser Aspekte ist ein Grundprinzip von KorAP hilfreich, nach dem aggregierende Darstellungen wann immer möglich mit ihren zugrundeliegenden Konkordanzen verlinkt sind bzw� mit KorAP-Anfragen, die genau diese Konkordanzen liefern (Kupietz et al� 2017b: 323…”
Section: Vergleichbarkeit Und Repräsentativitätunclassified
“…Since -unfortunately -we do not live in this ideal world, the corpus-linguistic community often has to compromise when distributing corpora. For example, we might prevent access to the full-text corpora themselves and give users the opportunity to access them via corpus platforms that are designed to search for speci c patterns (Kupietz et al, 2022) and allow for a speci ed set of analyses and the extraction of small parts of the corpus (e.g., keyword-in-context outputs). While opening many linguistic research avenues, there are, however, also many large-scale corpus-linguistic procedures (e.g., calculations of transition probabilities for all 2-grams in a corpus) where access paths through corpus platforms are not su cient.…”
Section: Introductionmentioning
confidence: 99%