Inter‐rater Reliability of the Cloze Reading Inventory as a Qualitative Measure of Reading Comprehension

Santi, Roger J. De; Sullivan, Vicki Gallo

doi:10.1080/0270271840050304

Cited by 3 publications

(2 citation statements)

References 4 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…The study of interrater reliability of reading test items is a limited area of research, and the extent of reliability, as well as the exact definition of what might qualify as a "high level" of reliability, will depend on both item construction and on the level of rater training (DeSanti & Sullivan, 1984;Taboada, Tonks, Wigfield & Guthrie, 2013). Therefore, any test program that requires subjective scoring needs to evaluate and validate their own proportion of rater reliability (Bejar, 2012).…”

Section: Introductionmentioning

confidence: 99%

Interrater reliability of constructed response items in standardized tests of reading

Tengberg¹,

Roe²,

Skar³

2018

Nordic Studies in Education

View full text Add to dashboard Cite

This article reports from a study of interrater reliability of constructed response items in standardized tests of reading. Two panels of raters (lower secondary teachers and test developers) were asked to rate student responses on 11 different items taken from the Norwegian national reading test in eighth grade. Consensus estimates and measurement estimates were combined with a qualitative analysis of difficult-to-score student responses. Based on findings about rater agreement, distribution of severity, and troublesome response characteristics, the article provides knowledge about both actual and possible levels of interrater reliability and discusses the use and development of open-ended reading test items.

show abstract

Section: Introductionmentioning

confidence: 99%

Interrater reliability of constructed response items in standardized tests of reading

Tengberg¹,

Roe²,

Skar³

2018

Nordic Studies in Education

View full text Add to dashboard Cite

show abstract

“…Studier av interbedö marreliabilitet av läsfö rmåga är ett begränsat forskningsområde, men några undersö kningar har visat att det går att uppnå hö ga nivåer av samstämmighet i standardiserade provsystem (DeSanti & Sullivan 1984). Däremot rapporterar Illinois State Board of Education (2013) att vid genomfö rande av SATtesterna 1 i läsning 2013 låg nivån fö r exakt överensstämmelse på moderata 65Á67 % vid bedö mning av ''extended-response items'', där bedö marna bedö mde varje elevsvar på en skala från 0Á4.…”

unclassified

Samstämmighet i lärares bedömning av nationella prov i läsförståelse

Tengberg

Skar

2016

NJLR

View full text Add to dashboard Cite

AbstraktTillfö rlitlighet i bedö mning är en avgö rande komponent i varje testprogram där testtagares resultat bygger på bedö mares tolkningar utifrån en bedö mningsskala eller en bedö mningsguide. Utfö rliga svar på ö ppna uppgifter bedö ms exempelvis sällan som antingen ''rätt'' eller ''fel''. Istället tillämpas skalan eller bedö mningsguiden fö r att fastställa i vilken utsträckning svaret uppvisar den efterfrågade kompetensen. I den här artikeln redovisas resultat från en studie av bedö marreliabilitet på ö ppna uppgifter i det nationella provets svenska läsfö rståelsedel i årskurs nio.Fö r att undersö ka i vilken mån provsystemet skapar fö rutsättningar fö r god bedö marreliabilitet har sex lärare fått bedö ma tre elevers lö sningar av 14 ö ppna uppgifter, totalt 252 bedö mningar. Analyserna innefattar konsensusestimat (procentuell samstämmighet och Cohens kappa) och konsistensestimat (ICC). Dessutom har kvalitativa analyser genomfö rts på uppgiftsnivå fö r att visa på aspekter i uppgiftskonstruktionen som kan ligga till grund fö r låg bedö marreliabilitet.Resultaten från studien visar på moderata nivåer av bedö marreliabilitet, både ifråga om kappavärden (.73) och ICC (.82), vilket motsvarar en variation mellan bedö mningarna som får stora konsekvenser fö r elevernas slutgiltiga provresultat. I artikeln diskuterar vi resultatens implikationer fö r rättvis bedö mning av elevers läsfö rmåga i Sverige. Vi fö r också ett resonemang om olika sätt att stärka bedö marreliabiliteten det nationella provet i läsfö rståelse.Nyckelord: bedömning; interbedömarreliabilitet; läsning; nationella prov; reliabilitet Abstract Inter-rater reliability is a critical component in any test program where test-takers' responses are judged by human raters using scales or scoring rubrics. Lengthy responses to open-ended test items are, for instance, rarely judged objectively as either ''correct'' or ''incorrect''. Rather, rubrics are used to determine the extent to which a particular item response displays the expected competence. This paper reports a study of inter-rater reliability in teachers' assessment of open-ended items in the Swedish national reading test for 9 th grade. In order to explore whether the test design supports reliable assessment, six experienced teachers of Swedish were asked to rate the responses of three students on 14 items, 252 ratings in all. Analyses included consensus estimates (percent agreement and Cohen's kappa) and consistency estimates (ICC). In addition, qualitative item analyses were performed in order to investigate possible causes of low reliability for specific items.Findings indicate moderate levels of inter-rater reliability according to both kappa (.73) and ICC (.82) values, equaling a variation of ratings with large consequences for the students' final results. *Correspondence to: Michael Tengberg, Institutionen fö r pedagogiska studier, Karlstads universitet, 65188 Karlstad, Sverige.

show abstract

Concurrent and predictive validity of a semantically and syntactically sensitive cloze scoring system

DeSanti

1988

Reading Research and Instruction

View full text Add to dashboard Cite

Inter‐rater Reliability of the Cloze Reading Inventory as a Qualitative Measure of Reading Comprehension

Cited by 3 publications

References 4 publications

Interrater reliability of constructed response items in standardized tests of reading

Interrater reliability of constructed response items in standardized tests of reading

Samstämmighet i lärares bedömning av nationella prov i läsförståelse

Concurrent and predictive validity of a semantically and syntactically sensitive cloze scoring system

Contact Info

Product

Resources

About