AbstraktTillfö rlitlighet i bedö mning är en avgö rande komponent i varje testprogram där testtagares resultat bygger på bedö mares tolkningar utifrån en bedö mningsskala eller en bedö mningsguide. Utfö rliga svar på ö ppna uppgifter bedö ms exempelvis sällan som antingen ''rätt'' eller ''fel''. Istället tillämpas skalan eller bedö mningsguiden fö r att fastställa i vilken utsträckning svaret uppvisar den efterfrågade kompetensen. I den här artikeln redovisas resultat från en studie av bedö marreliabilitet på ö ppna uppgifter i det nationella provets svenska läsfö rståelsedel i årskurs nio.Fö r att undersö ka i vilken mån provsystemet skapar fö rutsättningar fö r god bedö marreliabilitet har sex lärare fått bedö ma tre elevers lö sningar av 14 ö ppna uppgifter, totalt 252 bedö mningar. Analyserna innefattar konsensusestimat (procentuell samstämmighet och Cohens kappa) och konsistensestimat (ICC). Dessutom har kvalitativa analyser genomfö rts på uppgiftsnivå fö r att visa på aspekter i uppgiftskonstruktionen som kan ligga till grund fö r låg bedö marreliabilitet.Resultaten från studien visar på moderata nivåer av bedö marreliabilitet, både ifråga om kappavärden (.73) och ICC (.82), vilket motsvarar en variation mellan bedö mningarna som får stora konsekvenser fö r elevernas slutgiltiga provresultat. I artikeln diskuterar vi resultatens implikationer fö r rättvis bedö mning av elevers läsfö rmåga i Sverige. Vi fö r också ett resonemang om olika sätt att stärka bedö marreliabiliteten det nationella provet i läsfö rståelse.Nyckelord: bedömning; interbedömarreliabilitet; läsning; nationella prov; reliabilitet Abstract Inter-rater reliability is a critical component in any test program where test-takers' responses are judged by human raters using scales or scoring rubrics. Lengthy responses to open-ended test items are, for instance, rarely judged objectively as either ''correct'' or ''incorrect''. Rather, rubrics are used to determine the extent to which a particular item response displays the expected competence. This paper reports a study of inter-rater reliability in teachers' assessment of open-ended items in the Swedish national reading test for 9 th grade. In order to explore whether the test design supports reliable assessment, six experienced teachers of Swedish were asked to rate the responses of three students on 14 items, 252 ratings in all. Analyses included consensus estimates (percent agreement and Cohen's kappa) and consistency estimates (ICC). In addition, qualitative item analyses were performed in order to investigate possible causes of low reliability for specific items.Findings indicate moderate levels of inter-rater reliability according to both kappa (.73) and ICC (.82) values, equaling a variation of ratings with large consequences for the students' final results. *Correspondence to: Michael Tengberg, Institutionen fö r pedagogiska studier, Karlstads universitet, 65188 Karlstad, Sverige.