As vantagens e desvantagens do uso de questões de julgamento em avaliações de aprendizagem, bem como a inserção da penalização de respostas erradas como mecanismo de ajuste sobre o acerto casual, já foram apresentadas e discutidas por diversos autores no contexto da avaliação de aprendizagem. No entanto, pouco estudo tem sido feito no Brasil no sentido de entender a extensão da influência do uso da penalização de respostas erradas na medida da proficiência do aluno no domínio avaliado. Neste sentido, este artigo apresenta um estudo realizado na Universidade de Brasília, com os alunos das disciplinas básicas de Física-1 e Física-2 oriundos de 20 cursos diferentes, no modelo das Disciplinas Unificadas da Física, que foram submetidos alternadamente a avaliações com penalidade e sem penalidade. O efeito da redução da confiabilidade do escore devidoà penalidadeé confrontado estatisticamente com o efeito do aumento do poder discriminativo da prova devidoà redução do "chute". Uma nova grandeza chamada ganho na qualidade γé proposta para interpretar os resultados desses efeitos combinados. Ao final, fica demonstrado que o aumento do poder discriminativo da prova supera a redução da confiabilidade do escore quando se aplica a penalização de respostas erradas em itens de julgamento. Palavras-chave: disciplinas de massa, itens dicotômicos, penalização de respostas, confiabilidade do escore, poder discriminativo da prova.The advantages and disadvantages of using true/false tests in learning assessments, as well as the insertion of penalization (negative marking) of wrong answers as mechanism of adjustment on the guessing success, have already been presented and discussed by several authors in the context of learning assessment. However, few studies has been done in Brazil to understand the extent of the influence of using penalization of wrong answers in the measure of student proficiency in the evaluated domain. Hence, this article presents a study carried out at the University of Brasília, with the students of the basic disciplines of Physics-1 and Physics-2 coming from 20 different courses, in the unified Physics disciplines model. The students were alternately submitted to assessments with penalty and without penalty. The effect of reducing the reliability of the score due to the penalty is statistically compared with the effect of increasing the discriminatory power of the test due to the reduction of the guessworking. A new magnitude called "statistical yield" is proposed to interpret the results of these combined effects. To conclude, it is demonstrated that the increase in the discriminatory power of the test outweighs the reduction of the reliability of the score when applying penalization of wrong answers in true/false tests. Keywords: Mass disciplines, true/false tests, penalization of answers, reliability of the score, discriminatory power of the test
IntroduçãoO principal objetivo das avaliações de aprendizagemé fornecer informações sobre o nível de domínio de alguém em um determinado assunto, a partir de suas ...