Resumo: Atualmente verifica-se a insuficiência de instrumentos de avaliação validados que possam mensurar as diferentes etapas de aprendizagem inicial de programação. Por este motivo desenvolvemos uma prova a partir da Taxonomia de Bloom que permite comparar o desempenho dos alunos independentemente da linguagem de programação com que iniciaram a sua aprendizagem. A prova apresenta questões de escolha múltipla para os quatro níveis iniciais e questões de desenvolvimento para os dois últimos níveis. Após a sua construção, foi validada por 12 especialistas e submetida a um grupo-piloto (N=29) para analisar a fiabilidade e dificuldade dos itens. Obtivemos um alfa de 0,837 e correlação positiva entre todos os itens da prova e o total dos itens com nível de significância p<0,05. As diferenças entre a frequência de respostas corretas nos itens são estatisticamente significativas (Q(12)=76,767; n=29; p=0,000). Estes resultados demonstram que a prova é válida, fiável e discriminativa.Palavras-chave: Programação Inicial; Taxonomia de Bloom; Desempenho; Validação; Fiabilidade
Development and Validation of an Assessment Instrument of the Initial Programming SkillsAbstract: Nowadays there is a noticeable lack of validated evaluation instruments that can measure the different stages of initial programming learning. For this reason, we developed an instrument from Bloom's Taxonomy that allows to compare the students' performance regardless of the programming language with which they started their learning. The instrument presents multiple choice questions for the first four levels and open-ended questions for the last two levels. After its construction, it was validated by 12 specialists and submitted to a pilotgroup (N=29) to analyze the items' reliability and difficulty. We obtained an alpha of 0,837 and positive correlation between al the test's items and the total of items with a significance level of p<0,05. The differences between the frequency of correct answers in the items are statistically significative (Q(12) =76,767; n=29; p=0,000). These results demonstrate that the test is valid, reliable and discriminative.