This paper investigates the relationship between expert judgement and numerical criteria when evaluating hydrological model performance by comparing simulated and observed hydrographs. Using a webbased survey, we collected the visual evaluations of 150 experts on a set of high-and low-flow hydrographs. We then compared these answers with results from 60 numerical criteria. Agreement between experts was found to be more frequent in absolute terms (when rating models) than in relative terms (when comparing models), and better for high flows than for low flows. When comparing the set of 150 expert judgements with numerical criteria, we found that most expert judgements were loosely correlated with a numerical criterion, and that the criterion that best reflects expert judgement varies from expert to expert. Overall, we identified two groups of 10 criteria yielding an equivalent match with the expertise of the 150 participants in low and high flows, respectively. A single criterion common to both groups (the Hydrograph Matching Algorithm with mean absolute error) may represent a good indicator for the overall evaluation of models based on hydrographs. We conclude that none of the numerical criteria examined here can fully replace expert judgement when rating hydrographs, and that both relative and absolute evaluations should be based on the judgement of multiple experts.
Comparaison des avis d'experts et des critères numériques pour l'évaluation d'hydrogrammesRésumé Cet article examine la relation entre jugement expert et critères numériques lorsque l'on évalue les performances de modèles hydrologiques en comparant des hydrogrammes simulés et observés. Une enquête en ligne nous a permis de collecter 150 évaluations d'experts sur un échantillon d'hydrogrammes en hautes et basses eaux. Ces évaluations ont ensuite été comparées aux résultats obtenus à l'aide de 60 critères numériques. Les experts ont été plus fréquemment en accord en termes absolus (en notant les modèles) qu'en termes relatifs (en comparant les modèles), et sur les hautes eaux que sur les basses eaux. La comparaison des 150 jugements d'experts et des critères numériques montre que la plupart des experts sont faiblement corrélés à un critère numérique, et que le critère qui reflète le mieux le jugement expert varie d'un expert à l'autre. Globalement, nous avons identifié deux groupes de dix critères qui reflètent bien l'expertise des 150 participants en basses et hautes eaux respectivement. Un critère commun aux deux groupes (l'algorithme de correspondance des hydrogrammes basé sur l'erreur absolue moyenne) peut représenter un bon indicateur pour l'évaluation globale de modèles basée sur les hydrogrammes. On conclut qu'aucun des critères numériques examinés ne peut remplacer le jugement expert lorsque l'on note des hydrogrammes, et que des évaluations relatives ou absolues devraient être basées sur des expertises multiples.Mots clefs évaluation d'hydrogrammes ; modèle hydrologique ; jugement expert ; efficacité ; critère numérique ; enquête en ligne 402