Abstract. This paper assessed the influence of four imputation methods of missing values on the performance of canonical correspondence analysis (CCA). Missingness was introduced in complete multivariate normal data sets under three missing mechanisms : MCAR, MAR and NMAR. Results showed that mean imputation recorded the best performance under MCAR and MAR while for NMAR, median imputation was the best.
324Full Abstract (ENGLISH) The main objective of this study was to assess the influence of four imputation methods of missing values (mean, median, random forest and zero) on the performance of canonical correspondence analysis (CCA). Firstly, complete multivariate normal environmental data sets were simulated by taking into account sample size, number of variables, proportion of noise and correlation between variables. Thereafter, missingness in the complete data sets was artificially introduced at 0.1, 0.3 and 0.5 under three missing mechanisms: MCAR, MAR and NMAR. For each combination of factors, CCA was applied and constrained inertia was assessed between the complete data set and imputed data set. Results obtained showed that mean imputation recorded the best performance when data was MCAR and MAR. However, under NMAR, median imputation was the best preferred method. The study showed that beyond a missing value proportion of 30 % the performance of imputation methods significantly reduced.Résumé (FRENCH) L'objectif principal de cetteétude est d'évaluer l'influence de quatre méthodes d'imputation de valeurs manquantes (imputation par moyenne, médiane, forêt aléatoire et zero) sur la performance de l'analyse des correspondances canoniques (ACC). Tout d'abord, des données complètes de distribution Normale multivariée ontété générées en prenant en compte la taille deséchantillons, le nombre de variables, la proportion de bruit et la correlation entre les variables. Ensuite, des valeurs manquantes ontété artificiellement introduites dans les données environnementales (10, 30 et 50 %) suivant trois mécanismes: MCAR, MAR et NMAR. Pour chaque combinaison des facteurs, l'ACC aété appliquée et l'inertie sous contrainte des données environnementales complètes et imputées aété calculée. Les résultats obtenus montrent que l'imputation par moyenne présentait la meilleure performance dans le cas de MCAR et MAR. Toutefois, sous un NMAR, l'imputation par médianeétait la meilleure. L'étude a montré qu'à partir d'une proportion de valeurs manquantes de 30 %, la performance des méthodes d'imputation décroit significativement.