Regression methods are widely employed in forestry to predict and map structure and canopy fuel variables. We present a study where several regression models (linear, non-linear, regression trees and ensemble) were assessed. Independent variables were calculated using metrics extracted from full-waveform LiDAR data, while the reference data used to generate the dependent variables for the prediction models were obtained from fieldwork in 78 plots of 16 m radius. Transformations of dependent and independent variables with feature selection were carried out to assess their influence in the prediction of response variables. In order to evaluate significant differences and rank regression models we used the non-parametric tests Wilcoxon and Friedman, and post-hoc analysis or post-hoc pairwise multiple comparison tests, such as Nemenyi, for Friedman test. Regressions using transformation of the dependent variable, like square-root or logarithmic, or the independent variable, increased R 2 up to 6% with respect to linear regression using unprocessed response variables. CART (Classification and Regression Tree) method provided poor results, but it may be interesting for categorisation purposes. Square-root transformation of the dependent variable is the method having the best overall results, except for stand volume. However, not always has a significant improvement with respect to other regression methods.Key words: regression models, Random Forest, CART, M5, Wilcoxon, Friedman, forest structure, canopy fuel, LiDAR full-waveform.
Estudio comparativo de métodos de regresión para la predicción de variables de estructura y combustibilidad a partir de datos LiDAR full-waveformResumen: Los métodos de regresión se utilizan ampliamente en el ámbito forestal para la predicción y el cartografiado de las variables de estructura y combustibilidad. En este artículo se evalúan diferentes modelos de regresión (lineal, no lineal, árboles de regresión y ensemble). Como variables independientes se utilizaron métricas extraídas de datos LiDAR full-waveform, mientras que los valores de las variables dependientes se generaron a partir de modelos basados en datos de campo obtenidos para 78 parcelas de 16 m de radio. Se llevaron a cabo transformaciones de las variables dependientes e independientes con selección de atributos para evaluar su influencia en la predicción de la variable respuesta. Con el fin de verificar diferencias significativas y ordenar los modelos de regresión se emplearon los tests no paramétricos de Wilcoxon y Friedman, y el análisis post-hoc o los tests de comparación post-hoc por pares, como el de Nemenyi, para el test de Friedman. Las regresiones basadas en la transformación de la variable dependiente,