The generation and availability of football data has increased considerably last decades, mostly due to its popularity and also because of technological advances. Gaussian mixture clustering models represents a novel approach to exploring and analyzing performance data in sports. In this paper, we use principal components analysis in conjunction with a model-based Gaussian clustering method with the purpose of characterizing professional football players. Our model approach is tested using 40 attributes from EA Sports' FIFA video game series system, corresponding to 7705 European players. Clustering results reveal a clear distinction among different performance indicators, representing four different roles in the team. Players were labeled according to these roles and a gradient tree boosting model was used for ranking attributes regarding to its importance. We found that the dribbling skill is the most discriminating variable among the different clustered players' profiles.Key words: association football; EA Sports' FIFA video game series system; machine learning; principal component analysis; Gaussian mixture clustering models; classification and regression trees.
AbstractCorrespondencia/correspondence: César Soto-Valero Department of Computer Science, Universidad Central "Marta Abreu" de Las Villas, Cuba Email: cesarsotovalero@gmail.com En las últimas décadas se ha visto un incremento considerable en la generación y disponibilidad de datos de fútbol, esto se debe fundamentalmente a la popularidad de este deporte así como a los avances tecnológicos realizados en este campo. Los modelos de agrupamiento basados en mixturas Gaussianas representan un enfoque novedoso para explorar y analizar datos de desempeño deportivo. En el presente trabajo, se lleva a cabo una caracterización de jugadores profesionales de fútbol utilizando técnicas de análisis de componentes principales y agrupamiento basados en mixturas Gaussianas. El modelo presentado es comprobado utilizando datos del sistema de videojuegos FIFA de EA Sports, dichos datos representan 40 atributos correspondientes a 7705 futbolistas europeos. Los resultados del agrupamiento revelan una clara distinción entre algunos indicadores de desempeño, los cuales corresponden a cuatro roles diferentes en el equipo. Consecuentemente, los jugadores fueron etiquetados de acuerdo a estos roles y un modelo de árboles de gradiente ampliado fue utilizado para ordenar los atributos de acuerdo a su importancia. Como resultado se identificó a la habilidad de driblear como la variable que mejor discrimina entre los diferentes perfiles de jugadores.Palabras clave: fútbol; sistema de videojuegos FIFA de EA Sports; aprendizaje automátic; análisis de componentes principales; agrupamiento basado en modelos de mixturas Gaussianas; árboles de clasificación y regresión.
Resumen