Analyse comparative des approches hybrides et d'ensemble en apprentissage automatique pour prédire les valeurs de transfert des joueurs de football

Contexte académique

Dans l’économie moderne du football, la valeur marchande des joueurs sur le marché des transferts ne dépend pas seulement de leurs performances sur le terrain, mais aussi de facteurs tels que leur notoriété et leur influence sur les réseaux sociaux. Avec la mondialisation de l’industrie du football, les décisions des clubs sur le marché des transferts reposent de plus en plus sur des analyses basées sur les données. Cependant, les méthodes traditionnelles d’évaluation des joueurs se concentrent principalement sur des indicateurs de performance tels que les buts et les passes décisives, négligeant des facteurs émergents comme l’activité sur les réseaux sociaux et la couverture médiatique. Par conséquent, la question de savoir comment prédire plus précisément la valeur marchande des joueurs grâce à des méthodes d’apprentissage automatique et de science des données est devenue un sujet de recherche important.

L’étude de Wenjing Zhang et Dan Cao s’attaque précisément à ce problème. En combinant des indicateurs de performance traditionnels et des données émergentes des réseaux sociaux, ils ont développé un modèle hybride d’apprentissage automatique visant à fournir aux clubs des prédictions plus précises de la valeur marchande des joueurs, les aidant ainsi à prendre des décisions plus éclairées sur le marché des transferts.

Source de l’article

Cet article a été co-écrit par Wenjing Zhang et Dan Cao, respectivement affiliés à l’Institut d’éducation physique du Liaoning Finance and Trade College et au Département d’éducation physique du Shenyang Medical College en Chine. L’article a été publié en 2025 dans la revue Cognitive Computation sous le titre Comparative Analysis of Hybrid and Ensemble Machine Learning Approaches in Predicting Football Player Transfer Values. L’étude utilise un ensemble de données de FIFA 19, combiné à des données statistiques du monde réel, couvrant 54 caractéristiques pour 491 joueurs.

Processus de recherche

1. Collecte et prétraitement des données

La première étape de la recherche a été la collecte des données. Les chercheurs ont extrait l’ensemble de données de FIFA 19 à partir de la plateforme Sofifa.com, qui fournit des informations sur les attributs des joueurs, leurs indicateurs de performance, leur activité sur les réseaux sociaux et leur valeur sur le marché des transferts. L’ensemble de données comprend 54 caractéristiques pour 491 joueurs. Lors de la phase de prétraitement, les chercheurs ont d’abord éliminé 7 échantillons avec des valeurs de caractéristiques incomplètes, puis ont ajouté deux nouvelles colonnes de caractéristiques : “Nom de la ligue” et “Position”, en fonction des informations sur le club et la position des joueurs. Pour garantir la stabilité de la valeur cible, les chercheurs ont également éliminé 27 joueurs de ligues non majeures à faible valeur. Finalement, l’ensemble de données comprend 47 caractéristiques pour 457 joueurs.

2. Sélection des caractéristiques

Pour réduire la dimensionnalité des données et améliorer la précision du modèle, les chercheurs ont utilisé deux méthodes de sélection de caractéristiques basées sur des filtres : le Facteur d’Inflation de la Variance (VIF) et l’Information Mutuelle (Mutual Information). Grâce à ces deux méthodes, les chercheurs ont sélectionné 20 caractéristiques les plus critiques pour prédire la valeur marchande des joueurs. La méthode VIF a été principalement utilisée pour identifier les problèmes de multicolinéarité, tandis que la méthode d’information mutuelle a été utilisée pour mesurer la corrélation entre les caractéristiques et la variable cible. Enfin, les chercheurs ont utilisé la méthode TOPSIS (Technique for Order Preference by Similarity to Ideal Solution), combinant les coefficients de corrélation de Pearson et les scores d’information mutuelle, pour sélectionner les 20 meilleures caractéristiques.

3. Développement des modèles d’apprentissage automatique

Les chercheurs ont utilisé deux modèles d’apprentissage automatique principaux : Extreme Gradient Boosting (XGBoost, XGB) et Adaptive Boosting (AdaBoost, Ada), et ont ensuite développé leurs versions hybrides. Pour optimiser ces modèles, les chercheurs ont introduit quatre algorithmes d’optimisation métaheuristiques : Ali Baba and Forty Thieves Algorithm (AFT), Crystal Structure Algorithm (CSA), Henry Gas Solubility Optimization (HGSO) et Mayfly Optimization Algorithm (MOA). Ces algorithmes d’optimisation ont permis d’ajuster les hyperparamètres des modèles, améliorant ainsi leurs performances prédictives.

4. Évaluation des modèles et résultats

Les chercheurs ont évalué les performances des modèles par validation croisée en cinq plis (k-fold cross-validation) et ont utilisé plusieurs indicateurs statistiques, notamment le coefficient de détermination (R²), l’erreur quadratique moyenne (RMSE) et l’erreur absolue moyenne (MAE). Les résultats de l’étude montrent que le modèle XGBoost optimisé par AFT (XGAF) a obtenu les meilleures performances, avec un R² de 0,9905 et un RMSE de 1,9 million d’euros, ce qui signifie que ce modèle peut prédire la valeur marchande des joueurs avec une très grande précision. De plus, les chercheurs ont analysé la sensibilité du modèle grâce à la méthode Shapley Additive Explanations (SHAP), révélant que la réactivité, la maîtrise du ballon et les compétences de dribble des joueurs sont les facteurs les plus critiques influençant la prédiction de la valeur marchande.

Conclusion et signification

Cette étude a développé un modèle hybride d’apprentissage automatique en combinant des indicateurs de performance traditionnels et des données émergentes des réseaux sociaux, réussissant à prédire la valeur marchande des joueurs de football. Les résultats montrent que le modèle XGBoost optimisé par AFT excelle dans la prédiction de la valeur marchande des joueurs, avec un taux d’erreur inférieur à 10 %. Ce résultat fournit non seulement aux clubs un outil plus précis pour évaluer les joueurs, mais ouvre également de nouvelles perspectives pour la prise de décision basée sur les données dans le domaine de l’économie du football.

En outre, cette étude a mis en lumière l’importance de l’activité sur les réseaux sociaux et de la notoriété des joueurs sur leur valeur marchande, offrant ainsi de nouvelles directions pour les recherches futures. En introduisant des algorithmes d’optimisation métaheuristiques, les chercheurs ont amélioré la précision prédictive des modèles, démontrant le potentiel puissant de l’apprentissage automatique dans l’analyse de données complexes et les problèmes d’optimisation.

Points forts de la recherche

  1. Intégration de données multidimensionnelles : Cette étude a pris en compte non seulement les indicateurs de performance traditionnels, mais aussi les données des réseaux sociaux, offrant une évaluation complète de la valeur marchande des joueurs.
  2. Optimisation des modèles hybrides : En introduisant des algorithmes d’optimisation métaheuristiques, les chercheurs ont réussi à améliorer la précision prédictive des modèles d’apprentissage automatique.
  3. Analyse de sensibilité : Grâce à la méthode SHAP, les chercheurs ont identifié les facteurs clés influençant la valeur marchande des joueurs, fournissant ainsi des insights plus approfondis pour les décisions des clubs.

Autres informations utiles

Les chercheurs ont également souligné que les recherches futures pourraient s’étendre à d’autres ligues de football pour vérifier la généralisabilité du modèle. De plus, avec l’essor continu des données des réseaux sociaux, les recherches futures pourraient explorer l’influence de facteurs émergents supplémentaires sur la valeur marchande des joueurs.

Grâce à cette étude, Wenjing Zhang et Dan Cao ont apporté une contribution précieuse à la recherche interdisciplinaire entre l’économie du football et l’apprentissage automatique, démontrant le potentiel immense de la prise de décision basée sur les données dans la gestion moderne du sport.