ハイブリッドおよびアンサンブル機械学習アプローチによるサッカー選手の移籍価値予測の比較分析

学術的背景

現代のサッカー経済において、選手の移籍市場価値は、彼らのフィールド上のパフォーマンスだけでなく、知名度やソーシャルメディアの影響力など、さまざまな要因によって左右されます。サッカー産業のグローバル化に伴い、クラブの移籍市場における意思決定は、データ駆動型の分析にますます依存するようになっています。しかし、従来の選手評価方法は、主にゴールやアシストなどのパフォーマンス指標に依存しており、選手のソーシャルメディアの活発度やメディア報道などの新しい要素を無視していました。そのため、機械学習やデータサイエンスの手法を用いて、選手の移籍価値をより正確に予測することが重要な研究課題となっています。

Wenjing Zhang と Dan Cao の研究は、まさにこの問題に取り組んでいます。彼らは、従来のパフォーマンス指標と新しいソーシャルメディアデータを組み合わせ、クラブが移籍市場でより賢明な意思決定を行うための、より正確な選手の市場価値予測モデルを開発しました。

論文の出所

この論文は、Wenjing Zhang と Dan Cao によって共同執筆され、それぞれ中国の遼寧財経学院体育学院と瀋陽医学院体育部に所属しています。論文は2025年に学術誌『Cognitive Computation』に掲載され、タイトルは『Comparative Analysis of Hybrid and Ensemble Machine Learning Approaches in Predicting Football Player Transfer Values』です。この研究では、国際サッカー連盟(FIFA)19のデータセットを活用し、現実世界の統計データと組み合わせて、491人の選手の54の特徴をカバーしています。

研究のプロセス

1. データ収集と前処理

研究の第一段階はデータ収集です。研究者は、Sofifa.com プラットフォームから FIFA 19 のデータセットを抽出しました。このプラットフォームは、選手の属性、パフォーマンス指標、ソーシャルメディアの活発度、および移籍市場価値などの情報を提供しています。データセットには491人の選手の54の特徴が含まれています。データ前処理の段階では、研究者はまず7つの特徴値が不完全なサンプルを除外し、その後、選手のクラブとポジション情報に基づいて、2つの新しい特徴列「リーグ名」と「ポジション」を追加しました。目標値の安定性を確保するために、研究者はまた、非メジャーリーグの27人の低価値選手を除外しました。最終的に、データセットには457人の選手の47の特徴が含まれています。

2. 特徴選択

データの次元を減らし、モデルの精度を向上させるために、研究者は2つのフィルターベースの特徴選択方法を採用しました:分散拡大係数(VIF)相互情報量(Mutual Information)です。これらの方法を通じて、研究者は選手の市場価値を予測する上で最も重要な20の特徴を選び出しました。VIF 方法は主に多重共線性問題を識別するために使用され、相互情報量方法は特徴と目標変数間の関連性を測定するために使用されました。最終的に、研究者は TOPSIS(Technique for Order Preference by Similarity to Ideal Solution)方法を用いて、ピアソン相関係数と相互情報量スコアを組み合わせ、20の最適な特徴を選び出しました。

3. 機械学習モデルの開発

研究者は、2つの主要な機械学習モデルを採用しました:極端な勾配ブースティング(XGBoost, XGB)適応型ブースティング(AdaBoost, Ada)です。さらに、これらのモデルのハイブリッドバージョンを開発しました。これらのモデルを最適化するために、研究者は4つのメタヒューリスティック最適化アルゴリズムを導入しました:Ali Baba and Forty Thieves Algorithm (AFT)Crystal Structure Algorithm (CSA)Henry Gas Solubility Optimization (HGSO)、および Mayfly Optimization Algorithm (MOA) です。これらの最適化アルゴリズムは、モデルのハイパーパラメータを調整することで、モデルの予測性能をさらに向上させました。

4. モデル評価と結果

研究者は、5分割交差検証(k-fold cross-validation)を用いてモデルの性能を評価し、決定係数(R²)、平均二乗誤差(RMSE)、平均絶対誤差(MAE)などの複数の統計指標を使用しました。研究結果は、XGBoost を最適化した AFT モデル(XGAF)が最も優れたパフォーマンスを示し、R² 値は 0.9905、RMSE は 190 万ユーロに達し、このモデルが選手の市場価値を極めて高い精度で予測できることを示しました。さらに、研究者は Shapley Additive Explanations (SHAP) 方法を用いてモデルの感度を分析し、選手の反応能力、ボールコントロール能力、ドリブル能力が市場価値予測に最も重要な要素であることを明らかにしました。

結論と意義

この研究は、従来のパフォーマンス指標と新しいソーシャルメディアデータを組み合わせ、ハイブリッド機械学習モデルを開発し、サッカー選手の移籍市場価値を成功裏に予測しました。研究結果は、XGBoost を最適化した AFT モデルが選手の市場価値予測において優れたパフォーマンスを示し、誤差率は10%未満であることを示しています。この成果は、クラブに正確な選手評価ツールを提供するだけでなく、サッカー経済学におけるデータ駆動型の意思決定に新たな視点を提供します。

さらに、この研究は、選手のソーシャルメディアの活発度と知名度が彼らの市場価値に及ぼす重要な影響を明らかにし、今後の研究に新たな方向性を提供しました。メタヒューリスティック最適化アルゴリズムを導入することで、研究者はモデルの予測精度をさらに向上させ、複雑なデータ分析と最適化問題における機械学習の強力な可能性を示しました。

研究のハイライト

  1. 多次元データの統合:この研究は、従来のパフォーマンス指標だけでなく、ソーシャルメディアデータも考慮し、選手の市場価値を包括的に評価しました。
  2. ハイブリッドモデルの最適化:メタヒューリスティック最適化アルゴリズムを導入することで、機械学習モデルの予測精度を向上させました。
  3. 感度分析:SHAP 方法を用いて、選手の市場価値に影響を与える重要な要素を明らかにし、クラブの意思決定に深い洞察を提供しました。

その他の有益な情報

研究者はまた、今後の研究では他のサッカーリーグに拡張してモデルの汎用性を検証することができると指摘しています。さらに、ソーシャルメディアデータがますます豊富になるにつれて、今後の研究では選手の市場価値に影響を与える新しい要素をさらに探求することができるとしています。

この研究を通じて、Wenjing Zhang と Dan Cao は、サッカー経済学と機械学習分野のクロスオーバー研究に貴重な貢献をし、現代のスポーツ管理におけるデータ駆動型意思決定の大きな可能性を示しました。