そして、惜しかった、日本。
あわやベルギー戦も突破できたのでは?と思えるような良いゲームでした。
ワールドカップで勝つための要因(スポーツをデータで科学する)【回帰分析】
では、ワールドカップで勝つためには、何に注目したらいいでしょうか?ワールドカップで勝つための要因を探っていきたいと思います。
ワールドカップ2010年のデータから、勝つための要因を考えてみましょう。
参考にしたのは、「社会人のためのデータサイエンス入門」1-7統計データの活用です。
「社会人のためのデータサイエンス入門」/gacco
2010年のワールドカップデータは下記の統計分析からダウンロードできます。
エクセルデータ「おもしろ統計分析 統計で振り返る・サッカーW杯2010」
回帰分析で因果関係を探ります
統計学の「回帰分析」を使って、因果関係を分析していきます。被説明変数(目的変数)
「ワールドカップで勝つためには」という趣旨からすると、何を目的とすればいいでしょうか?例えば、順位・勝率・勝ち数・得失点差などが考えられます。
ここでは、いっぱい点を獲って、失点を少なくすればいい、という考えから「得失点差」に注目してみます。
2010年のワールドカップ順位をみますと、
1位 スペイン
2位 オランダ
3位 ドイツ
4位 ウルグアイ
となっていました。
得失点差でみますと、
1位 ドイツ
2位 スペイン
2位 オランダ
2位 ポルトガル
3位 ブラジル
ビミョーなんですが、ギリギリOKとしましょう。
SPAIN2010worldcup-statics/FIFA
被説明変数(目的変数): 得失点差
説明変数
データ上、国別に得点、シュート数、攻撃、守備、パス、反則、走行距離などのたくさんの数字が公表されています。
この中で、得失点差に関係ありそうなものをピックアップして回帰分析していきます。
パス成功数と得失点差の関係【回帰分析】
近年はパスサッカーが盛んと言われていますので、パスに着目してみました。説明変数 : 成功したパスの本数
得失点差をy軸、パス成功数をx軸として散布図を描画。
決定係数r2
決定係数r2は説明力の強さを表す数値になります。yの変動のうちxで説明できる割合を表す量で、大きい方が説明力が高い、といえます。
決定係数は 0 から 1 の間の数値となり,1 に近いほど当てはまりが良いことを示しています。
y=-7.210712453+0.00526610066x
パスが1本成功しますと、得失点差が0.00526610066増えます。
r2(決定係数)=0.5684206643
「社会人のためのデータサイエンス入門」1-7で講師の先生がされた、ゴール枠内へのシュー
ト数が0.23894、セーブ数が0.291145だったことを考えると、いい結果だったといえるのか
もしれません。
パス成功率と得失点差の関係【回帰分析】
パス成功数だと、決勝リーグにいったチームといってないチーム、勝ち進んだチームと途中で負けたチーム等で試合数が異なるため、今度はパス成功率を説明変数としてみます。説明変数 : パス成功率
y=-14.35588265+20.22258693x
パス成功率が1上がると、得失点差が20.22258693上がるということになります。
r2=0.05655153211
あれ、もっと決定係数が上がると思ったのですが、逆に1/10ぐらいに小さくなっていました。
総走行距離と得失点差の関係【回帰分析】
最近は、スピードサッカーともいわれています。そこで、走行距離の長い方が、得失点差に繋がるのではないか、と考えました。
説明変数 : 総走行距離
y=-8.495662528+0.01996409537x
r2=0.5181568957
それでも決定係数は、最初のパス成功数には敵いませんでした。
パス成功数および総走行距離と得失点差の関係【重回帰分析】
そこで、パス成功数と総走行距離の二つを説明変数として、重回帰分析を行ってみます。説明変数 : パス成功数と総走行距離
y=-8.22089525+0.007802026024x+0.003589342462x
r2=0.5899293065
それなりの決定係数が算出されました。
では、次回以降、2014年・2018年にこの式を当てはめてみたいと思います。
今大会の総試合数は64。ゴール数は前回ブラジル大会と1998年フランス大会の171点に次ぐ169点で64試合制になったフランス大会以降3位、1試合平均は2.6となっている。
セットプレーからの得点は総得点の約43%となる73点、PKによるゴールが22点でいずれも過去最高となっている。
「データで観るサッカー:2018年ロシア大会を振り返る」データのじかん より
0 件のコメント:
コメントを投稿