予選会には、次の特徴があります。
この認識のもと、次の分析をやってみようとしています。
★過去の予選会と本選の成績を眺め、予選会の結果から予選会通過校の実力を推定する、つまり予選会で発揮したパフォーマンスの評価ということになります。
問題はあります。たとえば、
<成績の変換>
年によって気象条件等の実施環境が違うので、各シーズンを比較する際は、走破時間をそのままでは比較できない。
<予選会と本選の成績のねじれ>
本選と予選会では順位の逆転がかなりある(予選会の下位通過校が本選で上位へ、あるいはその逆)。この部分は、予選会の総合記録だけでは分析できません。本項では検討の対象外とし、巷間言われるねじれの要因を以下に列記するにとどめます。
以下試行過程をまじえて記述しますが、長くなるのでまず結果を示します(勝手に指数なんて作ってるんで、説明を読まないとわかりません−「読んでも、・・・」といわれるとつらいですが)。
予選会 中央値指数 | 予想される本選の成績等 |
---|---|
55以下 | ・シード権確保は厳しいが、1校くらいは上位にくる(しかも6位以内にまでも)。 ・予選会の順位と本選の順位の上下関係にあまり関連がない。 *コンディション等で大きく順位が左右されるということですかね。 |
55〜65 | ・シード権は確保できる。 ・優勝争いには絡めない。 |
65〜75 | ・データがなく不明。 |
75以上 | ・確実に上位にきて、優勝争いに絡む。 |
*予選会中央値指数:予選会の成績を中央値を使って算出した偏差値で指数化(上位9校を対象に算出)−詳細後述。
各シーズンの成績を相対評価して指数化し(偏差値)、その指数を共通的に使う方法で考えます。以下、次の流れで過去の記録の分析を行います。
次の形式での指数化を考えています。
指数T = −10×(x−m)÷s+50
以下の3種類の方法で指数化してみます。
また、本選には山があるので、5区を除く9区間の合計記録の指数も求めてみます。
*5年ごとの記念大会は本選出場校が増えるので、通常の20校枠の、09/10シーズンから12/13シーズンまでの4シーズン分を対象とします(もう少し多い方がいいんですが、大変だし、またあまり古いと傾向が変わったりする可能性もあるので)。
*09/10シーズンは予選会から11校本選に出場しています(本選は20校)。そこで、予選会の上位9校だけを分析の対象にしました(なお、予選会の10位、11位は本選の20位、19位になっています、・・・、予選会の成績が本選直結ですね)。
正規分布を想定した場合と、指数(x)vs順位(y)の関係で作成した散布図の散らばり具合を使った場合で分析してみます。
前項の方法で過去4シーズンの記録を指数化したのが下の表です。予選会出場校について感想を。
◇12/13シーズン
◇11/12シーズン
◇10/11シーズン
◇09/10シーズン
◇全体
前記の表にもとづき次の5つの散布図を作成しました。
*散布図は、x軸が予選会指数、y軸が本選指数です。
<各指数の評価>
⇒結論として、予選会は1項を重視して中央値指数を採用し、本選は2項を考慮して平均値の指数を使います。
前項の結論から、「d 予選会中央値指数 vs 本選平均値指数」を基本に、そこから外れ値を除いてさらに詳しく関係を見てみます
*予選会と本選で大きく違う結果は例外と考えそのデータを除くことにし(外れ値)、ここでは、予選会の平均値指数と本選の平均値指数(予選通過校のみで算出)で25以上の差の成績を除きました(正規分布を仮定すると2%の範囲で、表の赤塗り、すなわち11/12シーズンの東農大と順天堂大が該当します。なお15以上の差も黄塗りしました)。
次の図が、外れ値を除いた「予選会中央値指数 vs 本選平均値指数(34校版)」の図で、この図には回帰式の母平均と個別値の95%信頼区間を書き入れています(母平均の信頼区間が中側の緑の2本で外側のオレンジの2本が個別値の信頼区間)。
*34校版の他の組み合わせの図は示しませんが、予選会トリム指数を使うとR^2=0.2906、予選会平均値指数を使うとR^2=0.2548となっていて、本図のR^2=0.3354にはおよびません。
◇予選会中央値指数VS本選平均値指数信頼区間
詳細な分析は最後のまとめの部分でやるとして、図を見ての感想を。
※標準偏差が大きく、本選の順位の予想は幅が広くなりすぎます。したがって、この後のまとめでは統計を離れ、現在のデータの傾向を使って仮説を立ててみます。
◇本選平均値指数VS本選順位
下図は、4シーズンの本選の指数と順位の関係を各シーズンごとに折れ線グラフで表示したもので、シーズン毎の4本の線ができています。y軸の数字が順位なので、任意の順位に対して、一番右が指数の上端で一番左が下端になります(逆に言うと、たとえば本選の平均値指数が50〜55の範囲ならば、対応する順位は、上は11/12シーズンの5位から、下は10/11シーズンの11位までとなります。なお、12/13シーズンは2校棄権したのですが、そのまま使います)。
グラフの意味はなかったですね。各校の成績がランダムに散っていることが確認できたというそれだけですね(やってみて気づいてますが、これって累積の密度関数ですね)。
以下、予選会の結果の偏差値と箱根本選の実績/モデルとの対応→順位予測という考えで、これまでの検討結果を表にまとめました。この表が結論なんですがどうでしょうか。
*予選会の中央値指数から本選平均値指数(サンプル)への対応付けでは、モデルの予測順位を絞り込むため、前項の表で黄塗りした平均値指数の差が15以上の学校と上武大も除きました(のべ27校の実績ということになります。なお、上武大は全4シーズン全てがかなり外れた位置にあって影響が大きいので除きました)。例外を多数作ることになりますが、ここでの主眼は箱根の順位検討の基本モデルを作ることにあるので、絞り込みを重視しました。今回はできてませんが、例外の中には、条件化が可能な個別の事情もあると思うので、将来的にはそれらを拾って順位予測の補正条件みたいな形で盛り込めればと思います。
すぐにわかるのは、個別値の95%信頼区間(2の表)は広すぎて予想にならないということです。かといって、平均値の方は個別の学校の予想を全く保証してくれません。したがって、サンプルからでてくる指数とこれまでのデータからまとめることにしますが、実はこれは冒頭の表です(再掲します)。
*3の表はサンプルから対応を取っているので、「中央値指数範囲」と「本選順位範囲」が逆転しているところがあります。以前の表はこれを修正していたのですが、最終判断で修正すればいいのでサンプルの内容に忠実な値の表に変更しました。
予選会 中央値指数 | 予想される本選の成績等 |
---|---|
55以下 | ・シード権確保は厳しいが、1校くらいは上位にくる(しかも6位以内にまでも)。 ・予選会の順位と本選の順位の上下関係にあまり関連がない。 *コンディション等で大きく順位が左右されるということですかね。 |
55〜65 | ・シード権は確保できる。 ・優勝争いには絡めない。 |
65〜75 | ・データがなく不明。 |
75以上 | ・確実に上位にきて、優勝争いに絡む。 |
◎4シーズンの実績を、最近勉強した初歩の統計の知識を使って分析してみました。今回の分析で外れ値とした分は、可能性2%なので仕方がないかと思います。しかし差が15以上で切った部分は15%以上の可能性があり、個別な事情がないか等の確認が必要ですが今回はできてません(確認できるのは、結果の数字から読み取れる範囲だけですが)。また上武大に関しては、本選で特に強く必要ななんらかの準備ができていないというような妄想はできるのですが、裏付けデータが準備できないと仮説にもなりません。
というように課題は山のようにありますが、今はかなりの疲労と限界を感じており、いったんは休憩します。