ここでは、全日本大学駅伝と箱根の本選の成績の関係を検討してみます(箱根の予選会と本選との成績の関係の検討時の内容を前提にして話を進めているので、未読の方は「■予選会から」の項も参照いただきたく。なお面倒なので、以下それぞれを「全日本vs箱根」、「予選会vs本選」と書きます−本項では、予選会は箱根の予選会を意味します)。
さて、「全日本vs箱根」、「予選会vs本選」のそれぞれの組み合わせの類似点、相違点を考えると、以下のようなことが言えると思います(当たり前のことですが話の組み立てということでご容赦を)。
◇「予選会vs本選」
◇「全日本vs箱根」
*大きな公式駅伝として他に出雲がありますが、出雲は全日本よりもさらに距離が短く区間数が少なく時期も早いので、箱根の成績予測は全日本の成績から考えます。
「予選会vs本選」では、箱根のシード校が出場しない予選会の結果を箱根の成績予測の中に組み込む観点で考えました。その検討結果には例外も多数残り改善の必要はあるのですが、ともかく組み込んでみました。一方「全日本vs箱根」では、箱根の有力校のほとんどが「全日本大学駅伝」も走っています。基本的に両者の結果の関係は強いはずですが(これが基本の考え方)、結果には違いもでており、全日本の結果→箱根の成績予測では、全日本の結果を前提に結果が違った要因のエキスを振りかけることになります(最も大きな違いは、有力選手の出場/欠場も含めた条件の違いですが、それはこの分析の目的ではないので除きます)。
※「予選会vs本選」は「■予選会から」の項にまとめましたが、そこでは予選会と本選の成績を比較して両者の関係を検討しています。予選会出場校の中には全日本に出場している学校もあり、それらの学校の全日本の成績を間にはさんで予選会と本選の成績の関係を検討する手段も考えられます。しかし、予選会と全日本の双方に出場している学校の両大会への臨戦態勢が同じレベルなのか個人的に強い疑問があり(学校にもよるようですが)、そのアプローチは採用しません(予選会は全日本の2週間後です)。
以下、ポイントになりそうなことをもう少し細かく整理してみます(これでもファンの方には当然のことでしょうが)。そしてそのポイントにどう対応するかを、以降個々に検討していきます。
◇各区間の個性(距離の違い)
両大会の距離の違いを整理すると次のようになっています。
距離の違いから生ずる走破時間への影響に関しては以下のことが考えられます。
◇各区間の個性(出場選手/距離帯の違い)
◇区間数の違い
*8区間きちんと選手を準備できる学校であれば影響は大きくないのかなと個人的には思ってます。
◇全日本の成績を箱根の成績予想に使える形にする
*2009/2010〜2012/2013の4シーズンを対象に分析するつもりです。
◇予選会出場校と非出場校の違い
◇その他(検討不可能な相違要因と考えています)
各シーズンの成績を相対評価して指数化し(偏差値)、その指数を共通的に使う方法で考えます。以下、次の流れで過去の記録の分析を行います。
以下、上記各作業のポイントを説明します。
*1〜3の作業の順番は書けばこうなりますが、3を意識して1と2を行うので実際は並行的です。
全日本の記録を整理する作業です。なお、整理時のポイントは次の作業です。
単純に走破時間を距離に比例させて伸ばしてみるつもりです。
*オリジナルと比較して大きく違う傾向が出ると期待しています。
予選会の時と同様に学力の偏差値の定義で指数化します。
指数T = −10×(x−m)÷s+50
※箱根本選の記録は、「■予選会から」の項で整理/指数化済みなので使いまわします。
ポイントは次の作業です。
基本モデルを下敷きに、相違点の解釈から生まれた補正を施して予測します。
はじめる前に、データの作り方を補足しておきます。
※本項の結果は、次の「○全日本と本選の関係把握」作業の中で一緒に示します。
<両大会の指数の分布図>
調査対象の2009/2010〜2012/2013の4シーズンで、全日本と箱根の双方に出場したのべ44校の成績の指数の分布図を示します(4シーズンで全日本に出場したのべ4×12=48校の中から、片方しか出場していない学校、および箱根棄権校を除いたのべ44校の記録です)。
左が全日本(オリジナル)vs箱根、右が全日本(各区間20Km換算)vs箱根ですが、・・・、パッと見あまり違いません(20Km換算の方が少しは箱根の成績に近いようですが)。後でもうちょっと細かく見ますが、現時点の感想を箇条書きにしておきます。
下は、このグラフの元の表です。表の数字でも大きな差はないように見えます(最も大きな差は、2010年の日大の3.77のダウン)。
◇20Km換算表
※換算した方が若干寄与率が高いし、距離の違いは取り込んだ方がいいと思っているので、以降全日本の成績の指数は20Km換算の方を使います。
<基本モデル>
基本モデルの検討のために、前の分布図に信頼区間を入れてみます(母平均の信頼区間が中側の緑の2本で外側のオレンジの2本が個別値の信頼区間)。
◇信頼区間
このグラフ見ての感想は?
*とりあえずこんなもんだということで、次の検討ですね
<全日本と箱根の結果の相違点の検討>
まずはこの表です。この表は左に箱根の成績、次いで全日本の成績を指数形式で対比させて並べたものです。その中に含まれる20〜70の各欄は、各区間の成績の指数帯を示し、数字は該当する区間数の合計を表示したものです(したがって各大学の数字を合計すると、箱根は10に全日本は8になります。なお、端の20台と70台は、それぞれさらにその外側の帯域も含みます)。さらにその右側の2列は、20Km換算の効果を確認するため、全日本の総合成績と20Km換算の指数の差、および箱根と全日本の総合成績の指数の差をもとめたものです。
◇まとめ表
*箱根の指数のセルの色塗りは、全日本から箱根での大きな変化を示します。
*大学名の黄塗りは、予選会出場校です。
予選会出場校に青塗りが多いのが非常に気になります。気にしていたように、予選会出場校の全日本の成績にはムラがあるようです。
→予選会出場校の成績は除いて基本モデルを作ることにします(下図)
◇信頼区間2
ふたつのアイディアがあります。
<20Km換算の影響>
表の差の数字に関して、その符号で分けて数を数えてみました。
*C−B:全日本の20Km換算指数マイナス全日本のオリジナル成績指数
*A−B:箱根本選の指数マイナス全日本のオリジナル成績指数
第一象限は多く、20Km換算の指数が高い方も多い。前にも書いたように、短い距離の区間では差がつきにくいので、単純に距離に比例させて差を計算しても十分でなく、20Km換算の方法では両大会の成績の違いの一部しか説明できないということでしょう。
<ブレーキ区間の影響>
端的には、全日本でブレーキを起こした時の対応です。全日本でブレーキを起こした学校は箱根ではブレーキを起こさないとすると(続けてはブレーキは起こさないだろうと考える)、救済する必要があります。そこで、前の表に示すように全日本の指数別の区間数を数えて表にし、低い方に間があいて数字が入った場合にブレーキと考えることにしました(表の紫に塗った部分)。
*予選会は、12人いて代わりがあるので考えませんでした。
また救済方法は、その区間の本来の指数はその学校の2番目に低い指数帯に入っていたと考えることにしました。
例:2012年の山梨学院は、指数の最下位が20台の1人で、その上は40台の4人です。つまり間があいているので、最下位の20台の1人は20台でなく40台と考え指数を20上げます。そして総合の指数でも、それに見合ったように指数をあげます。具体的には、この時の該当区間は5区で20Km換算時間の標準偏差は1.41分でした。したがって、修正時間はその倍の2.82分とし、20Km換算の総合成績の標準偏差は6.43分なので、総合成績の指数を、2.82×10/6.43=4.39上げます。
説明をまとめます。
ブレーキ区間の影響を取り込むのは悪くないと思っていますが、修正量の決め方は降参です。決めないと進まないので、ここでは仮に上記数字にしておきます。ただ問題はもう一つあって、該当ケースが少ないということです。
予選会の成績分析の結果を踏まえ、「全日本20Km換算指数 vs 箱根本選平均値指数」を基本に検討します(詳細は、結論の次項に示します)。
以下、予選会の結果の偏差値と箱根本選の実績/モデルとの対応→順位予測という考えで、これまでの検討結果を表にまとめました。この表が結論なんですがどうでしょうか(「信頼限界」のグラフで限界が位の3校を除きます)。
◇総合対応表
*外れ値の3校と予選会出場16校を除いたのべ27校の実績から算出(2校は双方に該当)。
*前述のように、予選会出場校の箱根の成績の予測には予選会の成績を採用するので本表は関係しない。
結論をまとめます。
全日本 指数 | 予想される本選の成績等 |
---|---|
60以上 | ・優勝争いに参加。 |
55〜60 | ・シード権は確保できる。 ・ベスト3に入る学校もある。 |
45〜55 | ・シードを確保する確率は低くない。 ・ベスト3への食い込みは難しい。 |
40〜45 | ・シードはほぼ確保だが、逃す学校もあり、ベスト3に食い込む学校もある。 |
40以下 | ・実績がほとんどない(かなり厳しくなる?)。 |
以上です。