全日本大学駅伝から

はじめに

ここでは、全日本大学駅伝と箱根の本選の成績の関係を検討してみます（箱根の予選会と本選との成績の関係の検討時の内容を前提にして話を進めているので、未読の方は「■予選会から」の項も参照いただきたく。なお面倒なので、以下それぞれを「全日本ｖｓ箱根」、「予選会ｖｓ本選」と書きます－本項では、予選会は箱根の予選会を意味します）。

さて、「全日本ｖｓ箱根」、「予選会ｖｓ本選」のそれぞれの組み合わせの類似点、相違点を考えると、以下のようなことが言えると思います（当たり前のことですが話の組み立てということでご容赦を）。

◇「予選会ｖｓ本選」

出場校が違う（予選会にシード校は出場しない！）。
予選会は駅伝ではない。
１選手が走る距離は近い。

◇「全日本ｖｓ箱根」

出場校は似ている（全日本には箱根のシード校も多く出場する）。
いずれも大学の公式駅伝で大きな大会である（最終的な目標は最後の箱根だが）。
１選手が走る距離はかなり全日本が短い。
区間数は箱根１０区間に対して全日本は８区間。

＊大きな公式駅伝として他に出雲がありますが、出雲は全日本よりもさらに距離が短く区間数が少なく時期も早いので、箱根の成績予測は全日本の成績から考えます。

「予選会ｖｓ本選」では、箱根のシード校が出場しない予選会の結果を箱根の成績予測の中に組み込む観点で考えました。その検討結果には例外も多数残り改善の必要はあるのですが、ともかく組み込んでみました。一方「全日本ｖｓ箱根」では、箱根の有力校のほとんどが「全日本大学駅伝」も走っています。基本的に両者の結果の関係は強いはずですが（これが基本の考え方）、結果には違いもでており、全日本の結果→箱根の成績予測では、全日本の結果を前提に結果が違った要因のエキスを振りかけることになります（最も大きな違いは、有力選手の出場／欠場も含めた条件の違いですが、それはこの分析の目的ではないので除きます）。

※「予選会ｖｓ本選」は「■予選会から」の項にまとめましたが、そこでは予選会と本選の成績を比較して両者の関係を検討しています。予選会出場校の中には全日本に出場している学校もあり、それらの学校の全日本の成績を間にはさんで予選会と本選の成績の関係を検討する手段も考えられます。しかし、予選会と全日本の双方に出場している学校の両大会への臨戦態勢が同じレベルなのか個人的に強い疑問があり（学校にもよるようですが）、そのアプローチは採用しません（予選会は全日本の２週間後です）。

以下、ポイントになりそうなことをもう少し細かく整理してみます（これでもファンの方には当然のことでしょうが）。そしてそのポイントにどう対応するかを、以降個々に検討していきます。

◇各区間の個性（距離の違い）

両大会の距離の違いを整理すると次のようになっています。

箱根が区間平均２１．８Ｋｍなのに対して全日本大学駅伝は区間平均１３．４Ｋｍ。
箱根の最短区間が４区の１８．５Ｋｍで他の区間は全て２０Ｋｍを超えるのに対して、全日本は８区の１９．７Ｋｍが最長で（唯一箱根なみ）、他の区間は全て１５Ｋｍ以下。

距離の違いから生ずる走破時間への影響に関しては以下のことが考えられます。

タイム差は距離が延びれば拡大するのが大半で、箱根の成績の検討時にはその点を考える必要がある。
たとえば、箱根を想定して１区間の距離を２０Ｋｍと仮想し、全日本での差を単純に距離に比例して拡大させるのが一つの手である。
ただし、通常は距離が伸びるにつれてラップタイムは落ち、その落ち込みは力のない選手の方が大きいことが多いが、単純比例ではその落ち込みは取り込めない（かといって別の方法は今は考えつかない。上位の選手が飛ばし過ぎていて、後半落ち込むこともあるが、そんなのはもっと取りこむ方法は浮かばない）。

◇各区間の個性（出場選手／距離帯の違い）

有力選手が出場する４区間（１／２／４／８区＝距離が長い方の４区間）と他の４区間（つなぎの区間）などという要素もあります（両方の成績分布の違いの影響を見るなどというのも、・・・、ダルマ状態で言ってみただけです）。

◇区間数の違い

区間数が箱根の１０区間に対して２区間少ない８区間。

＊８区間きちんと選手を準備できる学校であれば影響は大きくないのかなと個人的には思ってます。

◇全日本の成績を箱根の成績予想に使える形にする

年によって気象条件等の実施環境が違うので、各年別の成績は単純に比較できません（予選会からの検討の時と同様な方式で指数化します）。

＊2009/2010～2012/2013の４シーズンを対象に分析するつもりです。

◇予選会出場校と非出場校の違い

最初に書きましたが、予選会出場校はその２週間後に全日本があり、非出場校とは条件が大きく違います。予選会出場校は予選会の結果からのアプローチを優先しようと考えています。

◇その他（検討不可能な相違要因と考えています）

当日の体調の違い
全日本に山の区間はない（山の成績の予測はできない）

記録評価の考え方

各シーズンの成績を相対評価して指数化し（偏差値）、その指数を共通的に使う方法で考えます。以下、次の流れで過去の記録の分析を行います。

全日本の記録の整理
全日本の記録の指数化
全日本と本選の関係把握
全日本の結果からの本選の順位の予測

以下、上記各作業のポイントを説明します。

＊１～３の作業の順番は書けばこうなりますが、３を意識して１と２を行うので実際は並行的です。

作業のポイント

全日本の記録の整理

全日本の記録を整理する作業です。なお、整理時のポイントは次の作業です。

全日本大学駅伝の記録の２０Ｋｍへの換算

単純に走破時間を距離に比例させて伸ばしてみるつもりです。

＊オリジナルと比較して大きく違う傾向が出ると期待しています。

記録の指数化

予選会の時と同様に学力の偏差値の定義で指数化します。

指数Ｔ　＝　－１０×（ｘ－ｍ）÷ｓ＋５０

ｘ：各校の記録
ｍ：各校の記録の平均値
ｓ：各校の記録の標準偏差（バラツキ）

記録は小さい方がいいので、１０×（ｘ－ｍ）÷ｓの部分には負号をつけます。

※箱根本選の記録は、「■予選会から」の項で整理／指数化済みなので使いまわします。

全日本と本選の関係把握

ポイントは次の作業です。

両大会の指数の分布図と評価
分布図を作成し、両者の関係を確認します。
基本モデルの作成
両者の関係の基本モデルを考えます。
全日本と箱根の本選の結果の相違点の要因の検討
相違部分を検討し、その解釈方法を考えます。

全日本の結果からの本選の順位の予測

基本モデルを下敷きに、相違点の解釈から生まれた補正を施して予測します。

分析作業

はじめる前に、データの作り方を補足しておきます。

全日本大学駅伝の偏差値は、関東からの出場校だけで計算します（該当する2009－2012の４年間は出場校は１２校でした　－　シード枠の６校と関東の予選枠の６校の計１２校で、箱根に出場しなかった学校も含みます）。
箱根の偏差値は全出場校で計算します（2010－2013の４年のいずれも通常年なので基本的には２０校になります。棄権があった場合は、全体成績については棄権校を除き、区間記録の偏差値は、記録があれば棄権校も含めて計算しています。

全日本の記録の整理

※本項の結果は、次の「○全日本と本選の関係把握」作業の中で一緒に示します。

全日本と本選の関係把握

＜両大会の指数の分布図＞

調査対象の2009/2010～2012/2013の４シーズンで、全日本と箱根の双方に出場したのべ４４校の成績の指数の分布図を示します（４シーズンで全日本に出場したのべ４×１２＝４８校の中から、片方しか出場していない学校、および箱根棄権校を除いたのべ４４校の記録です）。

左が全日本（オリジナル）ｖｓ箱根、右が全日本（各区間２０Ｋｍ換算）ｖｓ箱根ですが、・・・、パッと見あまり違いません（２０Ｋｍ換算の方が少しは箱根の成績に近いようですが）。後でもうちょっと細かく見ますが、現時点の感想を箇条書きにしておきます。

両者の分布にあまり差はみられない。
＊寄与率（グラフのＲ＾２の値）に差がありません。
寄与率も高くない。０．５位（相関係数では０．７位）にはなるのかななどと、ぼーっと思ってました。

下は、このグラフの元の表です。表の数字でも大きな差はないように見えます（最も大きな差は、２０１０年の日大の３．７７のダウン）。

◇２０Ｋｍ換算表信頼区間

※換算した方が若干寄与率が高いし、距離の違いは取り込んだ方がいいと思っているので、以降全日本の成績の指数は２０Ｋｍ換算の方を使います。

＜基本モデル＞

基本モデルの検討のために、前の分布図に信頼区間を入れてみます（母平均の信頼区間が中側の緑の２本で外側のオレンジの２本が個別値の信頼区間）。

◇信頼区間

このグラフ見ての感想は？

＊とりあえずこんなもんだということで、次の検討ですね

＜全日本と箱根の結果の相違点の検討＞

まずはこの表です。この表は左に箱根の成績、次いで全日本の成績を指数形式で対比させて並べたものです。その中に含まれる２０～７０の各欄は、各区間の成績の指数帯を示し、数字は該当する区間数の合計を表示したものです（したがって各大学の数字を合計すると、箱根は１０に全日本は８になります。なお、端の２０台と７０台は、それぞれさらにその外側の帯域も含みます）。さらにその右側の２列は、２０Ｋｍ換算の効果を確認するため、全日本の総合成績と２０Ｋｍ換算の指数の差、および箱根と全日本の総合成績の指数の差をもとめたものです。

◇まとめ表

＊箱根の指数のセルの色塗りは、全日本から箱根での大きな変化を示します。

青：指数が１０以上あがった。
緑：指数が５～１０あがった。
橙：指数が５～１０さがった
赤：指数が１０以上さがった。

＊大学名の黄塗りは、予選会出場校です。

予選会出場校に青塗りが多いのが非常に気になります。気にしていたように、予選会出場校の全日本の成績にはムラがあるようです。

→予選会出場校の成績は除いて基本モデルを作ることにします（下図）

◇信頼区間２

寄与率はかなり上がります。これを採用ですね。
全日本の指数は計算しなおしていません（変にも思えますが、全日本の順位と実力に関連があると考えるなら、そのままの方がよいと思います）。

相違要因の検討（試行）

ふたつのアイディアがあります。

＜２０Ｋｍ換算の影響＞

表の差の数字に関して、その符号で分けて数を数えてみました。

第Ⅰ象限（Ｃ－Ｂ：＋、Ａ－Ｂ：＋）　　１８
第Ⅱ象限（Ｃ－Ｂ：－、Ａ－Ｂ：＋）　　　９
第Ⅲ象限（Ｃ－Ｂ：－、Ａ－Ｂ：－）　　　９
第Ⅳ象限（Ｃ－Ｂ：＋、Ａ－Ｂ：－）　　　８

＊Ｃ－Ｂ：全日本の２０Ｋｍ換算指数マイナス全日本のオリジナル成績指数

＊Ａ－Ｂ：箱根本選の指数マイナス全日本のオリジナル成績指数

第一象限は多く、２０Ｋｍ換算の指数が高い方も多い。前にも書いたように、短い距離の区間では差がつきにくいので、単純に距離に比例させて差を計算しても十分でなく、２０Ｋｍ換算の方法では両大会の成績の違いの一部しか説明できないということでしょう。

＜ブレーキ区間の影響＞

端的には、全日本でブレーキを起こした時の対応です。全日本でブレーキを起こした学校は箱根ではブレーキを起こさないとすると（続けてはブレーキは起こさないだろうと考える）、救済する必要があります。そこで、前の表に示すように全日本の指数別の区間数を数えて表にし、低い方に間があいて数字が入った場合にブレーキと考えることにしました（表の紫に塗った部分）。

＊予選会は、１２人いて代わりがあるので考えませんでした。

また救済方法は、その区間の本来の指数はその学校の２番目に低い指数帯に入っていたと考えることにしました。

例：２０１２年の山梨学院は、指数の最下位が２０台の１人で、その上は４０台の４人です。つまり間があいているので、最下位の２０台の１人は２０台でなく４０台と考え指数を２０上げます。そして総合の指数でも、それに見合ったように指数をあげます。具体的には、この時の該当区間は５区で２０Ｋｍ換算時間の標準偏差は１．４１分でした。したがって、修正時間はその倍の２．８２分とし、２０Ｋｍ換算の総合成績の標準偏差は６．４３分なので、総合成績の指数を、２．８２×１０／６．４３＝４．３９上げます。

説明をまとめます。

ブレーキ区間の認識
＊例では２０１２年の山梨学院大学の５区
ブレーキ区間での修正時間の算出
＊例では２．８２分
補正指数の算出
＊修正時間×１０／総合成績の標準偏

ブレーキ区間の影響を取り込むのは悪くないと思っていますが、修正量の決め方は降参です。決めないと進まないので、ここでは仮に上記数字にしておきます。ただ問題はもう一つあって、該当ケースが少ないということです。

全日本の結果からの本選の順位の予測

予選会の成績分析の結果を踏まえ、「全日本２０Ｋｍ換算指数　vs　箱根本選平均値指数」を基本に検討します（詳細は、結論の次項に示します）。

＜結論＞

以下、予選会の結果の偏差値と箱根本選の実績／モデルとの対応→順位予測という考えで、これまでの検討結果を表にまとめました。この表が結論なんですがどうでしょうか（「信頼限界」のグラフで限界が位の３校を除きます）。

◇総合対応表

＊外れ値の３校と予選会出場１６校を除いたのべ２７校の実績から算出（２校は双方に該当）。

＊前述のように、予選会出場校の箱根の成績の予測には予選会の成績を採用するので本表は関係しない。

結論をまとめます。

全日本大学駅伝ｖｓ箱根本選の成績
全日本指数	予想される本選の成績等
６０以上	・優勝争いに参加。
５５～６０	・シード権は確保できる。・ベスト３に入る学校もある。
４５～５５	・シードを確保する確率は低くない。・ベスト３への食い込みは難しい。
４０～４５	・シードはほぼ確保だが、逃す学校もあり、ベスト３に食い込む学校もある。
４０以下	・実績がほとんどない（かなり厳しくなる？）。

以上です。