競馬における統計データはサンプルサイズが足りないという話


よくG1のレース予想などで、「1枠1番の勝率が15%と高い」などと予想家がのたまっていることがあるが、よくよく見ると過去20年のデータだけのことがある。


つまりサンプルサイズ(データの数)が20しかないのである。


その場合、精度として±15%の誤差が考えられるので、勝率は0%~30%と評価される。


つまり「そのデータからは何も分からない」以外、何も言えないのである。


にもかかわらず、サンプルサイズの小さいデータから、偉そうな発言をする輩と、それをうっかり信じてしまう善良な市民が後を絶たないのである。


というわけで、皆さんも競馬の世界によくある統計データの嘘には騙されないでほしい。



ちなみに、必要なサンプルサイズnはn=(1.96/d)^2 * p(1-p)という式で求められる

ここでdは許容誤差、pは母比率である。


仮に勝率を6.3%±1%の精度で求めようとすると、p=0.063、d=0.01となり、必要なサンプルサイズは2268になる。
仮に複勝率を20%±1%の精度で求めようとすると、p=0.2、d=0.01となり、必要なサンプルサイズは6147になる。


サンプルサイズは1,000は必要、10,000あれば安心、という世界なのである。
※まあ1万もデータがあるケースってほとんどないと思うけど…


↓参考になったという方、クリックお願いします
  ブログランキング・にほんブログ村へ
 


スパイラルカーブはレース結果に影響を与えるのか? | Home | 中山 芝 1600m考察 ~ 中山芝1600mで内枠を買うのは馬鹿という話

コメント

コメントの投稿


管理者にだけ表示を許可する