スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。


競馬における統計データはサンプルサイズが足りないという話


よくG1のレース予想などで、「1枠1番の勝率が15%と高い」などと予想家がのたまっていることがあるが、よくよく見ると過去20年のデータだけのことがある。


つまりサンプルサイズ(データの数)が20しかないのである。


その場合、精度として±15%の誤差が考えられるので、勝率は0%~30%と評価される。


つまり「そのデータからは何も分からない」以外、何も言えないのである。


にもかかわらず、サンプルサイズの小さいデータから、偉そうな発言をする輩と、それをうっかり信じてしまう善良な市民が後を絶たないのである。


というわけで、皆さんも競馬の世界によくある統計データの嘘には騙されないでほしい。



ちなみに、必要なサンプルサイズnはn=(1.96/d)^2 * p(1-p)という式で求められる

ここでdは許容誤差、pは母比率である。


仮に勝率を6.3%±1%の精度で求めようとすると、p=0.063、d=0.01となり、必要なサンプルサイズは2268になる。
仮に複勝率を20%±1%の精度で求めようとすると、p=0.2、d=0.01となり、必要なサンプルサイズは6147になる。


サンプルサイズは1,000は必要、10,000あれば安心、という世界なのである。
※まあ1万もデータがあるケースってほとんどないと思うけど…


↓参考になったという方、クリックお願いします
  ブログランキング・にほんブログ村へ
 
スポンサーサイト


上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。