これだけは絶対におさえる!データ競馬において重要な「ファクター」の考え方

この記事は無料記事です。

お久しぶりです。

かなり期間はあいてしまいましたが、前回は投資競馬の基本的な考え方という記事を有料(490円)で公開しました。実験的に有料記事を書いてみたのですが、買っていただいた方もあり、競馬についての情報のニーズはあるのだなと実感しました。

今回は、競馬のファクターの考え方についてお話していきます。

そもそも競馬のファクターとは何だ?

と思われる方がいらっしゃるかもしれませんので、説明しますと、競馬を予想する上で使うデータのことを言います。例えば、前走の着順だったり、枠順だったり、競馬をやる上で自然に考えていることだと思います。

先に結論から申し上げておきますと、"ファクターとは回収率等(目的変数)を説明するもの"です。

この後、詳しく説明していきます。

では、競馬においてどんなファクターを使うのが良いのか?という問題がありますよね。ファクターといっても、巷では様々な馬券理論が唱えられていて、何を信じたらいいのかわからなくなりませんでしょうか?

そこで、統計データを基に競馬を分析することによって、統計データをもって根拠とすることが重要になってきます。例えば、「前走は休み明けで走らなかった馬が叩いたことによって2走目では走るようになる。」このような話を聞いたことありませんでしょうか?では、叩き2戦目の馬の統計データを見てみましょう。

明け2戦のデータが、叩き2走目というデータです。このデータを見ていただければわかるように、叩き2走目はあまり成績がよくなく、2->3->4->5走目と次第に成績が上がっていくことがわかりますね。

また、叩き2走目は本来なら馬は走らないマイナスなファクターにも関わらず、多くの人が叩いての一変を期待して買いを入れることで回収率も著しく低くなっています。

これは参考例ではありますが、このようなファクターを考慮していくことで、馬券の成績を上げることができるとは思いませんか?また、馬券理論に根拠を持たせることができます。

データを見る時に、何を基準にすればいいのか?

では、過去データを見る上でどのデータを基準に考えればいいのか、という疑問にお答えします。

1つの答えとしては「回収率」を見ることです。回収率とは、勝率×オッズによって、決まりますので、回収率を参照することによって、その馬の勝率に対してどの程度の値段(オッズ)をつけられているのかを総合的に判断することができます。

究極の理想論を言えば、的中率を正確に把握することです。仮に、Aという馬が30%の確率で1着になると判明すれば、オッズが3.4倍以上ついた時だけ買い続ければ長期的に必ず勝つことができます。しかし、それはやろうと思っても中々できないことなのですね。

馬の的中率を把握しきることは至難の業です。ほぼ不可能と言ってもいいでしょう。ですので、的中率ではなく回収率を見ることによって、世間が馬を過小評価したり過大評価してしまうバイアス(偏り)を統計データから見抜く手法をとることが現実的なのです。

回収率を目的変数として考える

"目的変数"とは、この場合は「回収率」のことです。回収率がどうなるかを、様々な”説明変数”=ファクターで求めます。

また、説明変数も関わりがあったり、同じような説明変数があったりします。例えば、条件の有利不利を馬番で説明しているのに、追加で枠順でも説明しようとするとファクターの重複になりますよね。馬番で説明できていることを枠順でも説明する必要は無いということです。

最も大事なファクターとは何か?

説明変数にも、目的変数に与える影響が大きいファクターと小さいファクターがあります。では、最も大きい影響を与えるファクターは、何なのか?

それは、「競走馬の能力」です。能力が最も影響度が高く、その他のファクターよりも優先されるファクターになります。ですので、もし貴方が競馬予想指数なんかを作成する時には、競走馬の能力を土台に据えるのが最善でしょう。

しっかりとした土台があってこそ、サブファクターが安定して乗ります。

人によって、競馬理論は様々ですから、中には血統こそが最も大事なファクターだと考える人や、枠順で結果が決まってくると考えている人もいます。しかし、それらは能力評価に比べれば些細なものであると言えます(反論はあるでしょうが)。

私の見解では、土台となるファクターは、やはり能力を据えるべきで、その他のサブファクターを据えるべきではありません。

例えば血統理論を土台に据えている人は、競走馬の横の比較が苦手で、舞台適性のあった1頭、2頭をピックアップすることは得意だけど、力関係がわからないので、舞台適性の高い馬を選べていたとしても、能力であっさり捻じ伏せられることが頻発します。

これはイメージ図ですが、小さなファクターの上に、大きなファクターを乗せてしまうと、安定性が保てません。

他には、距離短縮馬だけを狙うような、非常に限定的なサブファクターの上に、ファクターを積み重ねたり絞り込んだりしてる人も見かけますが、これも同様に非常に不安定な予想理論だと言えるでしょう。

ファクターを大別する

競馬のデータを見てきて、ファクターを大別できることがわかりました。

1、能力評価…競争馬の能力

2、条件評価…今走出走条件の有利不利

3、調子評価…競走馬が能力を発揮できるかどうか

4、心理評価…大衆心理

大きく別ければ、この4つ。

重要度で言えば、能力評価>調子評価>条件評価>心理評価 です。

それぞれのファクターの中でも、能力評価が最も重要であり、そこで間違えてしまうと、上にどれだけ多くのサブファクターを乗せても上手くいきません。ですので、能力評価こそ最も大事に扱うべきファクターです。

ファクターは多いほうが良い?

競馬において扱うファクターは多いほうがいいのか、少ないほうがいいのかという疑問にお答えします。

まずは、ファクターとはそもそもどういうものだったかを思い出してください。

ファクターとは、回収率(目的変数)を説明するためのもの

でしたよね。つまり、目的変数を上手く説明することができる数が最適であると言えます。ですので、多ければ多いほど良いわけではなく、説明できるのであればむしろ少ないほうが良いです。それは何故か?

説明変数が多すぎると、予測モデルが過去データを過学習するからです。

どういうことかと言うと、あまりに多くのファクター(説明変数)を用いて予測モデルを作成すると、過去データのノイズにまでモデルが適合してしまい、結果、本当に得たい傾向から外れたものになってしまいます。

詳しく知りたい方は、こちらのページへどうぞ→「そのモデルの精度、高過ぎませんか?」過学習・汎化性能・交差検証のはなし

ですので、競馬データを見る場合には、汎化性能をきちんと見なければいけませんし、それを論理的に説明することができなければいけません。説明できないけど過去データの数字の集合値はこうだからと適合させていくと、過去データへの過剰適合への道に一直線です。

特定レースの過去10年分の傾向というゴミ

よく、競馬チャンネルやYoutube、有名競馬ブロガーの人達が出してきているデータ。あれはもうはっきりと申し上げますと、ゴミです。「汎化性能?そんなものは知ったことじゃねえ、理論はデータの後付けでOK!」彼らは、そういうデータの扱われ方をしています。

そんなものは、傾向でも何でもありません。いくらでもデータは歪みますし、ノイズに適合させた競馬理論なんて、使えるわけがありません。そんな当たり前の事に気付かずに人々の前で臆面もなくデータ競馬(自称)を披露されているのです。

ゴミはゴミ箱へ。いい加減に、頭の悪いデータ競馬はやめたらどうですか?

結局、どんなファクターを使ったらいいの?

ごめんなさい、無料記事でそこまで教えてあげられるほどお人好しじゃありません。

私も、競馬理論とデータを研究して、使えないデータと使えるデータを区別して、使えるデータを厳選に厳選を重ねてきました。未熟ゆえに、今でもまだわからないことはありますが、それでもデータを人一倍研究してきました。

今回の記事は、ファクターについて、データ競馬についての考え方を書かせていただきました。具体的なファクターについて、また書こうと思います。が、その時は有料記事に設定すると思います。

データ競馬を徹底的に研究してきた内容に興味がある方

回収率を少しでも上げたい方

競馬理論マニアでワンランク上のデータ分析を知りたい方

競馬予想ファクターが喉から手がでるほど欲しい方

そんな方のために、書きたいと思っています。もし、ご要望があればコメント、もしくはTwitterまでご連絡ください。

読んでいただき、ありがとうございました。

この記事が良いと思ったら是非いいね押してくださいね!

Twitter


競馬を攻略する方法を書くモチベを保つの非常にムツカシイ