見出し画像

株価を予想する方法(ARIMAモデル)について

 株価を「完全に」予想することは無理だ。

 しかし、株価が決定される仕組みが分からなくても、株価を予想することは出来る。例えば、私達は株価が急激に上昇すると「その内株価は頭打ちになって、下落を始めるに違いない」とか考える。これも一つの予想だが、これは私達が持っている株価についての過去の情報を元にしている。

 シンプルな状況を考えてみよう。ここにブラックボックスがあって、白玉か赤玉のどちらかが吐き出される。次にどちらの玉が吐き出されるのか賭けをしているとしよう。

 これまで100回連続で白玉が吐き出されているならば、101回目はどちらに賭けるだろうか? そう、普通は白に賭ける。ブラックボックスの中身=色が選択されるメカニズムが分からないからといって、確率が完全な運任せで50:50だとは考えない。過去の経験を元にすれば、より良い推測を立てることが出来るはずなのだ。

 では、白に賭けた場合、具体的にどの程度の勝率があるだろうか。これを精密に計算しようというのが、確率論であり、統計学の役割である。

 もちろん、私達はブラックボックスの中身を知らないから、本当の勝率は分からない。ブラックボックスの中には妖精がいて、単に気まぐれに白を出し続けているだけかもしれない。あるいは、ブラックボックスの中には100万の白玉と1個の赤玉が入っているのか? それとも、100個ずつ入っていて本当にたまたま白玉だけが選ばれたのか、私達は知らない。知らないのだから完全な予想は出来ない。

 これからやろうとしているのは、ブラックボックスの中身を見ての完全な予想ではなく、過去の経験から一番もっともらしい(と思われる)予想を立てることである。

株価をどうやって予想するか

投資家の気持ちになって考える

トヨタの株価

 株価を予想するために、投資家の気持ちになって考えてみよう。

 投資家は、株価が値上がりすれば売り、値下がりすれば買う。彼は、現在の株価には興味がない。なぜなら利益に直結するのは、今日の株価と昨日の株価は差だからだ。よって、①投資家は株価それ自体より、差分に注目している

 差分はずっとプラスにはならない。なぜなら差分がプラスになり続けると、投資家は利益を確保するために株を売るからだ。逆にずっとマイナスにもならない。投資家が将来の値上がりを期待して買うからだ。つまり②投資家は、差分の直近の値動きに注目している

 株価は外からの要因でも動く。それは世界情勢の変化だったり、重要な決算発表だったりする。これらの要素は、予測し得ないランダムな要素と考える。つまり、③市場は常にランダムな外乱に晒されている

ARIMAモデル

 以上の3要素を取り扱うことの出来る数学的モデルとしてARIMAモデルというものがある。

 まず、状況設定をしよう。私達は株価$${X}$$の過去のデータ$${X_1, X_2, \cdots ,X_{t-1}}$$を持っている。そこで、これらのデータを用いて現在の株価$${X_t}$$を予測しようとしている。

 上で考察したように、投資家は差分に注目しているから、株価予想の際も差分$${\Delta X_i = X_i - X_{i-1}}$$に注目してみる。

 ここで非常に便利な「ラグ演算子」$${L}$$という記号を導入する。「演算子」と大層な名前がついているが、要は添字を一つ下げるだけの記号である:$${LX_i=X_{i-1}}$$

 ラグ演算子は数式の表記を簡単にしてくれる便利な記号なので、これから多用してゆく。

 差分はラグ演算子で次のように書ける:$${\Delta X_i = (1-L)X_i}$$

 差分は、過去の差分から定まると考えられるが、これは線形な関係性を持つと仮定する:$${\Delta X_t = \alpha_1 \Delta X_{t-1} + \alpha_2 \Delta X_{t-2} + \cdots \alpha_p \Delta X_{t-p} + \epsilon}$$

 これもラグ演算子で書き換えれば、以下のようになる:

$$
\begin{align*}
(1-L) X_t &= (\alpha_1 L + \alpha_2 L^2 + \cdots \alpha_p L^p) (1-L)X_{t} + \epsilon
\end{align*}
$$

 ここで$${\epsilon}$$は誤差項である。

 $${p}$$は投資家がどれだけ前の差分を考慮に入れるかを表している。

 定数$${p}$$と係数$${\alpha_1, \alpha_2, \cdots, \alpha_p}$$が全て定まれば、投資家が過去の差分から現在の差分$${\Delta X_t}$$をどう算出するか計算できる。

 もちろん、$${p}$$と係数は誤差項が最も小さくなるように選ぶ。誤差項に注目して上の式を書き換えれば、

$$
(1 - \alpha_1 L - \alpha_2 L^2 - \cdots \alpha_p L^p)(1-L)X_t = \epsilon
$$

となる。ここまで来るとラグ演算子の便利さが分かってくる。

 さて、この誤差は何に由来するものだろうか。それは投資家の通常の投資行動以外の「外乱」から来る。例えば企業の決算発表の結果がエコノミストの予想よりずっと良かったりすると、株価はガツンと跳ね上がったりする。これは過去の差分など関係なく、突然やってくる。それが誤差項として現れるのだ、と解釈する。

 定数$${p}$$と係数$${\alpha_1, \alpha_2, \cdots, \alpha_p}$$だけでは、外乱の影響をモデルに反映させることが出来ない。そこで、誤差項を、真の誤差と、外乱による誤差の2つに分けて考える。

 真の誤差は、モデルが持つ限界から来る原理的なものである。一方で外乱による誤差は、今までのモデルで拾いきれていないものである。外乱をモデルに反映させることを考えよう。

 外乱には様々な要因があるため、それをまとめてホワイトノイズとして取り扱うことにしよう。要は、全くランダムな要素と考える。その上で、もう少し工夫をこらす。

 例えば、決算発表の結果といったニュースが発表された時、このインパクトは市場に瞬時に反映されることはない。ニュースに敏感な投資家はすぐに反応し、それに少し遅れて慌てて投資行動に映る投資家もいるだろう。つまり、④外乱は「尾を引く」と考えられる。

 したがって、誤差項を次のようにモデル化する:

$$
\epsilon = \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots \theta_q \epsilon_{t-q}
$$

 定数$${q}$$は外乱がどれだけ尾を引くのかを表している。また、外乱は(差分と同様)係数$${\theta_1, \theta_2, \cdots, \theta_q}$$の線形結合であると仮定している。これらのパラメータで外乱の特性をモデルに取り込もうというのである。

 この誤差項をモデルに組み込めば、次が得られる:

$$
(1 - \alpha_1 L - \cdots - \alpha_p L^p)(1-L)^dX_t = (1 + \theta_1 L  + \cdots + \theta_q L^q) \epsilon_{t}
$$

 これがいわゆるARIMAモデルである。この数理モデルは、定数$${p,q,d}$$と係数$${ \{\alpha_1, \alpha_2, \cdots, \alpha_p \}, \{ \theta_1, \theta_2, \cdots, \theta_q \}}$$によって特徴づけられる。

  • $${p}$$は投資家がどれだけ前までの株価に注目するかを表す。

  • $${q}$$は外乱のインパクトが市場でどれだけ尾を引くかを表す。

  • $${\alpha}$$は投資家の投資行動を特徴づける。

  • $${\theta}$$は外乱の市場への作用を特徴づける。

 $${d}$$はどこまでの差分を対象にするかを決めるパラメータであり、私達は今まで$${d=1}$$と考えていた。

 例えば$${p=q=2, d=1}$$は、ARIMA(2,2,1)と表記される。

ARIMAモデルの妥当性

 ARIMAモデルに妥当性があるのか、甚だ疑問である。これまで置いてきた仮定はどれも正しいという確証はない。例えば、過去のデータと現在のデータが、線形結合で結ばれているというのは怪しいものだ。現実世界はそう簡単ではないだろう。

 ただ、目隠しをしてコイントスで決めるよりは、過去の経験に基づいている分だけ妥当性がありそうな気がする……という程度だ。

 そもそも最初に宣言したように、株価の完全な予想など出来ないのだから、どこか満足できる所で止めるのが良い。他にも様々な数理モデルがあるが、どれも結局はブラックボックスの中身を知らずに、予想しているに過ぎない。いつ箱の中の妖精が気まぐれを起こすのか、それを知る術はないのだ。

 次回は、具体的な株価データについてARIMAモデルを適用して、予測の精度を検証する。



この記事が気に入ったらサポートをしてみませんか?