見出し画像

証券アナリストジャーナル読後メモ:ビッグデータと人口知能を用いたファイナンス研究の展開 by 和田潔

https://www.saa.or.jp/dc/sale/apps/journal/JournalShowDetail.do?goDownload=&itmNo=36585

証券アナリストジャーナルを2010年頃からずっと購読している。著名な学者そして経営者の貴重な講演や論文を閲覧できることができ、大変勉強になっている。年会費18,000円は維持コストとして高い、という声も周囲でよく聞くが、月にならせば月額1,500円である。月一回の外食をやめればいい程度のコストで、この水準の論文や講演が読めるのは圧倒的にコストパフォーマンスが良い、と常々思っている。

以下は2019年の記事で、ビッグデータ分析に関するものである。なぜAIブームが2010年代後半からきたのか、そしてどのような用途で使われているか、などがまとめられた記事である。


1.様々な分野でAIが使われるようになった背景

  • その背景として以下三つの技術が挙げられる。

  • ①ビッグデータ:例えばFacebookであれば100万人の顔が簡単に入手可能になった。

  • ②ディープラーニング:医療分野では画像や音声に比べて小規模なデータしかない。スモールデータでAIを扱うことは技術的な試練である。

  • ③大規模なデータに対して非常に高速で複雑な解析を可能にする大規模並列計算技術(コンピューティングパワー)の登場

  • 以上の技術により新しいデータを分析に取り込めるようになった。

  • 2018年2月22日付日経新聞「オルタナデータを使う資産運用会社が増えている」との記事が出ている。本記事によれば、以下2社のようなオルタナデータを提供するスタートアップが登場している。

  • Tellus Lab:衛星画像を利用して農作物の生育状況を解析し、生育具合を毎日、指標化する技術をもち、先物市場の利用者向けにこの指標をビジネス化している

  • Orbital Insight:衛星画像を自動解析し、石油の備蓄量を推計。石油タンクの画像解析から、内部のどの程度の石油が残っているのかを把握することができ、これにより世界中の国々の日毎の石油備蓄量を指標化、顧客に提供。商業施設の駐車場の通行量を把握し、顧客の嗜好や行動パターンを分析するサービスも手がける。

  • その他、日銀総裁の感情値の解析も可能になっている。総裁の表情からスコアを算出し、投資判断に活用している。

2.これまでのAI実装の課題と現在の潮流

  • 実際に企業が機械学習を入れようとすると出てくるハードルは何か:難しいプログラミング言語を覚え、膨大なデータを用意しなければならず、高性能で特殊な計算機を使って長時間計算する必要があることである。

  • だが、最近の潮流は「人工知能技術のコモディティ化」である。10年後、深層学習の技術はExcelなみに普及しているであろう。

  • 機械学習を自動的にしてくれるツール:ソニーのNeural Network, Console, Cloud AutoML by Google, AzureML by Microsoft, DataRobotなどが登場している。

  • Neural Network Consoleはニューラルネットワークの構造を全自動で探索する点が優れており、ユーザーにとって最適なネットワークを自動的に構築してくれる。

  • 一方で課題もある。テキストマイニングに関しては数値データのようには自動化できていない点である。だが、半自動化できるツールは登場してきている。

  • テキストマイニングで難しいのは、言語情報から(例えばある単語の出現回数から)何を持って、入力する数値データにするのか、ということ。

  • 例えば経済分析において「お腹すいた」は不要だが、「新商品」「売上」と言った単語は必要。どの単語が必要または/かつ重要で、重要とした単語をどのように数値化するのか、との問いに答えるのは難しい。価格データは数値化されているので楽。

  • テキストの数値化については、これまではbag of wordsという単純な手法を用いていた。例えば、"Japan’s economic growth has been sluggish due to the effects of …"の文章を例にとると、文の構造は無視する。Japan, Economic, sluggishといった単語だけを数えるのである

  • 例えば、ツイッターやBloombergの大規模なテキストにおいてJapanなどの単語が何回出現したかを数える。

  • Bag of Wordsの問題:文の構造を無視するので「業績予想を上方修正する。役員の交代はない」「業績予想の上方修正はない。役員の交代をする」の違いがわからない

  • また類語がわからず、「総理大臣・総理・首相」が同じだとわからず、別の人物の発言と判断してしまう。

  • GoogleのBERTはこの問題をクリアする。センテンス、パラグラフといった一連の意味ある単語列をベクトルとして表現する。

3.過学習の克服

  • 一般に機械学習が使われる領域ではデータのサイズが非常に大きい。画像データであれば数十億、数千億以上のデータがあるのが当たり前。

  • それに比較すると、金融のテキストは数千程度に過ぎない。データの量は非常に少ない。非常に少ないデータで学習すると、過学習(オーバーラーニング)が起きてしまう。過去のデータだけに最適化し、将来の予測に使えない学習になる危険性がある。

  • 過去のデータを元に投資判断するAIは、過去にない性質の相場環境の大きな変換にうまく対応できない

  • 人間であれば、相場の潮目を判断することができる(例:トランプの当選ケース等)。

  • 金融データの問題点は、画像やデジタルデータに比べてノイズが大きい。また、安定しておらず非定常であり、因果関係を特定しにくい点である。

4.データ拡張とは

  • 元々画像の分野で用いられていた。例えば、猫の顔を学習させるとき、サンプル数が少ない場合、猫の写真を回転させたり、顔を膨らませたり、色を変えたりして、データの数を水増しし、それを機械学習させる。

  • 同じことは金融分野でできるだろうか。それはできない。

  • チャートをひっくり返したり、数値データを入れ替えたりした結果を機械学習できない。参考になりそうなのは、GoogleのAlphaGoである。過去の人間の棋譜でデータを深層学習させた。だが、将棋譜面データは極めて規模の小さいデータであり、プロの対戦記録を集めても数千にしかならない。

  • そこでGoogleはデータ拡張を用いた。コンピュータ同士で自己対戦をさせ、譜面データを増やした。コンピュータ同士で飽きることなく猛スピードでデータを増やし、より良い指してとなるよう学習させた。

  • これを同じことができないか、取り組みが開始されている。

  • 19年6月末、スペインで開催された国際会議にてシミュレーションを用いてを金融データを拡張した、とS&PとRefinitivの共同研究が発表した。

  • まず、過去の価格を用いて、ニューラルネットワークで将来の投資行動を深層学習させる。

  • 次に過去データを学習したプログラムを取引プログラムに参加さっせる。シミュレーションの中で取引をし、自ら予測して自動取引をする。

  • 学習結果としては、シミュレーションを実施した方が、実施しなかった場合よりも過学習の問題が少なかった。また、単純なチャート分析よりも、テクニカル指標を用いた深層学習モデルの方が好成績だった。

5.マルチタスク学習

  • 塩野剛志が発表したもの。単にデータを覚えるのではなく、理論的枠組みを持って、マクロ経済指標と合わせて学習させた方がRobustな結果がでた。

6.経済的因果の分析への応用

  • 機械学習を用いた分析結果はあくまでデータの相関結果だけを示している。背景にある経済メカニズム、因果関係については示していない。

  • データから因果をどのように抽出するのかは課題であり、現在この研究はトレンドになっている。因果関係の説明なしには、分析結果に納得することは出来ない。

この記事が気に入ったらサポートをしてみませんか?