古典的統計アプローチと機械学習アプローチ

古典的という言葉を用いていますが、機械学習でない統計的アプローチの方が優れるタイミングもあるので、今回はまとめてみました。
今回の記事はアクセンチュアのプロが教える AI時代の実践データ・アナリティクス (Japanese) Tankobon Softcover – August 22, 2020の本が元になっています。

古典的統計・機械学習の使い分け

モデルの妥当性や分析結果の解釈を加えるには古典的統計のやり方が優れます。目的変数に対して説明変数がどのように作用しているかが線形的な処理なために説明がしやすいです。
一方で機械学習は予測精度に優れます。これは逆に線形的な処理ではなく分類をしていくためです。

したがって営業部門の人にフィードバックをする場合など、オペレーションに人が介在する場合には背景を伝える必要があるため、統計的アプローチが優れます。
一方でEコマースなどの人が普段介在しないところでは、機械学習的なアプローチの方が優れます。

代表的な古典的統計

重回帰分析
目的変数を複数の説明変数を用いて予測するやり方です。販売台数やユーザー数など、結果いくつになるのかで議論したい場合に有効です。
説明変数の中に定量でない質的データが含まれていても、ダミー変数に変換することで分析をすることができます。
説明変数同士が相関して大きく予測精度を下げてしまう多重共線性には気をつけましょう。説明変数同士の相関をとって見ておくと良いと思います。

ロジスティック回帰分析

重回帰分析との違いは発生した=1、発生しない=0としたときに、起こる確率が何%あるかを分析する方法です。
それ以外は重回帰分析に似ており、目的変数を説明変数を複数用いて予測します。これもダミー変数を使うことができます。
カットオフ値(=閾値のようなもの)を用いることで、施策を打つ対象とそうでない層に分けることができます。

判別分析
①階層型・非階層型クラスター分析
階層型はward法が有名ですが、各データのサンプルを1つのクラスターとみなして、サンプル間の平均値を算出し、偏差平方和が最小になるようにクラスターを形成することでクラスター同士の関係性を階層構造で表現します。
非階層型はk-means法が有名です。非階層型の方が大量のデータを処理する場合でも処理時間が速いためこちらの方が有名です。
あらかじめいくつのクラスターに分けるかを決めておき、どのクラスターに近いかの分類をしていきます。いくつのクラスターに分けるかに結果が依存するため、ここは最適化を別で考える必要があります。

②アソシエーション分析
ある事象から意味のある組み合わせの法則を見つける分析手法になります。
Xという商品を買った人は別の顧客に比べてYという商品を○○倍買いやすいことを示すリフト値を用いて計算することができます。
提案型のマーケティングでは使われるやり方です。

代表的な機械学習

※今回は教師あり学習のみに絞っています。

決定木分析
目的変数に及ぼす要因の分析、目的変数に対する予測モデルの構築をすることができます。
購買した=1、購買しなかった=0のラベルを元に学習する手法です。
複数の説明変数で分岐を作ります。
分岐を作る中で親ノードを分解して子ノードにして、最後もう分岐ができないリーフまで分解していきます。
この時の分解はより分類ができている方が採用されます。これを純度と呼びますが、購入した人・購入しなかった人が混ざっている状態から、両者を分類後により分けることができるように分割していきます。

できた属性の条件を絞り混んでいくことで、買う確率を上げる顧客属性を決めることができます。

決定木分析のメリットは分析結果がわかりやすく、データの性質(量的・質的)によらず分析できる、欠損データに左右されにくい点です。

一方で、データの変更への弱さや過学習による予測精度の低下、線形性のあるデータを扱う上では統計に軍配が上がるなどの課題もあります。

これらを解決するのがアンサンブル学習です。

アンサンブル学習
個々に学習させた複数の予測モデルを最終的に統合させることにより、より高い予測精度を目指すメタアルゴリズム的な手法です。
以下の3つに大別されます。

バギングと呼ばれる、独立した複数の予測モデルを作成し、それらの結果を多数決や代表値を用いて1つの結果に集約する方法です。

ブースティングはバギングの集約のときに前回モデルの誤りを修正するようなモデルを追加していくアプローチをします。

スタッキングは元データセットでの予測値を次のモデル構築のインプットとして予測値を算出します。高い精度を出せるモデルですが、構造が複雑なために解釈性が低下し、実装も難易度が高くなることが多くなります。

ランダムフォレスト
代表的なアンサンブル学習の手法です。
全体のデータを分割して得られた複数のサブデータセットそれぞれに決定木を構築します。各木の結果を多数決や代表値により1つの結果に集約するやり方です。
サブデータセットの作成、複数の決定木の作成、予測結果の集約の3つの処理ステップに分かれています。

勾配ブースティング
作成する過程において前回の木で間違って識別されたデータに重みをつけて次の木を作成する点がランダムフォレストと異なります。
単純な平均や代表値ではなく重みづけをすることができるため決定木の弱点を改善して高い精度の予測モデルを作ることを可能にします。
残差データセットの作成、葉に対応する重み係数の算出、予測結果の集約の3つの処理ステップに分かれています。

まとめ
古典的な統計的アプローチと機械学習のアプローチを少しまとめてみました。機械学習的なアプローチの方が現在のビジネス領域で目に触れる機会は多いかもしれませんが、古典的な統計的アプローチの方が優れるタイミングや、比較することで機械学習的なアプローチの良い点をより浮き彫りにすることができ両方を理解することが重要と思っています。

この記事が気に入ったらサポートをしてみませんか?