見出し画像

AIが描く売上予測の未来:重回帰分析から機械学習へ

このコラムでは、新規出店時の売上予測の手法について、特に、データ分析の世界でよく使われる重回帰分析と機械学習という二つの主要な手法についてご紹介します。

売上予測は、新規出店計画を策定する上で極めて重要な要素となります。
その精度が高ければ高いほど、出店効率が上がり、結果として企業の利益にも直結します。
しかし、その予測をどのように行うか、どの手法を選ぶべきかは一概には決まりません。
各手法にはその特性と強み、そして限界があります。

重回帰分析とは、複数の独立変数(特徴量)から目的変数(ここでは売上)を予測するための統計的手法です。
特徴量が少数(経験上3〜10未満)であれば精度高く予測ができることもあり、その結果の解釈も比較的容易です。
ただし、売上に影響する要因は複雑で、必ずしもシンプルな構造に従うとは限らないため、その適用範囲には限りがあります。

一方、機械学習は、大量の特徴量から学習することが可能で、高精度に売上を予測するための手法です。
特にKaggleなどのデータ分析コンペでも多用されているアンサンブル手法などは、多数の特徴量を持つデータでも高精度な予測が可能です。
しかし、予測結果の解釈が難しいという課題があります。

今回のコラムでは、これらの手法をどのように理解し、選択すれば良いのかについて深掘りします。
今回お話しする情報が、高精度売上予測の実現というビジネス成功への一助となれば幸いです。

1,重回帰分析・決定木分析による売上予測

<重回帰分析・決定木分析とは?>

重回帰分析は、統計学における基本的な予測手法の一つです。
複数の独立変数(特徴量)から目的変数(売上)を予測するための方法で、それぞれの特徴量が目的変数にどの程度影響を与えるかを数値化します。
この数値化された影響力を基に、新しい特徴量の組み合わせが与えられたときの目的変数の値を予測します。(図.1参照)

図.1 重回帰分析の概要図

例えば、新規出店の売上予測に重回帰分析を適用するとき、特徴量としては地域の人口、競合店舗数、物件の広さ、などが考えられます。
これらの特徴量から売上を予測するモデルを作り、新規出店予定地の情報を入力することで、将来の売上を予測することが可能になります。

また、類似した分析手法に、決定木分析もあります。(図.2参照)

図.2 決定木分析の概要図

決定木分析とは、データから決定木と呼ばれる樹形図を作成し、予測や検証をする分析です。
目的変数の予測や、目的変数に影響している因子の検証などに活用することが可能であり、決定木分析の最大の特徴はYes,Noの分岐のみで目的変数を予測するため、計算式などを使わないシンプルな分岐のみで予測することが可能な点です。

<重回帰分析・決定木分析の利点>

重回帰分析と決定木分析の最大の利点はその解釈性にあります。
各特徴量が売上にどれだけ影響を与えるかを数値化するため、どの要素が売上予測に重要か?それがどのくらいか?を明確に理解することができます。
これは出店戦略の立案や出店の意思決定において有用な情報となります。

<重回帰分析・決定木分析の課題>

しかし、これらの手法には課題もあります。
特徴量が増えてくると『モデルの精度が下がる』傾向にある、ということです。
これは、各特徴量が独立に売上に影響を与えるという重回帰分析や決定木の基本的な仮定が、現実の複雑な状況を必ずしも反映できないからです。
また、非線形の関係性や相互作用を直接的に捉えることは難しいという制限もあります。

このように、重回帰分析や決定木分析は一部の特徴量からシンプルな構造を見つけ出すのには優れていますが、それ以上に『複雑な構造を持つ問題に対してはその効果を発揮しにくい』という特性を持っています。

2,機械学習による売上予測

<機械学習とは?>

機械学習は、コンピュータに大量のデータから自動的に学習させるためのアルゴリズムを提供する技術の一つです。
その中でも教師あり学習は、具体的な予測問題を解くためによく使われます。これは、目的変数(売上)とその他の特徴量との関連性を学習し、新たな特徴量から目的変数を予測するという手法です。
主なアルゴリズムとして、ランダムフォレスト(図.3参照)などがあります。

図.3 ランダムフォレストの概要図

新規出店の売上予測に機械学習を適用する場合、大量の特徴量(国勢調査のエリアの人口、競合店舗数、物件の広さ、地域の所得水準、近隣の施設の種類など)と既存店の売上データを組み合わせて学習させます。

<機械学習の利点>

学習が終われば、新規出店予定地の特徴量を入力して、売上を予測します。
機械学習の最大の利点は、多様で複雑な特徴量からパターンを見つけ出し、それを元に予測を行う能力にあります。

これにより、重回帰分析や決定木分析では捉えきれなかった非線形の関係性や特徴量間の相互作用を考慮に入れることができます。
また、自動的に特徴量の選択や変換を行う手法も存在し、人間の手作業を大幅に減らすことが可能です。

<機械学習の課題>

一方で、機械学習の課題として『ブラックボックス化』が挙げられます。
(図.4参照)

図.4 予測精度と可読性の関係 引用元:arXiv:1910.10045v2 [cs.AI] 26 Dec 2019

高度な機械学習アルゴリズムは複雑なモデルを構築しますが、その結果、『どの特徴量がどの程度影響を与えているかを解釈することは困難になる』ことがあります。
また、適切な学習データが必要であり、データの品質や量が結果に大きく影響します。

最近では、LIME・SHAPに代表される説明可能なAIの技術によって、上記のブラックボックス化の課題も解決されつつあります。

3,重回帰分析vs機械学習

<重回帰分析と機械学習の精度差は?>

売上予測の手法として、ここまで重回帰分析と機械学習を取り上げてきましたが、これらの手法の売上予測精度はどのように異なるのでしょうか。

一般的に『機械学習は重回帰分析よりも高い精度を示す傾向』にあります。
これは、機械学習が多数の特徴量から複雑なパターンを学習し、非線形の関係性や特徴量間の相互作用を捉えることが可能であるためです。

我々の事例では、同じデータを使って、重回帰分析と機械学習の双方で売上予測モデルを作成したとき、『絶対中央値誤差率7〜15%程度の精度差』があることを確認しています。(図.5参照)

図.5 重回帰分析と機械学習の精度差

<機械学習が高精度を実現する理由>

これは、機械学習系のアルゴリズムの方が『複雑性の表現が得意』で、現状の小売・外食の市況の説明は数個の特徴量で表現する重回帰分析では十分でないことを証明しています。

4,AIソリューションで機械学習の弱点を克服

<AIで機械学習の可読性を向上>

可読性の低さという機械学習の弱点を、AIソリューションによって克服できるようになりました。

AIソリューションによって、高精度な予測と同時にどの要因がプラスマイナスにどれくらい影響を与えているのか、ということが解釈できます。
これにより、『新規出店の意思決定を裏付ける要因』がより明確になります。

図.6 AIソリューションによる要因影響度アウトプットイメージ

さらに、店舗間の比較やKPIの確認、データ管理など、必要な情報をすばやく、簡単に把握できるため、意思決定のスピードも格段にアップします。

<AIソリューションの魅力>

そして、AIソリューションの一番の魅力は、その手軽さです。
モデル構築から検証まで、専門のデータ分析官がサポートします。
貴社の負担はデータの準備のみとなり、これまでの手間と複雑さが一気に解消され、『誰でも簡単に高度な予測が可能』になります。

さらに、定期的なモデルメンテナンスを行うことで、直近の市況や経済状況を反映した予測も可能になります。
一般的に、売上予測モデルは経年とともに劣化するといわれていますが、常に直近の市況を反映させることで、『精度の維持、改善』ができるようになります。

AIソリューションによる売上予測が、ビジネスの成功を左右する新たな標準になりつつあります。
未来を正確に、迅速に見通す力を手に入れ、新規出店の意思決定及び出店の加速を実現し、継続的な利益向上に繋げていきましょう。


◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇
本記事に関するご質問・お問い合わせは、こちらよりお気軽にお問い合わせください。
なお、現在売上予測に関する無料相談会も実施しております。
お悩み、ご相談もお気軽にお問い合わせください。
◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇


この記事が気に入ったらサポートをしてみませんか?