見出し画像

機械学習には「教師あり学習」「教師なし学習」「強化学習」があります

書籍『LightGBM予測モデル実装ハンドブック』より、第1章-1『予測モデルの概要-予測モデル』のうち「イントロダクション」を公開いたします。ここでは、機械学習の分類と本書が対象とする予測モデルの範囲を確認します。


予測モデル

本節は機械学習の全体像を視野に入れて、本書が対象とする予測モデルの範囲を確認します。続いて、テーブルデータを使った予測モデルの作成の流れを理解し、2章以降の予測モデル実装の基礎知識を整理します。
※noteでは『テーブルデータの予測モデル』は次回ご紹介します

イントロダクション

機械学習は人工知能の一分野として発展し、自ら学習するアルゴリズムが開発されたことで、データから予測に関する知識を取得できるようになりました。これまでは、人間が大量のデータを分析してルールを導き出し、モデルを構築していました。現在、機械学習がデータから知識やパターンを引き出す効率的な方法を提供し、人間がデータに基づいた判断を下せるよう機械学習モデルを構築します。

機械学習は学習データの形式によって、教師がつけられたデータで学習する「教師あり学習」と、教師データのない「教師なし学習」「強化学習」に二分できます。これらの「教師あり学習」「教師なし学習」「強化学習」という分類は、機械学習を説明する際によく用いられています。

  • 教師あり学習

  • 教師なし学習

  • 強化学習

教師データは「目的変数」「応答変数」と呼ばれ、予測値に対する正解値や実績値になります。その一方で、データの属性を示す変数は「特徴量」「説明変数」と呼ばれます。

教師なし学習は、特徴量から意味のある情報を取り出す機械学習モデルを構築します。データを意味のあるグループに分ける「クラスタリング」や、データの中で意味が高い軸を取り出す「次元削減」が代表的です。

強化学習はロボット制御やゲームAIに利用されています。強化学習では、教師データの代わりに「報酬」を設定します。ある環境内に存在するエージェントは、報酬を最大化するように行動を試行錯誤して学習を行います。

本書では、教師あり学習を使った機械学習モデルを対象とするため、教師なし学習と強化学習の詳細な説明や実装は行いません。これ以降、教師あり学習を説明する際に、教師データは「目的変数」、属性を示す変数は「特徴量」と記載します。

教師あり学習は特徴量xと目的変数yのペアの学習データ(x, y)を使用し、正解値yを予測するよう機械学習モデルを構築します。モデルは特徴量xの入力データを予測値y^に変換して出力します。教師あり学習は予測値y^と正解値yが近づくようモデルを学習し、その後、予測したい特徴量をモデルに入力し、予測値を出力します。このとき、モデルは将来の数値や、将来のイベントの発生確率を予測するので、本書は
教師あり学習の機械学習モデルのことを予測モデル、または省略してモデルと記載します。

本書は図1.1の枠で示した機械学習の予測モデル実装ハンドブックです。機械学習は特徴量に構造化データと呼ばれるデータベーステーブルやExcelのような表形式のデータ(テーブルデータ)を使用し、scikit-learn、xgboost、lightgbmなどテーブルデータ専用のライブラリでモデルを実装します。

書籍『LightGBM予測モデル実装ハンドブック』より

なお、機械学習という大きな枠の中に深層学習(ディープラーニング)という一分野があります。深層学習はニューラルネットワークを使った表現力の高い予測モデルの構築が可能です。深層学習はテーブルデータでもモデル構築できますが、画像や自然言語など非構造化データを使用したモデル構築に適しています。深層学習はPyTorchやTensorFlowなどのニューラルネットワーク専用のライブラリで予測モデルを実装し、機械学習とは大きく実装方法が異なるので、本書では深層学習を対象外とします。

次回は引き続き、第1章-1『予測モデルの概要-予測モデル』から「テーブルデータの予測モデル」をご紹介します。

本書の目次

第1章 予測モデルの概要
 1.1 予測モデル
  イントロダクション
  テーブルデータの予測モデル
 1.2 機械学習アルゴリズム
  機械学習アルゴリズムの全体像
  決定木のアンサンブル学習
  勾配ブースティングのライブラリ
 1.3 環境構築
  サンプルコード
  Colaboratoryの初期設定とサンプルコードの格納

第2章 回帰の予測モデル
 2.1 データ理解
  住宅価格データセット
  1変数EDA
  2変数EDA
  回帰の評価指標
 2.2 線形回帰
  単回帰のアルゴリズム
  単回帰の予測値の可視化
  重回帰のアルゴリズム
  正則化
  特徴量の標準化
  重回帰の学習→予測→評価
  パラメータによる予測値の解釈
 2.3 回帰木
  決定木
  回帰木のアルゴリズム
  回帰木のアルゴリズム(学習)
  深さ1の回帰木の可視化
  深さ1の回帰木の予測値の検証
  回帰木の深さと予測値
  深さ2の回帰木の可視化
  回帰木の正則化
  回帰木の学習→予測→評価
 2.4 LightGBM回帰
  勾配ブースティング回帰のアルゴリズム
  深さ1のLightGBM回帰の可視化
  深さ1のLightGBM回帰の予測値の検証
  LightGBM回帰の学習→予測→評価
  SHAP概要
  SHAPによる予測値の説明

第3章 分類の予測モデル
 3.1 データ理解
  国勢調査データセット
  数値変数EDA
  カテゴリ変数EDA
  前処理
  分類の評価指標
  混同行列と正解率の検証
 3.2 ロジスティック回帰
  ロジスティック回帰のアルゴリズム
  ロジスティック回帰の学習→予測→評価
  パラメータによる予測値の解釈
 3.3 LightGBM分類
  勾配ブースティング分類のアルゴリズム
  LightGBM分類の学習→予測→評価
  SHAPによる予測値の説明
 3.4 検証データ評価
  検証データのモデル評価
  ホールドアウト法
  不均衡ラベルのホールドアウト法
  アーリーストッピング
  LightGBM分類(アーリーストッピング)の実装
  クロスバリデーション
  クロスバリデーションの実装

第4章 回帰の予測モデル改善
 4.1 データ理解
  ダイヤモンド価格データセット
  1数値変数EDA
  2数値変数EDA
  カテゴリ変数EDA
  前処理
  評価指標の選択
 4.2 線形回帰
  線形回帰の予測モデル
  Lasso回帰の予測モデル
 4.3 LightGBM回帰
  LightGBM回帰の予測モデル
  SHAPによる予測値の説明
  クロスバリデーションのモデル評価
  クロスバリデーション後の予測
 4.4 特徴量エンジニアリング
  新規特徴量の追加
  新規特徴量:数値変数×数値変数
  新規特徴量:数値変数×カテゴリ変数
  新規特徴量:カテゴリ変数×カテゴリ変数
  新規特徴量を追加した予測モデル
  クロスバリデーションのモデル評価
 4.5 ハイパーパラメータ最適化
  LightGBMのハイパーパラメータ
  Optunaを用いたハイパーパラメータ最適化の実装
  最適化ハイパーパラメータを用いた予測モデル
  クロスバリデーションのモデル評価
  LightGBMモデル改善の結果

第5章 LightGBMへの発展
 5.1 回帰木の計算量
  学習アルゴリズム
  回帰木の可視化
  回帰木の予測値の検証
 5.2 回帰木の勾配ブースティング
  学習アルゴリズム
  二乗誤差の重み
  勾配ブースティングの可視化
  勾配ブースティングの予測値の検証
 5.3 XGBoost
  XGBoostの改善点
  アンサンブル学習の目的関数
  XGBoostの目的関数
  葉の分割条件
  類似度によるデータ分割点の計算
  二乗誤差の重みと類似度
  XGBoostの可視化
  XGBoostの予測値の検証
  XGBoostの枝刈り
 5.4 LightGBM
  LightGBMの改善点
  ヒストグラムによる学習の高速化
  深さから葉への探索方法の変更
  カテゴリ変数のヒストグラム化
  LightGBMの可視化
  LightGBM(leaf-wise)の可視化
 5.5 学習時間の比較
  太陽系外惑星データセットと前処理
  ライブラリの学習時間比較

この記事が気に入ったらサポートをしてみませんか?