見出し画像

筑波大学オープンコースウェア(OCW)の機械学習の"note"をとった - 機械学習概論と単回帰(1)

用語メモ

機械学習とは・・・?
人間が持っている学習能力(知的処理)をコンピューターにできるようにさせる

人工知能
人間ができる知的処理を計算機にやらせましょう。人工知能という概念が機械学習を包含しているが、近年&一般人向けには人工知能≒機械学習と解釈してOK

強い人工知能
人間の脳と同じ仕組みで同じ処理をコンピューターにやらせる。

弱い人工知能
同じ仕組みじゃないくて良いから人間と同じことができるようになって欲しい。過程はどうあれアウトプットが目的に即していればよい。

引用(講義ポイント)メモ

機械学習のバックグラウンド。大元にあるのは人工知能という概念。それ以外にも機械学習は非常に統計学に依存している。それと最適化(何かの目的関数を最適化する技術)。こういった物が組み合わさって機械学習を形作っている。そのため本来ならば、統計 > 最適化 > 機械学習 という順に学習するのが良い。
人間の汎化という機能(考え方)。人間は過去の知識と結び付けてシンボリックな概念取り出すことが自然にできる。
【機械学習のパターン】
予測対象が連続値 AND 教師あり ⇨回帰、推薦
予測対象が連続値 AND 教師なし ⇨次限削減(主成分分析)
予測対象が離散値 AND 教師あり ⇨分類
予測対象が離散値 AND 教師なし ⇨クラスタリング

・連続値 ・・・ 温度とか
・離散値 ・・・ ニュースカテゴリ(政治、スポーツ、芸能)とか、
基本的には予測対象が連続の方が数学的には扱いやすいので、回帰やってから徐々に離散にうつっていく。
機械学習の大まかな情報フローは、データ > 特徴量(データのベクトル化) > 特徴量から概念への写像(機械学習アルゴリズム)。
機械学習では全てのデータはベクトルであると考える。これは特徴的な考え方。本講義ではデータからベクトルに変換されたものを特徴量と呼ぶ。画像データの場合はRGB値なのでベクトルにするのは容易そうだが、例えばテキストデータだとベクトル値に変換するのは難しい。データからベクトルに変換するところに一つ難しさがある。

機械学習(教師あり、なし共に)のアルゴリズムは特徴量から概念へ写像を機械学習で獲得する。
いっかい概念を獲得してしまえばデータを与えれば概念に機械学習が変換できるようになる。
コストの Gap が問題。簡単に測定できる内容から、簡単に測定できない、もしくはお金になる情報を数学で出してしまいましょうというのが考え方の根本にある。
線形モデル
𝑡 = 𝑤𝑥 + 𝑏

𝑏はバイアスパラメータと呼ばれる。
特徴量から目標値を予測する線形式を考える。
𝑞𝑢𝑎𝑙𝑖𝑡𝑦 = 𝑤1 ∗ 𝑓𝑖𝑥𝑒𝑑_𝑎𝑐𝑖𝑑𝑖𝑡𝑦 + 𝑏1
𝑞𝑢𝑎𝑙𝑖𝑡𝑦 = 𝑤2 ∗ 𝑣𝑜𝑙𝑎𝑡𝑖𝑙𝑒_𝑎𝑐𝑖𝑑𝑖𝑡𝑦 + 𝑏2

10次元ある特徴量ごとに線形式(一次関数)で目的変数である quality が予測される
2つのモデルがあった場合に)人間が見ると明確に良いとわかるモデルがあったとしてもそれを言葉にするのは難しい。
じゃぁそれをどうやって数学的に言葉にするかというと、予測誤差が小さいということ。
𝑥 が観測されたときに𝑡 の実測値とモデルによる予測値の Gap を計算する。Gap は𝑥 の値ごとに異なるため、与えられた𝑥 に対して誤差を全て足し合わせて総合的に良い悪いを判断する。
(散布図の)真ん中あたり通っているというのは感覚的にはあっていて、全部のデータに対する誤差が総合的に小さいから真ん中を通っている。

この記事が気に入ったらサポートをしてみませんか?