4日目「Q学習を勉強してみる」

はいさい!みなさまお元気でしょうか。
沖縄もだいぶ気温が落ち着いて穏やかな日々がやってまいりました。
さてさて今日のテーマはQ学習。
Q学習って何ぞや?という方もいるかと思うので一応説明を!

Q学習とは昨今はやりの機械学習の1分野です。
機械学習は強化学習、教師あり学習、教師無し学習に分けられ、強化学習の手法の1つにQ学習と呼ばれるものがあります。

そんなQ学習ですが以前買った本で、Excelでわかる機械学習入門というものがあって、積読していたのですが、ふと気になって今回はこの本で勉強してみることにしました。

こちらの本では9マスのなかでアリが左上のスタート位置から左下のゴールに向かうまでの方法をアルゴリズム的に解説していました。

画像1

アリは実際エサを探すときに道しるべフェロモンというにおいを道につけていき、これによって迷うことなく巣までもどれるそうです。
ただし、においをもとにしているので最短経路で進めるわけではありません。従ってなるべく進む距離を短くしたいアリは最初のルートから少し外れた冒険ルートを加えながら試行錯誤することで最短ルートを見つけていくのだそうです。

各部屋の場所から次の部屋の場所の魅力度(えさまでどれだけ近いか、その場所に別のえさがないかなど)を考えつつ、えさのにおいが次きたときには減衰していることも考慮しながらこの最短経路問題においては
x←x+α{r+γmax(a,b,c,d)-x}
と表現できます。(各変数の意味などはQ関数を数式的に詳しく説明する文章ではないので省きます。)

まず、こういった問題が実際の数式においてこんな表現になるということがびっくりでした。今回はアリの問題でしたが、強化学習は実産業界ではAlpha Goや車の自動運転にも用いられています。

またこのQ学習ではすべてのマスに即時報酬(アリでいうクッキーみたいなもの)というものが置かれたという過程で話を進めていくのですが、最終ゴールにおいては最も魅力度の高いものがおかれています。(アリでいうケーキみたいなもの)
Q学習を進めるうえでこの即時報酬に目がくらんで行動を決定するということはよくなく、あくまで最終ゴールを見据えた行動を最適化するようにしなければいけません。これはなんだか実生活にもにてますね。
Q学習を勉強していたら実際の勉強や仕事にも役立ちそうな示唆がぽつぽつとでてきてこれもまた面白いなーと興奮しておりました笑

さてさて今回は長くなってしまいましたが、また明日をお楽しみにー!

この記事が気に入ったらサポートをしてみませんか?