機械学習から考える人間学習 ローカル最適編
人生うまくいきません。突然どうしたのと思うかもしれませんが、人生なかなかうまくいかないですよね。なんでうまくいかないんでしょうか?
人は沢山の才能を持っているというのが持論なんですが、なかなかその才能を発揮できないのが現状ですよね。どうしてかといえば、適切な場所、時、課題に出会えてないからなんだと思います。
なので、使命を発見するような探索行動をするのがよいのですが、日々の身銭を稼いだり、仕事や生活すると言った短期的な報酬をなかなか切り詰めることが困難です。これを探索と報酬(Exploration-Exploitation)のジレンマと言われています。この概念、人工知能の分野においても色々な場面で出てくる概念です。
私、山本の場合にこの概念を適応すれば、このままプログラムの知識をドンドン深めていくのか、それとも他の分野を開拓していく事がいいのかというのに対応します。いまnoteを書いてるというのは、探索的な行為をしている事に対応しています。
機械学習の世界で最も恐れられている現象の一つにローカル最適というのがあります。これは短期的、あるいは局所的な利得に囚われて全体最適にたどり着かない、着けない現象です。
じゃあ、どこまでも探索すればいいかというと、いつまでたっても報酬が獲得できません。人間もコンピュータも探索すべき高次元空間(人間の場合だと例えば人生。ものすごい選択肢がありますよね)のなかではあまりにリソースが少ないからです。だからジレンマなのです。
ここから先はあんまり科学的ではない話なのですが、コンピュータの探索行動って(例えばN腕バンデット問題とか)結構私の直感よりも探索的なんですね。それはそうかもしれません。探索行動をとっても現実と違って命を落としたりすることはないからです。単純に期待の最大化を狙えばいいからです。
それで現代社会ってものすごく安全ですよね。人類史上もっとも安全です。だから我々は探索と報酬のジレンマを調整するパラメタである”好奇心”をもう少し探索側によせても、つまり探索行動をどんどんしてもいいじゃないでしょうか。他の街にいってもライオンに襲われたりしないんですから。
この記事が気に入ったらサポートをしてみませんか?