受験勉強を強化学習で理解する

赤池エア

2023年9月11日 22:54

こんにちは！旧帝大で強化学習や機械学習を学んでいる赤池エアです！

無知の皆さんのために説明しておくと（失礼）、強化学習とか機械学習ってのはAIの一分野です。以下の図みたいな包含関係になってます。

さて、今回は受験勉強における戦略を強化学習の観点からたててみようという記事になります。

現在受験勉強をしている高校生や中学生などにおすすめの記事になります。

各論的な勉強法（戦術）に関するブログや本、動画などの情報は多く出回っていますが、本記事で扱うような総論的な勉強法（戦略）に関する情報はあまり見ることができないので、有益な情報になっていると思います。

よろしくどうぞ。

勉強法マニアになっていませんか？

ようし、勉強するぞと一念発起。でも、何から手をつければいいんだろう。というか、どうやって勉強すればいいんだろう？

そう思って勉強法を調べるのはごく自然なことです。いつから勉強を始めるにせよ、受験までに使える時間は限られています。

したがって、勉強は効率的に進めるべきです。

しかし、効率的に勉強を進めたいという欲求は、多くの人にとって足を引っ張る要因にもなります。

たとえば、勉強法を調べるぞと意気込み、読書猿、ATSU、河野玄斗、ブレイクスルー佐々木、など勉強系の各種インフルエンサーの発信する情報を収集するとします。

これ自体はすごく良い取り組みだと思います。受験勉強で扱う内容はすでに多くの人によって通過された道なので、鉄板の攻略方法というものがありますから、それを調べるのは今後の勉強を効率的に行うことにつながるのでグッドです。

しかし、ただ勉強法の収集をしているだけでは、本来の目的である成績アップにはつながりません。勉強法の収集をしている時間は、各教科の勉強そのものをしている時間ではないのですから当たり前ですね。

ここでポイントなのは、勉強法の勉強をしているとなんとなく各教科の勉強をした気になってしまう、ということです。これこそが、勉強法を収集することの落とし穴です。

僕自身もこの落とし穴にハマり、肝心の勉強をあまりしない勉強法マニアになってしまい、各教科の勉強そのものをおろそかにしてしまっていた時期があるので、勉強法マニアになることの残念さは身に沁みて理解しています。

【余談】
（参考書を買っただけで勉強した気になっている人も同種の落とし穴にはまっています。）

今回は、全学習者を待ち受ける落とし穴である勉強法マニアを避けるための話をしていこうと思います。

なぜ勉強法マニアになってしまうのか？

では、そもそも人はなぜ勉強法マニアになってしまうのでしょうか？

それは各教科の勉強をしている最中に、「もっと効率的な勉強法があるんじゃないか？」という疑問が生まれてしまうからだと思います。

こうした疑問は、目の前の勉強に集中することを乱すノイズになります。ノイズであるこの疑問を解決すれば目の前の勉強に安心して集中することができますよね。

しかし、今のところあらゆる人に有効で、あらゆる勉強対象に適用可能な、最強の勉強法というものは存在しません。

なので、私たち学習者には、今やっている勉強法が真に最適な勉強法であるかどうかは分かりません。

したがって、こうした疑問は原理的には解決不可能な問題と言えます。このねじれが勉強法マニアになってしまう理由だと考えます。

つまり、いまやっている勉強法が最適なものであるという保証はどこからも得られないので、勉強法探しをやめるタイミングが見つからず、勉強法マニアになってしまうということですね。

「探索と活用のトレードオフ」問題と同じ

さて、こうした勉強法マニアの問題は、実は強化学習における「探索と活用のトレードオフ」という概念によく似ています。

まず、探索と活用のトレードオフの説明をしましょう。

たとえば、10個のスロットマシンがあるとします。それぞれのスロットマシンは当たりの出やすさが違います。

1000回だけスロットマシンのアームを引くことができると言われたとき、どういう行動をとれば累積の報酬を大きくすることができるでしょうか？

決めうちで1つのマシンを選んで、それを1000回引き続ける場合を考えてみましょう。

この場合、選んだマシンが1番当たりの出やすいものであれば、得られる累積の報酬は紛れもなく最大値になります。

しかし、これはよっぽど運がよくないとダメな戦略ですよね。基本的には損をする可能性の方が高いわけです。運に頼らずに、うまく選ぶ方法はないのでしょうか？

たとえば、500回をスロットマシンのあたりの出やすさを確かめるための調査の時間に使い、残りの500回を調査の結果1番良かったスロットマシンを引き続けるという戦略が考えられます。

これは、さっきの決めうちの時と違って運に左右されずにどんなときもそこそこ稼げそうな戦略ですよね。

ただ、この戦略には悩ましい問題があります。それは、最初の当たりやすさを調べる探索の回数を長くすればするほど、最適なマシンを選べる精度は高まるのですが、実際にそのマシンを引き続けることができる回数が減ってしまうので、累積報酬が減ってしまうという問題です。

逆に、探索の回数を減らすと、最適なマシンを選べる精度が低くなるので、最適でないマシンを引き続ける可能性が高くなり、最終的に損をしている可能性が高くなるという問題もあります。

どちらかを優先すると、もう一方がうまいこといかなくなるこの問題を、「探索と活用のトレードオフ」と呼びます。

探索：最適なマシンを探すために全てのマシンを試している段階
活用：探索で得られた知識を活用して最適と思われるマシンを引き続けている段階

この探索と活用のトレードオフは、受験勉強における勉強法マニアの問題とよく似ていることが分かるでしょうか？

スロットマシンの例を受験勉強に対応させて考えると、以下のような表になります。

つまり、受験勉強は、入試本番までの限られた時間の中で、学力を最大化させるための方法を試行錯誤し、その結果最適だと思われる方法を残りの時間でやり続けるゲームと言えます。

強化学習ではどういう解決をするのか？

では、強化学習では探索と活用のトレードオフをどのようにして解決しているのでしょうか？

UCB法や、トンプソンサンプリング、MED法など色々あるのですが、ここでは簡単な手法である「ε - グリーディ法」を紹介します。

ε - グリーディ法というのは、ざっくり説明すると、10%とかの小さい確率でランダムに探索を行い、それ以外の90%ではそのとき最適だと予測される行動をし続ける戦略のことを言います。

基本的にはそのとき最適だと思われる行動をとるけれど、たまに他の手法もランダムに試して、予測値を修正していくという戦略です。

探索する確率 ε の値は、扱うタスクによって適切な値が変わってきます。

【少し難しい話】（読み飛ばしてもいいよ）
一般的に言われるのは、ε が大きければ大きいほどすぐに成果は出るのですが、長期的にみたときの累積報酬の上限は低くなります。一方で、ε が小さくなるとすぐには成果が出ませんが、長期的には上限が高くなります。

強化学習の手法を受験勉強に応用してみる

では、この ε - グリーディ法を受験勉強に応用してみましょう。

ストレートに応用すると、ε の確率ですべての勉強法から等確率にランダムに試すということになると思うのですが、これはあまり現実的な方法とは言えません。

なので、少しアレンジして、入試までの残り時間のうち、ε の割合を勉強法探索の時間に充てることに決めて、それ以外の時間を愚直に各教科の勉強をする時間にしてしまいましょう。

たとえば、入試まであと1年あるのだとしたら、最初の1ヶ月をいろいろな勉強法を調べて試す時間にしてしまいましょう。

このとき、何をもって自分に適した勉強であるかを判断するのかですが、主に以下のポイントで判断するのが良いと思います。

1. 集中の深さ（例：1時間でどれだけの単語が覚えられるか）
2. 集中の持続時間（例：1日に5時間できるのか、10時間できるのか）
3. ハードルの高さ（例：取り組み始めるのにどれくらい時間がかかるか）
4. ストレス量（例：習慣的に取り組めるものか）

なんとなく自分にあってる、あってないを判断するのは難しいので、数値で定量的に測れる評価観点があると良いかなと思います。

もっと入試までに時間があれば、上記の評価項目に「どれくらいの期間でどれくらい点数が伸びたか」を加えても良いと思います。

なぜ、この項目に時間があればという条件をつけているかというと、勉強が成績に反映されるのには大抵ラグがあり、使える残り時間があまりない場合には活用しにくい指標だからです。

なので、残り時間の長さにかかわらずベーシックに使える評価項目としては上記に列挙した4項目となります。

また、4項目の評価の際にパラメータとして使えるものには、かかった時間とか問題数、ページ数、単語数、1日にやれる勉強時間などがあります。

上記のようなパラメータをもとにして4項目を評価するので、適した勉強法を見つけるために、必然的に勉強の記録をとる必要が生まれます。

勉強の記録をずっと続けるのはめんどくさいですが、勉強法を模索する時期だけは必ず記録し続けるのがおすすめです。

勉強記録アプリみたいなのもありますが、自由度が低いものが多いので、自分でスプレッドシートで記録していくのがいいかなと思います。

スプレッドシートで記録取っていけば、必要な記録項目を自由に作れますし、データを1週間ごとにグラフで可視化したりすることもできます。

そのへんの学習記録スプレッドシートテンプレートやTipsなどはまた別の記事であらためて共有しようと思います。

勉強法マニアにならないためには？

ここまで書いてきたことを簡単にまとめると以下のようになります。

・勉強法マニアは成績が伸びにくい
・マニアになってしまうのは自分の勉強法に自信が持てないから
・勉強法を探す期間を最初に決めてしまう
・その際、数値化できるもので勉強のデータを取り続ける
・そのデータをもとに試した勉強法が自分に適しているかを判断する
・選んだ勉強法で残りの時間をがむしゃらに頑張る

数値化して記録したデータをもとにできるだけ具体的に勉強法の評価をするので、選んだ勉強法に対しても自信を持ちやすくなるのが今回提案した内容の良い点です。

また、探索の期間を区切っているので、その後勉強法で迷走して成績が伸び悩むことも避けられるというのも良い点です。

勉強法マニアに陥ってしまっていた！という方や、どうやって受験勉強をすればいいか困っていた方は、ぜひ今回紹介した受験勉強の戦略を実施することを検討してみてはいかがでしょうか。

おまけ：各論的な勉強法として参考になるもの

今回は、勉強法の統御方法的な、総論的な勉強法（戦略）の話をしてきましたが、最後におまけで各論的勉強法として参考にできるものを列挙しようと思います。

・各教科の先生複数人に聞く：もしあなたが学校などに通っているなら、各教科の先生にどういう勉強をすればいいか聞くのがおすすめだ。会ったこともない、自分の現状の学力についても詳しくないネット上のインフルエンサーの話を間に受けるよりは、実際に責任のある立場である学校の先生に相談するのが良いだろう。その際、複数人に聞いて比較考量するのが偏りを打ち消せるので良い。
・『独学大全』：各論的勉強Tipsが55個載っている本。国語・数学・英語の勉強法もトピックとして取り上げられている。勉強が続かずに挫けてしまう人のためのTipsも多いのでおすすめ。個別のTipsをどう統御するかの話は載っていない。
・同じ志望校の人の体験談：前の2つに比べれば優先順位はガクッと落ちる。先輩、合格体験記、ブログなどいろいろな媒体から情報を得られるが、前提となる能力も環境が自分と異なることを考えるとあまり間に受けてはいけない。ただ複数方向からの情報を得ることで、志望校に達するための勉強の常識のようなものは掴める。

最後に老婆心で付け加えておくのは、「科学的に証明された〜」系の勉強法はあまり間に受けない方が良いと思います。

再現性なかったり、実験で使われた限定的なタスクでのみ通用する話を過剰に一般化している場合があるので、それほどあてにならないことが多いです。

受験勉強を始めると死ぬほど聞くことになるエビングハウスの忘却曲線もむちゃくちゃ過剰に一般化されてしまっているものの代表例ですね。

【エビングハウスの忘却曲線に関する記事】

ここまで読んでくれてありがとうございます！
よければスキとフォローをお願いします！
記事を書く励みになるのでよろしくお願いします！！

おまけ2：強化学習をガチで学ぶのにおすすめの本

※赤池エアは、Amazonのアソシエイトとして、適格販売により収入を得ています。

ここで紹介してるやつは僕が実際に勉強するために使った本なので、マジでオススメ！！謎に怪しいゴミ本をつかまされたくない人はこれ買って！

↑↑↑↑
いわゆるSutton本というもので、強化学習のバイブル。とりあえずこれ買って勉強すれば間違いないです。

↑↑↑↑
Pythonで実装しながら強化学習を学べる良書。DQNなどの深層強化学習も学べるのでかなりグッド。

↑↑↑↑
こっちもPythonで実装しながら強化学習を学べる本。こっちはSuttonで学ぶ順番とかなり似ているので、Suttonで理論の概要を、こっちで実装を学ぶのがおすすめ。

↑↑↑↑
アルゴリズムの収束性など、理論の深いところまでカバーしている。Sutton読んで、誤魔化されてる部分をこっちで補うスタイルがおすすめ。

↑↑↑↑
最後に、洋書になっちゃいますがこれもおすすめ。かなりやさしい英語で書かれている上に、頭から読んでいけば絶対に躓かないような構成になっているのでかなりわかりやすい。購入証明を送るとpdfもくれるので、絶対出版社に連絡した方がいい。

【おすすめ記事】

この記事が気に入ったらサポートをしてみませんか？