テスト特性曲線を使ってテストの難しさを生徒の学力別に評価する

2024年3月19日 14:40

はじめに

こんにちは、ライフイズテックのサービス開発部でデータサイエンティストをやっているホンディーです。前回に続いてこの記事も項目反応理論のお話です。

早速ですが、皆さん学生時代にテストを受てその感想や結果について友達と話すことはありませんでしたか？その時、こんな経験はないでしょうか。

自分「今日のテストどうだった？」心の声: (難しかったな〜〜)
友達「今日のテストは先週のより簡単だったね。」
自分「だよねー」心の声: (ええっ！？まじで！)

あるいは逆に自分が易しいと感じたテストを友人が難しいと言っているケースもあると思います。

そう、実はテストの難しさは人によって感じ方が違うのです。ある生徒にとってテストAよりテストBのほうが難しいが、別の生徒にとっては逆にテストAのほうが難しいということがありえます。教科が違えば生徒ごとの得意不得意がありえますがそういう話ではなく、同じ教科の同じ単元の場合でもです。

この現象について項目反応理論の「テスト特性曲線」(test characteristic curve, TCC)を使って説明を試みようというのが今回の記事です。

テスト特性曲線の説明

少しだけ前回の記事の復習をします。

項目反応理論の2パラメーターモデルでは、各問題の難しさなどの特徴は識別力$${a}$$と困難度$${b}$$という２つのパラメーターで表され、生徒の学力 $${\theta}$$によって、生徒iが問題jに正解できる確率は次の式で表されるのでした。これを項目特性曲線と言いましたね。

$$
p_j(\theta_i) = \frac{1}{1+e^{-Da_j(\theta_i-b_j)}}.
$$

さて、ここで$${n}$$問の問題からなるテストを考えてみましょう。その生徒が各問題に正解できるかどうかを独立とすると、生徒がそのテストで獲得できる点数の期待値は各問題で獲得できる点数の期待値の和、つまり問題ごとの配点✕正解率の和で表現できます。これを問題ごとの配点を$${w_j}$$として数式で書くと、学力パラメーター$${\theta_i}$$の生徒がそのテストで取れる点数の期待値は次のように書けます。

$$
TCC(\theta_i) = \sum_{j=0}^{n-1}w_j p_j(\theta_i).
$$

これがテスト特性曲線です。

テスト特性曲線の具体例

実際にテスト特性曲線を書いてみましょう。それぞれ1問20点の5問からなる２つのテスト、テストAとテストBを考えてみます。

まずそれぞれの各問題の項目特性曲線がこちらの図です。テストAは似通った難易度の問題5問で、テストBは難易度がバラバラの5問から構成されていることがわかりますね。

そして、これらに1問20点の重みをかけて足しあわあせてできるのがテスト特性曲線です。比較しやすいように1つのグラフの中にプロットしました。

曲線の形だけ見ると、テスト特性曲線も項目特性曲線と似たような形をしていますね。ただ、解釈は大きく違うので読み取るとときは注意が必要です。
項目特性曲線はその問題への正解率を示すものなので、実際の生徒の解答データは正解か不正解の二種類の値を取ります。
一方で、テスト特性曲線は点数の期待値を表すもので、実際のデータは点数です。例に上げている1問20点の5問のテストであれば、0点, 20点, 40点, 60点, 80点, 100点の６通りの値を取ります。

学力別に生徒から見た難しさを読み取ってみる

2つのテスト特性曲線が書けたところで、最初の話題に戻ります。例えばこの２つのテストを$${\theta}$$の値が-1と1の二人の生徒、生徒1, 生徒2が受けたとしましょう。偏差値で言うと、偏差値40の生徒と偏差値60の生徒くらいでイメージしてください。

2人がそれぞれのテストで何点取れそうかはテスト特性曲線から下の図のように読み取れます。

$${\theta=-1}$$の生徒1が、テストAで取れる点数の期待値は20点を下回っていて、1問正解できるかなというくらいで、0点になる可能性も十分あるということがわかります。一方でテストBは40点が狙えそうですね。つまり生徒1にとってはテストAのほうが難しいと感じられるでしょう。

もう1人の$${\theta=1}$$の生徒2についてはどうでしょうか。テストAのテスト特性曲線の$${\theta=1}$$の点を見ると90近い値になっていますね。4問正解して80点はほぼ取れそうで、100点満点も十分狙えます。
それに対してテストBでは、60点くらいになりそうですね。うまく行けば80点は取れるかもしれませんが満点を取るのは結構難しそうです。つまり、生徒2についてはテストBのほうが難しいようです。

この２つのテストは実は生徒全体に対する平均点は大きくは変わらないのです。そのため、平均点でテストの難易度を評価するとこの2つのテストはだいたい同じくらいの難易度であると判断してしまうおそれがあります。

しかし今見た通り、生徒1、生徒2の2人にとってテストAとテストBの難易度は全然違い、しかもどちらを難しいと感じるかも違うのです。

自分の経験から

少し個人的な話をすると、中学高校時代の僕は教科ごとの得手不得手がかなり激しい生徒でした。
数学と理科(物理/化学)はかなり得意で、大抵のテストで解けない問題はほぼ無い状態だったのですが、逆に社会(世界史や地理、倫理)などは壊滅的に苦手で、選択式の問題を運良く当てる以外の得点手段を持ちませんでした。

全教科の合計点は僕と同じくらいの成績の友人がいましたが、彼はバランスが良かったので個別の教科の成績は僕と彼で全然違っていて、今回の記事で取り上げているようなテストの難易度についての感覚が合わないことが頻繁にありました。テスト特性曲線を書いてみてそうなった理由が理解できました。

まとめ

項目反応理論のテスト特性曲線を用いると、平均点等の古典的な指標に比べてそのテストの特徴をより解像度高く分析できるということがわかりました。

ライフイズテックのサービスで提供する様々な形式のテストは全国の多くの学校や塾で幅広い学力帯の生徒の皆様に受けていただくものなので、その特性をしっかり理解しながらサービス提供していただけるよう頑張りたいと思います。

おしらせ

ライフイズテックサービス開発部では、気軽にご参加いただけるカジュアルなイベントを実施しています。開催予定のイベントは、 connpass のグループからご確認ください。興味のあるイベントがあったらぜひ参加登録をお願いいたします。皆さんのご参加をお待ちしています！

この記事が気に入ったらサポートをしてみませんか？