測定の方法が旧態依然としたモノだと逆効果になってしまう事もままある。

『難しい要請ではあるが、事前に難易度のわかっている設問を大量に確保し、試験のたびに入れ替えていけば可能である。実際、この技術は有名なTOEFLやTOEICといった試験で使われている。これらの試験を受験した人の中には、受験するたびに内容が違うのに、なぜ試験結果を比べることができるのかと思っていた人もいるだろう。そこにはIRTというテスト理論の裏付けがあるのだ。ちなみに、巷ではコンピュータを使った学力テスト(Computer Based Testing: CBT)が話題だが、そこにもIRTの発想は利用されている。CBTの利点の1つに、受験者の学力に応じて出題を変えるというものがある。紙のテストでは、テスト開始直後に問題を差し替えることはできないが、コンピュータであれば最初の数題で受験者の学力をおよそ判断し、学力の高い受験者には難しい設問を、そうでない受験者には易しい設問を割り当てていくことで、受験者の学力をより正確に判定できるのである。この難しい設問、もしくは易しい設問という考え方こそ、IRTの発想である。実は日本の学校教育ではIRTがほとんど利用されていない*4。恐らくその典型的な例が大学入試で、新しく導入された大学入学共通テストでも、結局IRTは利用されなかった。その1つの理由に、テスト直後にすべての設問を公にしてしまう、日本のテスト文化があると言われている*5。多くの人が経験しただろうが、日本の学校では、学力テストの直後に「間違えたところを復習する」という名目で、テストの設問がすべて開示されることが珍しくない。ただ、このような文化はIRTの観点からは都合が悪い。設問が公になると、テスト対策が行われるので、設問の難易度が変わってしまう。だから公になった設問は、以後のテストで利用できない。一部の設問を公開するだけならともかく、テストのたびにすべての設問を公開するとなると、IRTを活用することが難しいのである。テスト直後にすべての設問を公開するのは、日本の学校教育の「常識」だが、この常識がIRTの活用を阻んでいる。大学入試の複数回実施が検討されたこともあるが、異なるテストの難易度を同等に調整する作業は、その前提としてIRTの導入が必要になる。つまり、テストの複数回実施を実現すると、個々の設問は原則非公開になるということだ。複数回実施を議論するなら、その前提となるテスト理論は知っておくべきだし、個々の設問が原則非公開になるというデメリットがあるということも理解しておくべきだろう。大学入試でIRTを活用すべきかどうかという議論はこれぐらいにしよう*6。筆者の見るところ、IRTの最大の欠点は「わかりにくい」という点に尽きる。結局のところ、現在の100点満点のテストは多くの人にとって、圧倒的にわかりやすいのだ。大学入試の成否は、関連する多くの利害関係者が「納得する」かどうかにかかっている。日本で、その納得を調達するために必要なのが社会科学におけるテスト理論でなく、誰にとってもわかりやすい100点満点のテストという「圧倒的なリアリティ」*7であるというなら、それはそれで社会の選択である。ただ、国が実施する学力調査の前提が100点満点のテストというのはいただけない。既に議論してきたように、IRTを利用しないテストでは、自国の学力の変化を把握することがきわめて難しい。国際的な学力調査では、IRTが一般的に利用されている。たとえば有名なPISAやTIMSSも、IRTで実装されている。だから、これらの調査の点数は、過去のテストの点数と直接比較して学力が上がった、もしくは下がったという議論ができる。IRTの利用は、世界の学力調査では既に常識なのだ。ちなみに、TIMSSが開始されたのが1995年、PISAは2000年なので、日本の学力調査は国際的な水準から既に30年近く遅れた計算になる。現在、他国ではIRTを活用した学力調査のデータが蓄積され、学力の変化や、その要因を分析する研究が進んでいるのだが、こうした研究はIRTを前提とした学力データが蓄積されてからでないと行えない。つまり、今から日本が世界に追いつこうとしても、データが蓄積されるまで、どう頑張っても10年はかかるということである。当然だが、追いつこうとさえしなければ、差はさらに開くことになる。ここまで見てきたように、現代社会において学力調査を設計する場合、IRTはほぼ必須の技術となっている。ところが日本の場合、さまざまな学力調査の設計・報道の場面で、IRTを知らない人が関わっているケースが少なくない。政治家、行政担当者、マスメディア、あるいは教育学者であってもそうである*8。IRTを知らなければ、今の100点満点のテストでいいと思って学力調査を設計したり報道したりしてしまうだろう。もちろんIRTを前提にしたCBTの議論や、テストの複数回実施といった話題にもついて行くことができない。断っておくが、IRTが万能というわけではない。たとえば学校の教室で行う漢字の書き取りテストに、わざわざIRTを利用する必要はない。ただ、何事にも"最低限の基礎知識"というものはある。特に意思決定に関わる人たちが、判断の基準になる最低限の知識を持っていない場合、どうしても政策は迷走しがちである。』

これは学力調査だけに限らない。実社会で「使える能力」を測定する場合にも同じことが言えるだろう。練習と測定による能力の向上には定期的な期間での検証がモチベーションの維持には必要だが測定の方法が旧態依然としたモノだと逆効果になってしまう事もままある。

「日本の学力調査は世界の“30年遅れ”」、専門家が言い切る“深刻なワケ”…!
https://gendai.ismedia.jp/articles/-/82625

この記事が気に入ったらサポートをしてみませんか?