Crossley et al. (2017, 2019) のReview

2021年2月17日 09:25

別の記事でまた今度レビューしたいと言ってから1年以上経ってしまったのだが，Crossley et al. (2017) とCrossley et al. (2019) の2つの論文をレビューしたいと思う。

前回の記事では「テキストの読みやすさの評価（の公式）と読解による理解度の関係」を扱った一連の研究として4本の論文をレビューしたのだが，今回レビューする2つの論文もその流れに与してる。ただし，前回レビューした論文よりも後年に出版されているため，用いているツールや分析方法もさらに高度化している（ツールについては論文中でadvanced NLP toolsとかstate-of-the-art NLP toolsと言及されている）。これら2つの論文は扱っているデータは違うものの，根本的な課題意識や方法論は同じである。

Crossley et al. (2017)

1本目。

Crossley, S. A., Skalicky, S., Dascalu, M., McNamara, D. S., & Kyle, K. (2017). Predicting text comprehension, processing, and familiarity in adult readers: New approaches to readability formulas. Discourse Processes, 54(5-6), 340-359. https://doi.org/10.1080/0163853X.2017.1296264

基本的には過去の研究と同様に，伝統的な読みやすさの指標（Flesch formulasなど）では単語や文の難しさを間接的にしか反映していないことを指摘し，NLPツールを用いて文章の多様な言語的特徴を分析したうえでより予測力の高いモデル（公式）を作ろうとしたものである。過去の研究と違うのは，（１）クラウドソーシング（Amazon Mechanical Turk）を用いてデータを収集していること，（２）用いたNLPツールが過去の研究とは異なっていること（この研究ではTAACO，TAALES，TAASSC，ReaderBenchの4つ）の2点である。

手順についてもう1つ重要な点として，データの収集において2つの文章 (ESL news texts) を読解させたうえでpairwise comparisonを行わせていることがある。具体的には，どちらがの文章がより理解しやすく，速く読め，親密度が高いかという3点について協力者に判断をさせる。そして，このようにして得られたpairwise comparisonデータと関連の深い文章の言語的特徴の指標を含めて，回帰モデルを構築するという流れである。

詳細な結果は論文を読んでいただきたいが，語彙の獲得年齢や語彙性判断課題の指標など単語レベルの処理は理解，処理，親密度のどれにも関わっていて，語彙重複など結束性に関する指標は理解と親密度の関わっているが，結束性が低いほど理解がしやすく，親密度が高いという結果が得られている。結束性の結果は直感とは異なるが，論文中では一応説明がされている。

この研究では言語的特徴と文章理解の認知プロセスの関わりを詳細に明らかにするというよりも，クラウドソーシングや NLPツールを使うことで新たな読みやすさの公式の開発につながるという利点が強調されている印象である。

Crossley et al. (2019)

これを受けて，2本目の論文である。

Crossley, S. A., Skalicky, S., & Dascalu, M. (2019). Moving beyond classic readability formulas: New methods and new models. Journal of Research in Reading, 42(3-4), 541-561. https://doi.org/10.1111/1467-9817.12283

基本的にはCrossley et al. (2017) と同じ課題意識・方法論でありながらも，分析データや扱うツールの数を増やすことでより大規模かつ多様な分析を行い，最終的には具体的な公式の提案ということろまで目指すという点が違っている。ただし，この研究ではテキストの理解と処理（速さ）のみのデータを扱っている。

扱う文章もCrossley et al. (2017) とは異なり，Wikipediaの冒頭部分のオーセンティック版と簡素化版を使っている。文章の数が増え，クラウドソーシングによって集められた協力者も増えたことで，結果的に2017の研究よりも約3倍近いデータセット（9000弱）になっている。また，NLPツールについても，2017の研究で使われた4つに加えて，感情分析を行うSEANCE (the Sentiment Analysis and Cognition Engine) も用いられている。

Crossley et al. (2017) と同様の手順で分析が行われ，結果として13の言語的特徴の指標を含むCrowdsourced Algorithm of Reading Comprehension (CAREC) と9つの指標を含むCrowdsourced Algorithm of Reading Speed (CARES) の2つが構築された。CARECはテキストの理解しやすさを示すもので，語彙の頻度や獲得年齢，n-gram特徴や文・段落間の語彙重複，レマ数，positive ajdectivesなどの指標が含まれる。一方，CARESはテキストの処理しやすさ（速さ）を示すもので，内容語（レマ）や機能語の数に加え，語彙の具象性や命名判断課題などの語彙洗練度の指標，名詞句などに基づく統語的複雑さの指標が含まれている。

個人的には，理解しやすさはまだしも，処理しやすさについてはpairwise comparisonのような読み手の主観的な判断ではなかなか実態を反映できないのではと思う。実際，論文でもこの点は "it is an open question as to how accurately these reflect effortful processing on the part of readers." "it was impossible to assess how long readers spent on each text" (p. 566) と述べられている。また，CARECもCARESも語数に関連した指標が入っているので，実際に運用する際にはこの点に注意が必要だと思う。

一応論文ではCAREC，CARESの公式が載っているのだが，1つ1つツールを動かして指標を得てそれを回帰式に当てはめなければならないので，その使用は現実的ではなく，論文でもあくまで暫定的にその公式が掲載されているだけである。そこで，最近になってこのCAREC，CARESを伝統的な読みやすさの指標とともに自動的に算出する以下のツールが開発・提供されている。

Choi, J. S., & Crossley, S. A. ARTE: Automatic Readability Tool for English. NLP Tools for the Social Sciences. Version 1.1 (released 9-21-2020): https://www.linguisticanalysistools.org/arte.html

この記事が気に入ったらサポートをしてみませんか？