見出し画像

英論文DeepL:心理科学における単一項目測定法

https://psycnet.apa.org/record/2022-29445-001

PDF:

https://www.researchgate.net/profile/Samuel-Greiff-2/publication/358167938_Single_Item_Measures_in_Psychological_Science_A_Call_to_Action/links/61f8d707007fb504472a9fc9/Single-Item-Measures-in-Psychological-Science-A-Call-to-Action.pdf

イントロ

単項目測定は、悪い評判がある。長い間、単項目測定法を採用することは、学術雑誌の編集者から拒絶の手紙を受け取る最も確実な方法の1つと考えられていました(Wanous et al.、1997)。ある研究チームが指摘したように、「主要な構成要素の多項目測定が含まれていなければ、...学術論文が受理されることは事実上不可能である」(Bergkvist & Rossiter, 2007, p. 175)のである。しかし、1990年代後半から2000年代にかけて発表された一連の論文は、単項目測定は認知的・感情的成果を測定するための不健全なアプローチであるという従来の見解に挑戦し始めた(Bergkvist & Rossiter, 2007; Fuchs & Diamantopoulos, 2009; Jordan & Turner, 2008; Loo, 2002; Nagy, 2002; Wanous et al, 1997)。これらの論文は、単項目測定にまつわるスティグマを緩和するために大いに貢献したが、今日でも、多くの研究者が、単項目測定が重要な心理現象の妥当で信頼できる評価を提供できることに納得していない。

もちろん、単項目測定が不適切な場合も多くあります。例えば、人間の性格や感情の幅を把握することを目的とした研究などです。しかし、構成要素が明確でない場合や範囲が狭い場合には、単一項目の使用が適切である場合もあり、必ずしも不健全と見なされるべきではありません(Wanous et al.、1997)。ここ数十年、心理学研究において、大規模な全国レベルのパネルデータの利用が著しく増加している。このようなパネル調査では、データ量が多く、構成要素も多様であることから、数項目あるいは1項目だけで心理学的構成要素を測定する必要がある場合が多い。例えば、HILDA(Household, Income and Labour Dynamics in Australia Survey; Watson & Wooden, 2021)では、"How satisfied are you with your current weight?" という1項目で体重満足度を評価し、1(=非常に満足)、2(=満足)、3(=満足でも不満でもない)、4(=不満)、5(=非常に不満)の回答区分が設定されています。身体満足度には多項目があるが、額面上は、この1項目が体重に対する一般的な満足度を適切に捉えていないと考える理由はないだろう。心理学研究において大規模なパネル調査の利用が増加している今、単一項目による測定が有効で信頼できるものであることは、これまで以上に重要なことである。

単一項目測定法に関する議論

単一項目測定法に反対する意見

多くの先行研究が、単一項目測定法の利点と欠点を論じている。単一項目測定の使用に反対する議論は、しばしば複雑で、理論的な観点からは必ずしも納得のいくものではありませんでした。それは、単項目測定は信頼性が低い(あるいは不確か)という主張と、単項目測定はよりきめ細かい評価(例えば、1項目しか採点できないので単なる範囲制限による)を行う能力がないという主張である。

単項目測定の第一の批判は、測定誤差の推定が、信頼性の推定として尺度の構成要素の相互相関に依存する所定のモデル(すなわち、内部一貫性のアプローチ)に従わないということです。つまり、測定の異なる構成要素(すなわち、他の項目)がなければ、単一項目測定は、"内的整合性 "の傘の下にある統計的手続きに従うことができないのです。したがって、しばしば面倒で時間がかかるが、それでも実現可能で確立された代替的な方法を検討する必要がある。例えば、理論的に安定した構成概念に対しては、テスト・リテスト信頼性(すなわちスコアの安定性)を計算することができますが、これは(少なくとも)2つの測定点を持つ専用のデザインを必要とするため、より困難なものとなっています。心理学研究の多くが横断的であるため(それ自体が問題である)、単項目尺度を含む横断的研究において、尺度の信頼性を推定する際に潜在的な問題が発生する。単項目尺度は、(同じ構成概念を捉える)対応する項目と比較できないため、測定誤差に対してより脆弱であるという議論である(Fuchs & Diamantopoulos, 2009; Oshagbemi, 1999)。これは,スピアマン・ブラウン予言(項目間で平均化すると,ランダムな測定誤差が相殺され,多項目尺度の総尺度の測定誤差が減少する統計効果)に基づいている(一方,真の構成要素の分散は,徐々に増加する).

強硬論は、単項目の尺度の信頼性は単純に低く、使用に適さないというものである。一方、単項目の信頼性はほとんどの場合、不明であるというのが軟派な議論である。これは、あまり有効な議論ではありませんが、多くの場合、研究者が単項目測定は使用に適さないという結論を出す一因となります。実際、横断的研究の場合、単項目測定の信頼性推定値は計算できず、これはいくつかの統計的応用(例えば、意思決定のための測定標準誤差の推定、相関の不統一)にとって問題となる可能性があります。また、スコアの安定性の推定も必ずしも可能ではない。例えば、認知的・感情的な結果(例えば、感情、気分)は時間とともに変化すると予測されるため、テストレテスト信頼度を計算することはできない。

単項目測定に対する第二の反論は、複雑な心理的構成は単項目では適切にとらえられないというものである。この議論は内容の妥当性に関連しており、また2つの要素を持っている。1つ目は、多次元的な内容や多数の行動表現を持つより高度な構成要素(例えば、性格特性)の場合、多項目測定と比較すると、1項目で対象構成要素の十分な領域をカバーできず、妥当とはみなされないというものである。これは正しい指摘であり、1つの項目で人間の性格や感情の幅を十分に捉えられると主張する人はほとんどいないでしょう。したがって、2つ目の論点は、通常、単項目測定における回答カテゴリーの欠如に焦点が当てられます。つまり、複数の項目があれば、より多くの情報を把握できるため、個人間の区別をより細かくすることができるのです(Bergkvist & Rossiter, 2007)。この例では、尺度をより良くするのは複数項目ではなく、むしろ回答カテゴリーの数が多いことです。つまり、1つの項目でより多くの回答カテゴリーを用意すれば(例えば、5段階評価から7段階評価にする)、同じ改善を達成することができる(理論的に言えば)。しかし、より多くの回答カテゴリーを追加することで、より優れた尺度が得られるという証拠はほとんどない(例えば、Dawes, 2008を参照)。

単項目測定法を支持する議論

単項目測定法を支持する議論は,要するに,実用性と効率性をめぐる議論と,単項目が実際に関心のある基礎的構成概念を有効に反映し得るという強い証拠とが組み合わさっているものである.単項目測定の使用を検討する場合、4つの特定の議論が重要であるとして際立っている。

単項目測定の最も明白な利点は、管理時間の点でより簡素化されることである。したがって、時間的制約のある条件下での使用に適している。もちろん、時間的制約のある条件は、研究においても実践においても数多く存在します。これは、何十万人もの参加者に測定が行われることが多い大規模パネル調査においては、特に重要である。また、認知的(例:注意力)または感情的(例:衝動制御)な資源がなく、長いテスト受験セッションに耐えられない可能性がある脆弱な集団(例:知的障害のある成人や臨床患者)には、単項目測定がより適している。研究者や実務者としての好み、あるいは受験者が客観的に測定の実施に費やすことのできる時間は別として、私たちには、余計な質問でテストセッションに参加する個人の時間を無駄にしない倫理的な義務もあるのです。例えば、アンケートに答えて返送する時間を取ろうとする人々の意欲を高めたり(Wanous et al.1997)、研究者が理論的に関連する構成要素をより多く研究に取り入れることができるようにしたりすることができます。

単項目測定法を支持する第二の論拠は、受験者にとってより満足度の高い測定法であるということである。もちろん、アンケートに答えるのは多少面倒なので、短い尺度の方が満足度が高いと思われるのは間違いない。しかし、多項目で構成されるテストでは、同じような質問に答えるのは退屈で、腹立たしいとさえ感じることがあります。ある受験者は、16項目の属性尺度を完成させた後、私(筆者)に次のようにコメントしたことがあります。「なぜ同じ質問を何度もするのか、かなり腹立たしかった」。この例は、尺度開発における共通の問題、すなわち、研究者が、範囲が狭く、1項目の尺度で十分であろう構成要素について、多項目の尺度を開発していることを示している。幅の狭い尺度を使用する場合、回答者は繰り返しに見える質問をされることに抵抗を感じることがあります (Wanous et al., 1997)。このフラストレーションは、混乱を引き起こしたり(例:「本質的に同じ質問に対して異なる回答をすることになっているのか」)、項目への回答にかかる時間や労力を減らしたり(例:「すべての質問は基本的に同じなので、すべて4点でいいだろう」)、参加者の回答にまで影響を与える可能性があります。ここで重要なのは、同じ質問を何度もすることは、一度だけすることよりも優れていない、ということです。

単項目測定法を支持する第三の論拠は、データ処理コストを削減できることである(Bergkvist & Rossiter, 2007)。測定項目が短ければ、データ収集のためのデジタル・フォームを準備するコストや、データを照合するための高度なプログラムも少なくてすむ。これは、データがデジタル/コンピュータ化された経路ではなく、紙と鉛筆の形式で収集され、単純なデータ入力(ダブルチェックを含む)によりコストが大幅に上昇し、帰属エラーの大きな機会をもたらすようなプロジェクトの場合、飛躍的なメリットとなる。

単一項目測定法を支持する第四の論拠は、関心のある構成要素の測定において曖昧さが少なくなることである。つまり,複数項目は,より広い内容をカバーする機会(包括的な構成概念をカバーするという意味で)を提供するが,残念ながら,曖昧または不明瞭な項目(すなわち,低い顔面妥当性のリスクが大きい)や他の(関連)構成概念を利用する項目(すなわち,構成概念の汚染のリスクが大きい)を含める機会も多くなる.言い換えると、1つか2つの「良い」項目からなる尺度は、複数の項目からなる尺度よりも優れていることがあります(Bergkvist & Rossiter, 2007)。

ここで言いたいのは、単項目の尺度が自動的に多項目の尺度より劣るわけではない、ということです。単項目尺度に関連する利点を考えると、多くの場合、実行可能な代替手段であり、多くの状況で優れている可能性さえあります。単項目測定は、構成要素が一次元で、明確に定義され、範囲が狭い場合に許容される(Fuchs & Diamantopoulos, 2009)。構成要素が広すぎて単一項目が必要な場合と、十分に狭くて単一項目しか必要ない場合は、額面通りでは明らかになることが多い。しかし,単一項目測定の実現可能性が不明な中間領域も存在する.たとえば、不安の単一項目測定(たとえば、「今、どの程度不安に感じるか」-1=全く不安でない~7=非常に不安であるで採点)は、状態不安の有効な測定であるかもしれない。しかし、"不安 "という言葉はさまざまに解釈することができる。例えば、ある人が「不安だ」と報告した場合、それは次の競技に向けて興奮し、準備態勢に入っていることを意味するかもしれません。このような場合、様々な言葉(例:心配、不安、緊張、恐怖、不安、心配)を使って複数の項目を設定することで、より広い範囲の感情を把握することができる可能性があります。重要なのは、検証テストが行われない限り、単項目の尺度の信頼性は未知のままであるということです。

単項目尺度の検証試験の種類

他の心理学的尺度と同様に、単項目尺度の妥当性を立証するためには、様々な角度から説得力のある証拠が必要である。この種の測定には、いくつかの特別なアプローチがあり、検証プロセスは、多項目測定の検証とは多少異なるかもしれません。これらのアプローチについて簡単に概説する。

顔の妥当性

顔の妥当性は、おそらく最も使われていないバリデーションソースである。この重要な段階をスキップして開発された新しい質問票の数は、非常に驚くべきことです。顔の妥当性とは、参加者に見えるテストの明確さまたは関連性を指します(Holden, 2010)。ある集団では有効でも、別の集団ではあまり適切でない項目がある場合も多々あります。例えば、自己報告式の利他主義尺度(Rushton et al., 1981)には、"I have helped a stranger's car push out of the snow/ 見知らぬ人の車が雪から押し出されるのを手伝ったことがある"という項目をはじめ、利他的行動の例が多く含まれています。この項目は、質問紙が開発されたカナダのサンプルでは利他主義の有効な尺度であると考えられるが、雪のほとんどないオーストラリアやアフリカの集団では妥当性が低いと思われる。同様に、Big Five Inventory-2 Short-Form(Soto & John, 2017)は、「blue」や「soft heart」といった、北米では一般的だが、この地域以外では混乱を招くかもしれない形容詞を使用している。多項目測定と同様に、単項目測定でも、顔面妥当性を示すことが決定的に重要である。特に、研究者は、(1)項目の関連性(項目は参加者にとって意味があり関連性がある)、(2)回答の容易さ(項目は答えるのが難しくない)、(3)項目の曖昧さ(項目は異なる解釈ができない)、(4)項目は苦痛または敏感とみなされない、(5)項目は判断的とみなされない、という5項目のフェースバリディティの確立を目指してほしい(Connell et al,2018)。

基準関連妥当性

収束的妥当性

単項目尺度を検証する最も一般的な方法は、その多項目尺度との収束妥当性である。例えば、集団効力感の単項目尺度は、3つの研究において、20項目尺度の平均スコアとr=.69、r=.73、r=.74で相関することがわかった(Bruton et al.、2016年)。また、生活満足度の単項目尺度は、4項目尺度の平均得点とr=.64(disattenuated r=.80)で相関が認められ(Cheung & Lucas, 2014)、学術不安の単項目尺度は、17項目尺度の平均得点とr=.55で相関が認められた(Gogol et al., 2014)。収束的妥当性テストの主な問題は、許容可能な収束を反映しうる値に関する合意や指針がほとんどないことである。特定の値について強い主張がなされるまでは、テスト-リテスト信頼性に採用されている値と同様の値を検討することが有用な指針となるかもしれない。r = .90 は優れた収束妥当性を、r = .80 は優れた収束妥当性を、r = .70 は許容できる収束妥当性を、r = .60 は疑わしい収束妥当性を、r < .60 は貧しい収束妥当性を示す (Greiff & Allen, 2018)

予測妥当性

単項目の尺度に対応する多項目がない場合、理論的な結果との相関を通じて基準妥当性を確立することが有用である。例えば、数学不安の単項目尺度がその後の数学の成績(または注意制御理論で予測される「処理効率」;Eysenckら、2007)を予測した場合、これは単項目尺度の妥当性の証拠とみなされるであろう。多くの研究が、同時またはその後に測定された理論的な成果との相関を通じて、単項目測定の妥当性を支持している(例えば、Eddy et al.) 重要な課題の1つは、単項目尺度が事前に規定されたレベル(すなわち、予測効果量)まで対象アウトカムを予測する必要があることである。もし、観察された効果サイズが予測されたものよりも小さければ、それは新しい尺度の妥当性を否定する証拠とみなされる。しかし、研究では目標効果量を提示しない傾向があり、実際の効果量に関係なく、統計的に有意な相関(サンプルサイズに依存)を予測的妥当性の裏付けとして受け入れることが多い。予測妥当性をできるだけ正確に検証するために、研究者は目標効果量を事前に登録するか、より良い方法として登録報告書ガイドライン(Chambers, 2013; Greiff & Allen, 2018を参照)を用いて検証作業を実施することが必要である。

併存的妥当性

予測妥当性は、収束妥当性と組み合わせて検討することも可能である。新しい単項目尺度が、その多項目尺度と同様の効果量で理論的な結果を予測できる場合、これは新しい尺度の妥当性を示すさらなる証拠とみなされる(Bergkvist & Rossiter, 2007)。例えば、ある研究では、チームアイデンティティの多項目尺度は、チームアイデンティティの単項目尺度よりも、ゲーム観戦行動(12.1%以上の分散を説明)およびライセンスウェア着用(10.7%以上の分散を説明)の予測因子として優れていた(Kwon & Trail、2005)。そのため、著者らは、多項目測定が優れていると結論づけた。189の広告研究を組み合わせた11のメタアナリシスによる別の研究では、単項目尺度が多項目尺度とほぼ同じ効果量で成果(態度)を予測することが明らかにされた(Ang & Eisend, 2018)。この種の検証テストは、対象構成要素の名目的ネットワークに拡張することができる。例えば、単項目測定の関連構成概念に対する経験的関係を、文献で通常得られている関係と比較することで(理想的にはメタ分析で)。

テスト・リテスト信頼性

時間の経過とともに比較的安定すると予測される構成概念(例えば、態度、信念)については、単項目測定の信頼性を確立することも重要である。テスト・リテスト信頼性では、通常1週間から3ヶ月の間隔で繰り返し測定します。さらに、その時間枠は、項目に対する正確な回答が短期記憶に保持されない程度に十分に長く、かつ、気質(態度、信念、特性など)が時間とともに自然に変化し、テストリテストが無効となるような期間であってはならない(Polit, 2014)。時間1と時間2で測定した項目得点の相関は、尺度の信頼性について洞察を与えることができる。例えば、302人の組織労働者を対象に18の単項目尺度について1ヶ月と3ヶ月のテスト・リテスト相関を調べたところ、相関は1ヶ月で.46~.78、3ヶ月で.35~.77であり(Fisher et al., 2016)、一部の単項目尺度は他のものより信頼できるという証拠が得られています。テスト-リテスト信頼性の確立は,1つの矛盾した項目によって生じる潜在的なダメージを軽減するための追加項目が利用できないので,単項目測定では特に重要である。

結論

単項目尺度を取り巻く(どちらかといえばネガティブな)評判を考えると、単項目尺度について発表されたほとんどの研究が、それらがしばしば多項目尺度と同様に有効で信頼できることを示していることは興味深い(Ahmadら、2014; Ang & Eisend、2018)。おそらく、出版バイアスがこのことに部分的に関与しており、単一項目測定の検証の試みが失敗した場合は、出版される可能性が低くなっているのでしょう。しかし、研究者は、そのような尺度が関心のある構成要素の適切な評価を提供すると疑うに足る理論的理由がある場合、単に単項目尺度を開発しているのではないかと考えています。なお、EJPAでは、検証の試みが失敗した場合(一般的には結果が出なかった研究)でも、喜んで掲載しますし、特に著者の方には登録制のレポートを提出していただくことをお勧めしています。編集者として自信を持って言えるのは、単項目尺度の検証原稿が殺到することはないということです(単項目尺度の検証の好例としては、Fisher et al.、2016;Gogol et al.、2014参照)。実際、有効で信頼性の高い単項目尺度の開発に成功した例と失敗した例の両方を提供することによって、この論説で提起された問題を基にした議論を歓迎したい。したがって,この論説は,単項目尺度を検証する研究,特に,大規模パネル調査ですでに取り上げられている尺度の検証のための行動を呼びかけるものである.結論として、研究で使用するための多項目尺度の開発と検証は、単項目尺度が実際に使用されている場合には、ほとんど意味がない。そのような場合、より重要な検証は、検証された多項目尺度にどれだけ近いかを含む、単項目尺度の検証である。この論説が、単項目尺度の検証に焦点を当てたEJPAの特集号を発行するに足る十分な関心を喚起することを願っている。

(同)実践サイコロジー研究所は、心理学サービスの国内での普及を目指しています! 『適切な支援をそれを求めるすべての人へ』