見出し画像

2.データの分類

統計学では、母集団(調査の対象となる全体の集まり)から標本(母集団から選ばれた部分集団であり、実際にデータが収集される対象)を取り出し、標本から得られたデータを元に母集団についての情報を推論します。

そして、標本から得られたデータは種目(標本や時点や項目)の数によって分類され、比較対象の性質によって細分化されます。

種目の数は「1種目」「2種目」「多種目(3つ以上)」に分けられます。比較対象の性質は一般的に「対応のあるデータ」と「対応のないデータ」という言葉が用いられており、簡潔には、対応のあるデータは同じ対象から得られたデータを指すのに対して、対応のないデータは異なる対象から得られたデータを指します。

比較対象の性質

・対応のあるデータ

同じ対象から異なる条件や時間点で得られた複数のデータを指します。例えば、同じ患者の治療前後に対するデータは対応のあるデータです。対応のあるデータは、治療前後の差を評価する際に用いられます。

また、対応のあるデータには相関関係があるこや、対象が同一であることから、対応のないデータよりも少ないサンプル数で同等の情報を得ることができます。

・対応のないデータ

異なる対象から得られたデータを指します。例えば、試験薬を摂取するグループAとプラセボ(偽薬)を摂取するグループBのデータは対応のないデータです。対応のないデータは、グループAとグループBの差を評価する際に用いられます。

また、対応のないデータは独立したデータであり無相関になることが特徴です。注意点としては、独立でないデータであっても相関係数が0のために無相関という場合があります。無相関なデータが独立したデータになるとは限ないことに注意が必要です。

(図表.データの分類)

1種目データ

1種目データは、1つの標本から得られた1種類のデータを指します。統計解析において、1種目データが計量値(数量的データ)の場合には平均値(データの中央傾向を示す指標)が主に使用されます。一方、計数値(頻度や回数などの数えられるデータ)の場合には出現率(ある特定の事象やカテゴリが発生する確率)が主に使用されます。

例えば、患者集団の平均的な血圧水準を計算することで正常値との比較をすることが可能です。また、患者集団内において正常な血圧水準と異常な血圧水準の割合を比較することも可能です。

2種目データ(対応あり)

2種目データ(対応あり)は、2時点データと2項目データに分類されます。

・2時点データ

2時点データは、同じ対象の、同じ項目に関する、異なる2つの時点で得られたデータを指します。例えば、同じ患者の治療前と治療後のデータが2時点データであり、治療の影響や変化の程度を評価することが可能です。

・2項目データ

2項目データは、同じ対象の、異なる2つの項目を、同時に取得したデータを指します。例えば、同じ被験者に対して同時に測定された身長と体重のデータが2項目データに該当し、身長と体重に関する傾向や相関を評価することが可能です。

2種目データ(対応なし)

2種目データ(対応なし)は、2標本データに該当します。2標本データは、異なる2つの独立した標本から得られた同一項目のデータを指します。例えば、異なる治療法を受けた2つの患者集団から得られたデータは2標本データに該当し、平均値の差や出現率の比較などで治療法の優劣を評価することが可能です。

多種目データ(対応あり)

多種目データ(対応あり)は2種目データ(対応あり)を拡張したものであり、多時点データと多項目データに分類されます。

・多時点データ

多時点データは、同じ対象の、同じ項目に関する、異なる複数の時点で得られたデータを指します。多時点データは患者の健康状態や治療効果の評価において頻繁に利用され、健康指標や生体パラメータの変化を評価することが可能です。

・多項目データ

多項目データは、同じ対象の、異なる複数の項目を、同時に取得したデータを指します。例えば、同じ被験者に対して同時に測定された身長、体重、血圧のデータが多項目データに該当します。これらのデータを組み合わせて分析することで、2項目データよりも総合的な視点から対象の特徴や相関を評価することが可能です。

多種目データ(対応なし)

多種目データ(対応なし)は2種目データ(対応なし)を拡張したもので、多標本データに該当します。多標本データの解析では標本の比較が中心です。例えば、異なる地域の患者群において血圧、脂質値、血糖値などの平均値を比較することで、地域ごとの特徴や傾向を明らかにすることが可能です。


この記事が気に入ったらサポートをしてみませんか?