見出し画像

誰もが使いやすいデータにするために~はずせないひと工夫!

調査で得られたデータは、最初は欠損値や非論理値が含まれていて、それをきれいにすることからデータ解析の作業は始まることをこちらのnoteでお伝えしました。研究の結果しか見ていないときには見えてこない、研究者の影の労力ですよね。

ところで、このデータクリーニングをする前に、紙の質問票に記入されたり、ウェブ入力されたりした回答内容を、エクセルなどの表計算ソフトに入力して、一覧データにするという作業もあるわけです。この工程は「データ化」といわれるものです。このときに、ただ質問票の内容をそのまま転記するだけでは不十分!!「使いやすいデータ」にするためのポイントがあるんです。今回のnoteで、その方法を伝授しますね。お仕事や研究で質問紙調査の回答内容をデータにするとき、とっても参考になると思います!


●データの基本構造

データを一覧表にするときには、縦線と横線に区切られた表を作ることになりますよね。前回の記事で示したデータの図をもう一度ここで示します(図1)。

図1. データの構造:列は項目、行は個人


データの一番上の行(1行目)を見てみましょう。この行には質問票で回答された内容やそれをもとに計算された値などの変数(項目)の見出しがひとつずつ、左から右に向かって入力されています。この図だと、左から右にむかって1列目はID番号、2列目は年齢(歳)、3列目は身長(cm)…となっています。それぞれの列に、単位はなしで、数値だけが入力される仕組みです。

データの一番左の列(1列目)を見てみましょう。この列はID番号で、個人を識別する番号を入力する列です。一人ずつ別の番号がつけられています。この図だとXXXX1番の人がデータ入力行の一番上にありますね。この1行に、このID番号の人の回答内容(データ)がすべて入力されます。データを入力する場所は、この規則に従って決まります。

●初期のデータはこんな感じ

データの入力は、間違いのないように、回答された内容をそのまま転記すれば完了するので、そんなに難しいことではありません。けれどもできあがったデータを後で使うときにいかに使いやすいデータに仕上げておくか、それが研究者の腕の見せ所!たとえば、以前紹介したこちらの研究論文を書くときに収集したデータは、初めこんな感じでした(図2)。

図2. 初期のデータ

このデータ、たとえば006と書いてあるところですが、これは質問票の6ページめにある質問で、「(問1)あなたの健康状態は?」「(問2)1年前と比べて、現在の健康状態はいかがですか。」といった質問の回答をデータ化したものなんです。実際の質問と選択肢はこんな感じです(図3)。

図3. 元の質問票

●なるべく数値化する

質問票は、質問も選択肢も文章で書かれています。その結果をデータにまとめる方法としては、データ上も「最高によい」「とても良い」などの文字を入力する方法もありますね。けれども統計解析を行うときに、文字データだと、統計解析ソフトが正しく読み込んでくれないことが多いです。解析にも向かない形になります。データはなるべく数値化するのがよいです。

●このままでは見にくい

そういうわけでもう一度図2のデータを見てみましょう。データは数値に変換されています。数値入力するための規則を作って、データ化しているんですね。でも、ちょっと見にくいようです。まず、一番上の見出しの列に書かれている文字は質問の内容ですが、各列の幅が狭いせいで切れていますよね。どんな質問だったのか、データだけ見てもよくわかりません。そして、その下のデータ入力行を見てみましょう。入力されているデータは数値になりました。そうなると、「1」と入力されているときはどういう回答だったのか、これもデータを見ただけではわかりません。

●コツは質問票に戻らなくても質問と選択肢が分かること!

このあとデータを使って、様々な解析をすることになります。そのときに質問票を手元に置いて、データと質問票を交互に見ながら作業をすることもできますが、効率は悪くなります。これを改善するには、「データを見ただけで質問票を見なくても質問項目や選択肢の内容、そしてデータ入力の規則などが詳しく分かる」状態を作り上げることです。これを意識してデータを整えていくと最終的にはこのようになりました(図4)。

図4. 整えられたデータ

同じく006と書いてあるあたりを見てください。一番上の行には、統計ソフトなどに読み込ませる、変数の名前をつけています。G6_1、G6_2…などの半角英数文字で示している名前のことです。これでほかの研究者が同じ変数名を使って統計ソフトに読み込ませることができます。そうすると、解析プログラムなどを融通しあうことができます。

その下の水色をつけている複数の行に、質問票のページ番号や問番号を示しています。そしてその下には、質問票に戻らなくても質問内容が分かるように、質問文を簡潔に示しています。各列の幅を前より広くして、記載内容が切れないように工夫しています。

その下の白い行を使って、回答の選択肢や入力規則などの説明がされています。「最高に良い=『1』、とても良い=『2』…」などの説明があるおかげで、質問票に戻らなくてもその数値がどの回答だったのか、わかるようになっているわけですね。

こういった整えられたデータがあれば、ほかの人とデータを共有するときに、一緒に質問票や入力規則の表などを渡さなくても、このデータひとつを渡すとどういうデータなのかがわかりやすくなり、とても便利なんです!

●まとめ

質問票で回答された内容をそのまま入力すれば、データの形はとることができます。けれども、それではデータ解析ソフトが読み取れる状態ではないですし、規則を作って数値化すると他の人がそのデータを見たときにどういうデータなのか理解しにくいです。なるべくデータだけを見たら全体が理解できるように、変数名や見出し、入力規則もデータに書き入れておくと、とても扱いやすくなります。参考にしてみてください!

【メールマガジン】
信頼できる食情報かを見きわめるための10のポイント
をお伝えしています。ぜひご登録ください!
  https://hers-m-and-s.com/p/r/sPWrxMBU


すべての100歳が自分で食事を選び食べられる社会へ。

一生で味わう10万回の食事をよりよい食習慣作りの時間にするための
お手伝いをしていきます。

また読みにきてください。
記事がよかったら「スキ」リアクションをお願いします!
励みになります!


【食情報・健康栄養情報を見きわめるためのコツ】

この5つのステップで、信頼できる食情報・健康情報の候補を簡単に抽出できます。

この記事が気に入ったらサポートをしてみませんか?