見出し画像

データの横持ち・縦持ちの違い

こんばんは!DATASaber認定目指して奮闘中のEmiです!
「データの縦持ち・横持ち」について、いまだに混乱することがあるので頭の整理を兼ねて、まとめていこうと思います。
※この記事では勉強用に作成した架空のテスト結果表を使います

データの「横持ち」

「横持ち」とはどういう状態のデータ?

行と列にそれぞれ異なる属性を配置して、交差するセルで情報を表すデータ構造のこと。
例えば、表1だと・・
3行目の「5月4日」と4列目の「地理」が交差するところが「5月4日の地理の得点」となる。

(表1)科目が横に並ぶデータ|追加情報が横にも増えていく

「横持ち」の特徴は?

  • 情報追加時にテーブル構造の再設計が必要

  • 複数の集計対象が同じ列に含まれているため集計しにくい

  • 全項目分の枠をテーブルとして持つので、データがない項目はNULLとなってしまう(表1のグレーのセル)

  • 列と列との比較がしやすい

  • 人間が見て分かりやすい

  • スペースが節約できる

データの「縦持ち」

「縦持ち」とはどういう状態のデータ?

1件1件のデータ(レコード)を縦方向に蓄積したもの。
列に配置された各項目に対応したデータが追加されていく。

(表2)表1を縦持ちにしたもの|追加情報が縦に増えていく

「縦持ち」の特徴は?

  • 項目追加時にテーブル構造の再設計不要

  • 集計対象ごとに列が分類されているため集計しやすい

  • データがない行は追加されないため、NULLが発生しない

  • 1つの集計対象(得点)について複数の項目(日付や科目)が同じ列に混在するため、項目間の比較がしづらい

  • 行数が増える

Tableauに取り込むとどう違う?

得点状況を棒グラフにしてみる

(図1-1)横持ちデータを取り込んだもの。
それぞれの科目の得点が独立したメジャーとして扱う。
(図1-2)縦持ちデータを取り込んだもの。
科目はメジャー(今回は得点)の切り口(ディメンション)として扱う。

国語と英語の得点に相関はあるか

(図2-1)横持ちデータを取り込んだもの。
科目ごとの得点が独立したメジャーなので、
[列][行]シェルフにそのまま入れることができる。
(図2-2)国語と英語の得点を散布図で表したもの。
得点はすべて一つのメジャーにまとまっているため、
「国語の得点」「英語の得点」というメジャーを計算フィールドを使って作成する必要がある。

縦持ち・横持ちの特徴まとめ

それぞれ目的に合ったデータの持ち方をすると分析しやすい

データソースの準備をする際には、ただデータを並べるのではなく、分析するために不要な手間がかからないデータになっているかを考えながら作成しようと思います。

最後までお読みいただきありがとうございました!!
次回の記事でまたお会いしましょう。

参考にさせていただいたページ:

株式会社クロス・マーケティング
株式会社クレスコ
京セラみらいエンビジョン株式会社


この記事が気に入ったらサポートをしてみませんか?