データXXXって何?

データXXXって何?

世の中データ活用が語られています。

その中で「データXXX」という言葉が色々出てきます。
「データレイク」「データウェアハウス」「データマート」などなど。

これら、定義は若干人によって異なることはあるのですが、おおまかな区別があるので紹介します。

データレイク

世の中、会社、個人、システム、アナログ、デジタル、データには様々な種類や形式があります。

データレイクは、このようなデータをファイルとして保存する場所です。

CSV、txt、画像、xml、jsonなど色々なファイル形式がありますが、とにかく必要なデータを入れていく器です。

データウェアハウス

前述のデータレイクに集まったデータを、抽出可能な状態にして保存する器です。

抽出可能な状態というのは、単位を揃えたり、ファイル形式を揃えたり、重複データをマージしたり、不要なゴミデータを削除するなどの状態にすることです。

顧客情報、購買情報、来店情報、コストデータ、商品データなど業務に必要なデータを、分析者取り出せる状態です。

主に構造化データと言われるものは、表形式やJSONなどを用いた階層型データとしてSQL(クエリ)などで抽出ができる状態のデータを保管するのでデータウェアハウスです。

データマート

データウェアハウスでは、取り出せる状態のフルデータが保管されていることが一般的です。

データウェハウスから、必要な単位(例えば、売上データ)にデータを切り出して取り出せる状態にしたものです。

営業が売上データを取得する場合、不要なデータは取得せずに必要なデータのみを取り出した状態で保管し参照できる状態です。

この段階のデータは、いわゆるBIツール(ビジネスインテリジェンスツール)などから参照して、BIツールで可視化、分析、施策実行などが行われます。

おわりに

上記のように一口に「データ」と言っても、様々な形態や状態で保管されており、それぞれの用途に応じて使われます。

データ活用というのは、利用シーンにあわせて、どのようなデータを活用するか、どのような状態のデータを活用するか、設計しながら進めていくことになります。

データの専門家が必要なのは、このような様々なデータの状態をユーザーが適切に活用できるようにするためです。

この記事が気に入ったらサポートをしてみませんか?