見出し画像

Microsoft Fabricを使用して天気と野菜の値段の相関関係を可視化してみた


こんにちは、アバナード中村です。

Microsoft Build 2023 で Microsoft Fabricが紹介されましたね!
Microsoft Fabricは「データの集約や加工、データエンジニアリングからBIによる可視化、リアルタイ ム分析までにいたるまでのすべての分析ワークロードをSaaS (Software as a service) ベースで提供す るワンプラットフォームとし、組織のサイロ化を防ぎ、ユーザーのデータの可能性を加速化させるもの」と紹介されています。

まだプレビュー段階ではありますが、今回はこのFabricを使用して、以下のことを行ってみました!

  1.  ソースデータをレイクハウスへ格納

  2.  レイクハウスからデータをデータフロー(Gen2)で抽出・変換し、レイクハウスへ同期(ロード)

  3.  レイクハウス上のSQLエンドポイント(以下のリンク参照)で可視化に必要なデータのビューを作成し、モデル化

  4.  Power BI を使用して可視化

では、早速、詳細を説明していきたいと思います。


今回は、ソースデータとしてe-Statより、天気データおよび野菜の卸売数量・価額データを取得しました。

ソースファイル(エクセル)の中身:
【例】野菜「かぶ」のエクセルファイル

それらをレイクハウスへアップロードします。
まずは、ワークスペースからデータレイクを新規作成します。

ソースデータ格納用とします。

レイクハウスの「Source」にサイトから取得した野菜データエクセルファイル一覧およびお天気CSVファイルをアップロードします。
※「Source」と名前を付けることで「ソースデータはここに保存する」等のルールが作りやすいかなと個人的には思いました。

新規レイクハウスを作成すると以下のように、データセット、SQLエンドポイントも一緒に生成されます。


次にソースデータの抽出・加工をしていきます。
今回はデータフロー(Gen2)を使用します。
こちらは既に作成したものになるのですが、野菜エクセルファイルは各野菜ごとに全く同じフォーマットなので、関数を使用して変換ステップをパラメータ化(ファイル名、野菜名をパラメーター化)しています。

右下に「データ同期先」を選択できる箇所があります。
ここで加工したデータのロード先を指定します。今回はロード先もデータレイクを指定します。

「Target」コンテナを作成し、ロード先のテーブルを作成しています。
(ワークスペース単位でフォルダが作成されています。)

最後に列のマッピングを行います。

全ての設定が完了したら、最後にデータフローの「公開」ボタンをクリックします。


Power BI でデータを可視化するために、データモデルを作成します。
FabricではSQLエンドポイントが用意されているので、そこでデータモデルを作成していきます(ビューの作成も可能です)。
以下の「モデル」タブを開きます。

以下のようにモデルビューに切り替わります。


最後に③で作成したモデルを使用してデータを可視化していきます。
各年度の年間降水量・年間日照時間と主な野菜の卸売数量・価格の関係を可視化してみました。

ビジュアルから、年々野菜の卸売数量が減少傾向にあること、年間の日照時間が極端に少ないと野菜の卸売価格も高くなる(1991,1993,1998年)傾向にあることが分かりますね。
 
以上、「Fabricを使用して天気と野菜の値段の相関関係を可視化してみた」でした!

Fabricを使用してみて。。
SaaS製品なので全ての処理を1つの場所で完了できます。これは便利だなと思いました。

今後も機会あれば他の機能も試してみたいと思います!

最後まで読んで頂きありがとうございました。

アバナード関西オフィス 中村 佳寿美

#Microsoft Fabric, #作ってみた, #Dataflow, #Power BI, #データフロー, #データモデル


この記事が参加している募集

やってみた

この記事が気に入ったらサポートをしてみませんか?