見出し画像

ヒノキ花粉が遅れてやってきた データアナリストへの道#30

勝手にレノファ山口FCを応援しているハラマルです。

本日、5月6日(日・祝)のレノファ山口FCホーム戦のチケットが発売になりました。
ゴールデンウィークの最終日となる方も多いと思いますが、次の日から仕事と考えると、あまり遠出はしてくないですよね。でも、家でゴロゴロせずに家族で遊びたいですよね!
はい、ちょうど良いじゃないですか!みらスタで家族で遊んで、サッカー観戦しましょう
この日は、「1万人プロジェクト」に位置付けられているので、きっと多くの方が訪れて、すごい盛り上がると思います!
サッカーの内容もきっと良いと思いますので、最高の思い出作りにどうぞ!

さて、先日、今年の花粉飛散状況を可視化し、3月3日(レノファ山口FCの今シーズンホーム開幕戦)時点で、「スギ花粉のピークが過ぎ、ヒノキ花粉のピークが来る前だった」というようなことを書きました。

その後、知り合いの方から、「ハラマルさんのおかげで、今年のスギ花粉が大したことないことが分かって気持ちが楽になった」というようなことを言っていただきました。ホントかリップサービスなのか分からない、絶妙なラインですねw

また、「ヒノキ花粉って、今シーズンはまだ飛散していないの?それとも、知らない間に終わったの?」的なことも聞かれました。

ということで、一部の人にしかニーズはないと思いますが、その一部の方にとっては重要な花粉飛散データを、時点修正してみようと思います。
(私も、スギ・ヒノキの両方で花粉症持ちなので、自分にとっても重要問題。)

更新作業

さて、再びおさらいですが、私たちが普段目にする花粉情報「やや多い」「非常に多い」といったものは、花芽の発育状況や気象データから計算された「飛散予測」です。
分析に使うのは、この予測結果ではなく、実際にどれくらい飛散したかという実測の「花粉飛散データ」です。
山口県の場合、一般社団法人山口県医師会さんのHPで公表されていますので、こちらに掲載されているデータをコピペして使わせていただきます。

https://www.yamaguchi.med.or.jp/yamaguchi/pollen/

前回使ったリストに、3月5日以降、4月3日までの約1ヵ月分のデータを追加しました。

緯度・経度情報の取得

次に、今回の分析ではヒノキ花粉が中心になると思いますが、前回の記事から、ヒノキ花粉は県内でも「北部ブロック」での飛散が多いことが分かりました。
が、この北部ブロックに、美祢市・萩市・長門市が入れられており、美祢市って北部かな…?と思っていました。

このため、今回は、所在地の市町によってブロック分けするのではなく、それぞれの測定機関の位置をプロットして、より詳細に分析してみようと思います。

さて、測定機関の位置ですが、「住所」はネットで調べたら簡単に分かるものの、住所は一定の範囲がある(筆が大きい地番だとその中でもどこか分からない)ため、ポイントで示すには適していません。
このため、緯度・経度情報を取得する必要があるのですが、これは、実は簡単に分かります。
googleマップで検索して、表示された赤いポイントを右クリックすると、一番上に表示されますので、これをコピーしたらOKです。

googleマップで赤ポイントを右クリックした様子

これを繰り返すと、このようなリストが出来上がりました。

測定機関の住所、緯度・経度情報をまとめたリスト

花粉の飛散データは、前回作業した際、このようなかたち(縦持ち)で整理していました。

花粉飛散データ

これと、先ほどの住所情報リストをどのように組み合わせたら良いでしょうか?

Excelの場合だと、例えば、列を追加して緯度・経度情報を補記していくかもしれません。
データが2万6千行以上もあるので、その作業を簡易にしようとしたら、
「VLOOKUP」関数や、その上位互換である「INDEX関数とMATCH関数の組み合わせ」を使って、測定機関名に対応する緯度・経度情報を補記するかもしれませんね。

注)
「VLOOKUP関数」は、表の「一番左の列」を検索して、条件に該当する行の「指定した○列目」にある値を取り出します。
「INDEX関数とMATCH関数の組み合わせ」は、表の「任意の列」と「任意の行」を検索して、それぞれの条件に該当する(クロスするところにある)値を取り出すことができます。
後者の方が、関数としては見た目が複雑になりますが、前者より柔軟に使えますし、重くならないので、おススメです。

ですが、「Tableau」というツールだと、そのような作業をする必要がありませんツールの中でデータを連携させることができるのです。

ということで、さっさとTableauに突っ込んでみましょう!

Tableauでのデータ連携

まずは前回作成したデータを呼び出し、データソースを最新のものに更新します。
これで、前回作成したグラフがそのままで、直近の1ヵ月程度のデータが足されたような形になります。
この更新も、Excelだと表の元データの範囲設定をし直したりする必要があるので、それと比べて非常に簡単だと思います。

次に、データソースの画面に、こんなスペースがあるので、ここに、先ほど作成した緯度経度情報が入ったシートをドラッグアンドドロップします。

Tableauの「データソース」画面

すると、こんなカンジになります。

Tableauの「データソース」画面

△!マークは、「新しくデータを取り込んだけれど、元々のデータとどういう関係ですか?」という意味でしょうね。
なので、この画面でデータ間の関係性を定義してあげます。
具体的には、今回は、両方のデータで使われている「測定機関」が同じものを指していますので、これら2つがイコールであることを、データ項目と演算子を、それぞれリストから選択します。

Tableauの「データソース」画面

はい、これで関係性の整理は終了です!これで、2つのデータを連携して使えるようになりました!
Excelと違って、元々の表やグラフを加工する必要がないので、「形が崩れて作り直さないといけない」ということもありません。

花粉飛散状況の経年比較

では、最初に、スギ花粉・ヒノキ花粉の飛散状況を、測定機関の平均値(年によって測定機関数が異なるため)でグラフにしたものを時点修正してみます。

花粉飛散状況(上段:スギ花粉、下段:ヒノキ花粉)2024年は赤

赤色の2024年を見てみると、上段のスギ花粉は、前回分析した3月3日以降、1回だけ(3月6日)、「極めて多い」という100のラインを超えています。
実は、前回の記事で「3月中旬までの間に、あと1~2回、飛散量が多い日が来るかもしれません」と書いたのですが、まさにそのとおりになりましたね!
注)私は花粉に関する専門家でもありませんし、きちんと分析をしたわけでもありません。単に、過去のデータがそうなっているからということで書いただけであって、この予測には何ら信ぴょう性はありません

そして、全体としては昨年(一番濃い青)よりも低調に推移して、3月中旬以降はほとんど飛散がないような状況です。
他の年を見てみても、スギ花粉はもう落ち着いたと判断してよさそうです。

次に、下段のヒノキ花粉ですが、こちらもかなり低調に推移しており、3月30日に平均値98.9という山が来ていますが、「極めて多い」のラインは超えていません。

前回の記事で、「ピークになる時期が徐々に早まっているような傾向が見受けられるので、そろそろ注意が必要」と書きましたが、こちらは大ハズレで、例年よりもかなり飛散の時期が遅れています

飛散量が減っていると考えれば、例年だと4月中旬には飛散が終わっていますので、このまま飛散を終えるかもしれません。
飛散時期が後ろにずれていると考えれば、これからピークが来るかもしれませんので、もう少し留意が必要です。

ブロック別飛散状況2024

次に、今年の花粉飛散状況をブロック別に見てみましょう。

2024年の花粉飛散状況(ブロック別)

上段のスギ花粉については、北部(緑)が2月中旬と3月下旬に目立つ山があるものの、全体的には、例年のように、どのブロックも同じような形になっており、同じような時期に同じ程度のピークを迎えていることが分かります。

前回、「3月中旬に飛散量が大きく増えているのは北部」という傾向を見出しましたが、今年も同様な傾向が表れていますね。(全体的に飛散量が少ないので、大きな差としては表れていません。)

下段のヒノキ花粉については、前回の記事で見つけた傾向「北部の飛散量が突出している」が、今年も同じ兆候のようです。
ブロック別で見た場合は、北部だけが「極めて多い」の100のラインを超えています!

マッピング

さて、それでは、今回作成した緯度経度情報を用いてみましょう。
これまでの花粉の飛散量を、測定機関ごとにマッピングしてみました。

花粉飛散量マッピング

これで、「北部」という曖昧な定義ではなく、実際の位置と紐づけて飛散量が可視化できました。

測定機関がある箇所が限られているので、もう少したくさん分布していればもっと傾向が見えるのかもしれませんが、現状のデータでは、やはりスギ花粉は南西部を除いて県内広くに飛散している様子です。
一方、ヒノキ花粉は北部に多いようで、意外なところでは光市が多いようです。

次に、これを2024年のヒノキだけで見てみます。ついでに、月別に分けてみましょうか!

2024のヒノキ花粉飛散マッピング

まず、今年も北部で多いようですが、光市では少なくなっているように見えます。
う~ん、ヒノキ花粉の前半である3月と、後半である4月とで違いがありそうですが、よく分かりませんね。

マッピングは、作るのや眺めるのは好きなんですが、実は、分析にはあまり向いていません。比較がしづらいですよね。

ということで、分かりやすいように棒グラフにしてみました
(わざわざ座標データを取ってマッピングしたのは何だったんだw)

2024年ヒノキ花粉の飛散状況

こうしてみると、3月は長門・萩と美祢で極端に多く、4月に入ってからは、萩市や岩国市で増えてきているのが分かります。

ヒノキ花粉の方は、2024年では光市が少なくなっていますし、少しずつ飛散が多いエリアが動いているようですね。

当初の疑問、「美祢市って北部だっけ?」については、このヒノキ花粉の飛散状況だけを見ると、傾向としては山口市とは全然違って、長門市・萩市と同じ傾向にあるので、やっぱり北部のグループで良いのかもしれません。

ちなみに、この人口ピラミッド型の棒グラフを作るのに、初めて日付関数を使ってフィールド作成したので、今後の自分のために忘れないようメモしておきます。

3月の飛散量だけを抽出する計算フィールド作成時に日付関数(month)を使用

まとめ

今回、花粉おじさんとして、約1か月ぶりにデータを更新してみましたが、スギ花粉については、前回予想したとおりのデータになっていた一方、ヒノキ花粉については、予想に反してかなり遅れて飛散が始まっていることが分かりました。
また、ヒノキ花粉は北部に多いという傾向があったものの、今年4月は岩国市でも比較的多くなっているなど、飛散量が多いエリアが少しずつ移動しているのではないか?という新しい傾向も発見できました

同じデータでも、日々更新しているデータがあるため、分析するたびに、新しい発見や気づき、予想通りになった嬉しさなどがあって、非常に面白かったです。

また、この更新されるデータをダッシュボードにしてみたいなぁと思いましたが、Webサイトに書き込まれているデータを読み込んだり、また、複数日でまとめて収集された場合は平均値に直したりという作業を手作業でしているので、ちょっとツールを使わないと難しいなぁと感じています。

どうせツールを使うなら、例えば、今は複数日分を日数で単純平均にしていますが、本当は、他の計測機関と同じ割合で按分した方が良いのでは?(2日間で合計100の場合、50-50で分けていますが、他の測定機関の状況を見て、0-100など実態に合わせて分けられるようになる?)と思います。

そーなったら、もう私のスキルではどうしようもないので、これは「やまぐちDX推進拠点『Y-BASE』」に相談するしかないです!
なんと、相談から実装に至るまで、無料で伴走支援してくれるんですよ!!

・・・というわけでw、データ利活用に興味がある方や、プロジェクトをお持ちの方は、是非、Y-BASEに御相談いただければと思います。

それと、これはまだ未確定なのですが、学生さんを対象にTableau研修をする機会があるかもしれません。もちろん、講師は、ド素人の私ではなくて、ちゃんとしたデータサイエンティストなので安心してください。
面白いことになればと思いますので、また御報告できたらいいなぁと思っています。
うまくいけば、Tableauの研修の中で、過去にやったデータ分析を入れてもらったりして、強引にでもレノファ山口FCの話題を突っ込んでみようと企んでいます!乞うご期待!