見出し画像

オープンデータ活用研究vol3(国勢調査編) データ分析には仮設設定が重要なのです。

お疲れ様です。ムロイです。
皆様、いかがお過ごしでしょうか。
2022年1月より開始した、毎月2本こちらで記事を執筆する活動は無事に継続することができています。私の活動を応援していただいているみなさまからのリアクションがとても励みになっています。
地方で頑張っている事業者の皆様に向けて、これからも役に立つ情報を厳選してお届けしたいと考えています。引き続き温かく見守っていただければ幸いです。

さて、第1回第2回と国勢調査データセットから見えてくる日本の姿、現状を見てきました。この記事を見ていただいている方は、お時間あるようでしたら以前の記事もご覧になってみてください。

今回は、日本という単位から一段階細かい粒度、都道府県単位で見えてくる日本の人口変容について考えていきます。実際に国勢調査データセットを分析してみると、私自身も新たな気づきがありましたので、皆様にとっても実際ビジネスでの気づきになるような機会になればと思っています。


国勢調査データセットを改めて共有

少し話を戻して、改めて国勢調査データセットを共有しておきます。
みなさまも是非、”政府統計の総合窓口 e-stat”のホームページから、国勢調査データセットをダウンロードして、どんな感じかご自身でも見てもらえればと思います。

全国(日本)の人口(大正9年~平成27年)

ダウンロードした直後のデータはこんな感じになっています。都道府県ごとに980行のデータが確認できますが、この表はそれらの全体概要です。
日本はここ100年間で人口が1.2億をピークに減少傾向です。表中のmin(最小値)が0となっているのは、この0当時は戦時中で人口データが反映されておらず、国勢調査データセットから歴史を感じることもできます。


データを細かく分解、分析用データセットへ

この粒度では得られる情報も限られますので、少し細かく分解していこうと思います。これは実務でも意識する点で、イメージとしては料理に近い感覚で、例えばカレーを作る際に、ニンジンを丸ごと1本投入することはなく、皮をむいて、細かく刻んで投入すような手番と同様、みたいな感覚があります。

国勢調査データセットのカスタマイズ

分析に向けて、まずは分析する軸を考えます。
今回は時間軸、デモグラ軸で、ぱっと思いついた条件で国勢調査データセットから、一歩踏み込んでデータを加工しました。
エクセルとかで分析される機会が多いと思いますが、条件設定やデータ抽出には時間がかかると思います。おしゃれな分析ツールを使えばGUIベースで簡単にできるのですが、基本的にはお金がかかりますよね。

私はPythonでデータ分析をしています。ビジネスデータ分析にPython、これが非常に便利なのです。このあたりはまた別の機会に記事としてまとめたいと考えています。

  • 時間軸:最新年とある特定の年をチョイスして時間軸を設定、今回は最新年が2015年、人口変容分析のために10年前の2005年を比較する対象年として選択

  • デモグラフィック軸:デモグラフィックとはマーケティング用語でいわゆる属性(年齢、性別、居住地など)データのことですが、今回は性別をチョイス、性別区分がありますので男性と女性に区分しています。


分析用データセットから見えてきたコト

最終的にこんな感じ↓で、データ成型を完了としました。

国勢調査データセットの分析用データ化を完了

分析に必要なデータ項目だけに絞って、視認性を高めるために左に2015年のデータセット、右に2005年のデータセットを横に並べる形にしてみました。
ここまで来てようやく本題の話で、分析可能な状態に来ました。

都道府県ごとの人口増減

中身を見ていきます。2005年から2015年までの10年間で人口増減を都道府県単位で表中のpeople_増減より簡単なランキングにしてみました。

みなさんどう思われますか。
日本の総人口は減少傾向ですが、東京、神奈川、愛知、大阪などは増加傾向など全体とは相反した傾向を持つ都道府県が存在します。特に個人的に驚いたのは、増加している県に滋賀県が入っています。(滋賀県の方がこの記事を見ていたらごめんなさい。。)

少しインターネットで調べてみると、大阪、京都に近いエリアはベットタウン化していて、ここ数年で居住地として選択されるケースが増えているようです。参考:滋賀県人口微増、草津や守山で増加 国勢調査(朝日新聞デジタル)

こういった新たな気づきの積み上げの中から、ビジネスインサイトを作っていくことが重要です。私は習慣としてデータ分析のアウトプットから疑問に思ったことは積極的に調べこんでいくようにしています。


さらに深く見ていくと・・・

あと分析用データセットは男女で分割したデータになっていますので、同様に2005年からの10年での人口増減ランキングを作ってみました。
回りくどくなるのでここでの詳細説明は割愛させていただきます。一応、手元にデータセットがあるので、興味のある方は個別にリクエストください。
見えてきたのは、以下の通りです。

  • 都道府県単位:東京都、神奈川県、愛知県、埼玉県、千葉県、沖縄県、福岡県、滋賀県、大阪府

  • 都道県単位&男性単位:東京都、神奈川県、愛知県、埼玉県、千葉県、沖縄県、福岡県、滋賀県

  • 都道県単位&女性単位:東京都、神奈川県、埼玉県、愛知県、千葉県、大阪府、沖縄県、福岡県、滋賀県

増加傾向の多い都道府県を上位から並べてみました。
ここから何が見えてくるでしょうか。例えば、大阪府や埼玉県の人口増加傾向は女性の増加傾向に起因している、などなど。

ビジネス上はこれらのファクトからの仮設設定が重要です。
滋賀県は男女ともにランクインしているのでファミリー層が増えているのではないか、という仮説を作れれば、例えばECサイトのマーケティング担当なら自社の顧客の中でも都道府県でセグメントを作り、滋賀県のお客様にはファミリー向けの商品を提案してみる、などの施策立案や具体的なアクションプランが作れるのです。


今回は以上です。
国勢調査データセットを利用したビジネス活用研究は今回で終了にしたいと思います。実務ではもっと細かく見ていくこともありますし、当初設定した軸を変化させてインサイトを探るなんてこともやってみたりします。やりだすとキリがないので、分析には仮設設定が重要になってきます。

次回以降は、都道府県が独自に提供するデータを見ていきます。
ざっと調べたのですが、京都市、福岡市、長野市あたりはオープンデータセットが充実しているようですね。個人的にも見たことないので楽しみです。
もし何かほかにもこういうデータセットでとか、地元のデータを見てほしいとか、リクエストがあればお願いします。

ではまた次の機会に!


(おまけ)地方事業者向け気になるニュース紹介

今回も私が個人的に気になるニュースをピックアップしています。
地方事業者の目線で役に立つ情報を中心にご紹介です。

抽出期間:2022/2/11~2022/2/26
ニュース転載元:EnterpriseZine(エンタープライズジン)

ガートナー、2026年までに25%は1日1時間以上をメタバースで過ごすと予測

いま何かと話題のメタバースですが、みなさんはご存じでしょうか。10年以上前にもアバターなど仮想空間が少し流行った時代を思い出しますが、今回はどうなんでしょうか。メタバースの世界で重要なのはリアルと同等、もしくはそれ以上の顧客体験が得られるかということにあります。
例えば物理世界では時間は有限ですので日本中の観光地に行くことは現実困難なわけで、仮想世界では距離の壁を超えることができますから、まずは仮想世界でお試し旅行、そして気に入った場所はリアルで訪問、みたいなことが気軽にできる時代がくればいいなと思っています。

NEC、宇都宮市に開発中の「EBPM」支援サービスを先行提供

私が取り上げてきたe-statのオープンデータを活用して、自治体の地域政策意思決定を支援するソリューションが出てきました。データドリブン思考がもっと世の中に広まればいいなと思っていますので、これから後続のサービスもどんどん登場して来てほしいですね。ただこれらはどこまでいってもあくまで分析の支援ですので、実際大事なのは施策の意思決定者とその意思決定に基づいて実行、PDCAを回す組織や人だってことも忘れてはいけません。

「脱ハンコ」推進はいまだ半数以下――官公庁のペーパーレス・脱ハンコ実態調査

電子化議論は業務効率化観点が盛り上がりがちですが、何のために電子化するのかという目的が重要です。この記事には国民目線で国民の利便性を上げるためと心から想っている人がどれだけいたのでしょうか。少し悲しくなりましたが、公的手続で電子化が進めば行政側にデータが蓄積されます。データが蓄積されればGAFAのようなメガプラットフォーマーと同様に、利用者(国民)にとって便利な機能が続々とリリースされることが期待されます。
ぜひ政権与党の有識者の方々、関係者の皆様は、もっともっと目的達成に向けた議論を加速していただきたいものです。


この記事が気に入ったらサポートをしてみませんか?