見出し画像

総務省統計局「社会人のためのデータサイエンス入門/公的データの使い方」のまとめと感想~e-Stat、なかなかやるなと思った話【Week4】

こんにちは、水無瀬あずさです。夏休みも近づいてきて保護者的には顔が険しくなる今日このごろ、皆様いかがお過ごしでしょうか。

さて、2ヶ月に渡ってお届けしてきた総務省統計局「社会人のためのデータサイエンス入門」のまとめと感想シリーズ、ついに今回で最終回を迎えます。わーぱちぱちぱち!興味本位でなんとなく始めたものの統計学の難しさに涙ぐみ、でも途中で止めるのはなんか悔しくて、noteに感想を投稿するためだけに最後まで受講したといっても過言ではありません。もはや意地しかなかった

とはいえ、過ぎてみれば本講座を通していろいろな学びがありました。昨今ではリスキリング、リカレント教育など、「大人の学び直し」がもっぱら注目を集めていますが、人生100年時代と言われる現代、知らないことを意欲的に学んでいくことが、次の何らかのステージへ繋がるはず。この「社会人のためのデータサイエンス入門」で得た学びが、私の未来の何らかの変化のきっかけになればいいなと思っています。同時に、このnoteを読んだ人が、少しでも何かを始めるきっかけになれば嬉しいです。

ということで今回は、総務省統計局「社会人のためのデータサイエンス入門」の最終週Week4、テーマは「公的データの使い方」です。Webライターとしてはかなり気になる部分なので、張り切って復習したいと思います。よろしくお付き合いください!


総務省統計局の「社会人のためのデータサイエンス入門」とは

毎度おなじみ、講座についての簡単な紹介から。総務省統計局の「社会人のためのデータサイエンス入門」は、NTTドコモグループが提供している無料オンライン動画学習サービス「gacco」内のコンテンツで、2023年6月13日から開講されています。

公的データを管轄している総務省統計局が提供するカリキュラムで、統計学の基礎やデータの見方、データ分析の基礎的な知識を学べる入門講座です。本講座に先駆けて行われた「《特別開講》誰でも使える統計オープンデータ」も併せて受講することで、よりデータ活用の幅が広がります。興味がある方はぜひ。

本講座は、7月24日までに動画視聴80%以上で、かつテストの得点率60%以上の人には「特別な修了証」を発行してもらえるそうです。えっ特別ってなにさ!?発行予定日は2023年8月3日とのことなので、楽しみに待ちたいと思います。わくわくっ!

Week4「公的データの使い方」のまとめと感想

それではWeek4「公的データの使い方」の講義を受けて、印象に残ったことや感想などをまとめてみたいと思います。今回はe-Statを中心とした内容になっていて、Webライターとしては必見の授業でした。実はあまり使い方を知らなかったのですが、これからは使いこなしてデータ分析もできるライターを目指したいです。

ということでWeek4の講義内容はこのようになっています。

出典:「社会人のためのデータサイエンス入門」 2023年リニューアル後の講座概要

初めて聞いたぞ「統計法」

国などが作成する公的統計は、統計法と呼ばれる法律によって基本となる事項が定められています。え、統計に関する法律なんてあるの・・・誰得・・・?って思いませんか?私、「統計法」って勝手に「統計方法」のことと思っていたんですが、法律のことだったんですね。統計法は、国などが作成する統計の法律的な根拠となる大事なものなんだそうです。

公的統計は、統計法によって「行政機関、地方公共団体又は独立行政法人等(以下「行政機関等」という。)が作成する統計」と定義され(統計法第二条第3項)、その役割は「国民にとって合理的な意思決定を行うための基盤となる」(統計法第一条)こととされています。

国民が意思決定を行う基盤たる公的統計には、正確性・信頼性が確保されていなければなりません。だからこそ、行政機関が統計調査を行う必要があり、法律を定める必要もあるというわけです。つまり公的統計は私たち国民全員にとって共有の財産ってことですね。

公的統計の特徴と種類

公的統計には、4つの特徴があります。

  1. 網羅性

  2. 定期性

  3. 信頼性

  4. 公開性

①の網羅性は、調査対象が限られた範囲ではなく、全国に広く網羅していることを示しています。国民の実態を知りたいのに、横浜のことだけ調べていても意味はありませんからね、広く調査が必要というわけですね。なお、調査は全国だけでなく、都道府県、市区町村やメッシュ(ある地域を細く四角形に区切った区画)調査に分割することもあります。

②の定期性は、一定期間ごとに定期的に調査することを示しています。公的統計の調査には、月次のように短い周期で調査を行う「経常調査」と、比較的長い周期ごとに調査を行う「周期調査」があります。経常調査の例として、月1回行われる労働力調査があります。就業状況、失業者、失業率などは刻々と変化することから、短いスパンで調査する必要があるんですね。周期調査の具体例は、5年ごとに行われる国勢調査就業構造基本調査などがあります。

③の信頼性は、統計法で「適切かつ合理的な方法により、かつ、中立性及び信頼性が確保されるように作成されなければならない」(統計法第三条第2項)と定められているとおりです。「このデータ信用できないな」って思うものを引用したり、誰かに教えようとは思いませんよね。信頼性がなければ国民の意思決定の基盤となりえないのです。

④の公開性は、統計法で「広く国民が容易に入手し、効果的に利用できるものとして提供されなければならない」(統計法第三条第3項)と定められているとおりです。何かを決定するために公的統計を参照したいと思っても、すぐに見れなければ意味がありません。そこで、国民誰でも簡単にアクセスできるための公開性を有していることが大切というわけです。

4つの特徴とは別に、日本の公的統計の特徴として「分散性」というのもあります。統計を行う機関は調査内容によってそれぞれの部署に分散されていて、たとえば教育関連の調査なら文部科学省、健康関連なら厚生労働省というように分かれています。Webライターで引用する機会が多いのでよくわかる。

この分散性という特徴ゆえ、紙媒体で管理していたころは他部署のデータを参照するだけでも一苦労でした。しかし今ではe-Statがあるので大丈夫。公的統計のデータはすべて電子化され、ひとつにまとめられているのです。ああeStat素晴らしい!

また公的統計は「基幹統計」と「一般統計」の二種類に分類できます。いずれも統計法で定められており、基幹統計はいろいろなところで参照されるめっちゃ大事な統計、一般統計はそのほかの統計のことです。ちなみに2023年7月時点の基幹統計は53種類です。

公的統計データ見るならe-Stat

さて、今回のメインとなるe-Statは「政府統計の総合窓口」とされる政府のポータルサイトです。各省庁が公表する統計データを1つにまとめ、利用しやすい形でワンストップで提供しています。

公的データは、キーワード・分野ごと・統計を作成している組織ごとに探せるようになっており、また時系列で表示したり、地図上の表示や地域ごとの集計、ランキング表示などもできます。とても便利。

e-Statには、統計を検索するだけでなく、データを活用するためのさまざまな機能も備わっています。一例を挙げると、

  • データベース機能(国勢調査のような膨大なデータから項目やレイアウトを自由に組み換えて集計できる)

  • 統計ダッシュボード(主要指標のグラフや時系列表を表示できる)

  • jSTAT MAP(統計データを地図上に表示できる)

  • 地域ランキング(地域別の主要データをランキング形式で表示したりCSVダウンロードができる)

といった機能です。データ検索しかやったことがなかったけど、いろいろなことができるもんですね。同業者の夫は、かなり昔にeStatを触ったことがあるそうで、今の画面を見て「昔と全然違う!すごい見やすくなった!」と感動していました。頑張ったんだな統計局

e-Statのさらに高度な機能として、

  • ミクロデータの活用(集計前データの閲覧)

  • 開発者向け機能(API)

  • 統計調査に関する基本的な情報(日本標準産業分類、日本標準職業分類、統計調査計画など)

も見れるようです。現役エンジニアとしてはAPIが大変気になるところです。会員登録しないと使えないようですが、今度時間を見つけてAPIからデータ取得をしてみたいと思います。

e-Statでデータを探してみよう

試しに「ゲーム」というフリーワードでデータセットを検索してみたところ、3万件ものデータがヒットしました。

出典:e-Stat

政府でそんなにゲームについて調査することがあるのか?と思って、最初のものを見てみると、統計名は「21世紀出生児縦断調査(平成22年出生児)」とあります。何ぞそれ?ちなみに我が子は長男が平成21年、次男が平成23年生まれであります。ちょうど真ん中で地味に外れている件。調べてみると、こういう調査らしいことが分かりました。

21世紀出生児縦断調査(平成22年出生児)は、同一客体を長年にわたって追跡する縦断調査として、平成22年に出生した子の実態及び経年変化の状況を継続的に観察するとともに、21世紀の初年である平成13年に出生した子を継続的に観察している調査との比較対照等を行うことにより、少子化対策等の施策の企画立案、実施等のための基礎資料を得ることを目的としています。

引用元:21世紀出生児縦断調査(平成22年出生児)|e-Stat

少子化の傾向を探るために追跡調査を行っているようです。具体的には、以下の41の項目に関して調査が行われているそうです。

  • 子ども数・構成割合,単胎-多胎、性、現在(第12回調査)の身長、現在(第12回調査)の体重別

  • 子ども数・構成割合,市郡、同居者の構成、性、きょうだい構成別

  • 子ども数・構成割合,同居者の構成、母-父の単身赴任の状況別

  • 母・父と同居している子ども数・構成割合,市郡、同居者の構成、母-父の就業状況別

  • 母と同居している子ども数・構成割合,兄姉の有無、弟妹の有無・末の弟妹の年齢、母の就業状況別

  • 母と同居している子ども数・構成割合,1年前(第11回調査)の母の就業状況、現在(第12回調査)の母の就業状況別

  • 母・父と同居している子ども数・構成割合,きょうだい構成、母-父の帰宅時間別

  • 母・父と同居している子ども数・構成割合,市郡、同居者の構成、母-父の就業状況・1週間の労働時間別

  • 子ども数・構成割合,市郡、同居者の構成、登校日-日曜日の起床時間別

  • 子ども数・構成割合,市郡、同居者の構成、登校日-土曜日の就寝時間別

  • 母・父と同居している子ども数・構成割合,母-父の帰宅時間、登校日-土曜日の就寝時間別

  • 子ども数・構成割合,性、同居者の構成、朝食の内容・食べない理由-夕食のとり方別

  • 子ども数・構成割合,性、市郡、きょうだい構成、間食の内容別

  • 子ども数・総数に対する割合,性、子どもの体型、1年間に医療機関などで診察を受けた(受けている)病気やけが(複数回答)別

  • 子ども数・総数に対する割合,市郡、同居者の構成、1年間に医療機関などで診察を受けた(受けている)病気やけが(複数回答)別子ども数・構成割合,市郡、同居者の構成、学校生活のようす別

  • 子ども数・総数に対する割合,性、同居者の構成、手伝いの種類(複数回答)別

  • 子ども数・総数に対する割合,性、きょうだい構成、手伝いの種類(複数回答)別

  • 子ども数・構成割合,性、同居者の構成、放課後-休日の遊ぶときの友だちの人数別

  • 子ども数・構成割合,市郡、きょうだい構成、小遣いの有無・小遣いの金額別

  • 子ども数・構成割合,市郡、きょうだい構成、携帯電話の有無・友だちとのメールのやりとり別

  • 子ども数・構成割合,性、同居者の構成、携帯電話の有無・友だちとのメールのやりとり別

  • 子ども数・構成割合,性、弟妹の有無、兄姉の構成、登校日-休日にテレビを見る時間別

  • 子ども数・構成割合,市郡、同居者の構成、登校日-休日にテレビを見る時間別

  • 子ども数・構成割合,市郡、同居者の構成、登校日-休日にコンピュータゲームをする時間別

  • 子ども数・構成割合,登校日-休日にテレビを見る時間、登校日-休日にコンピュータゲームをする時間別

  • 子ども数・構成割合,市郡、同居者の構成、学校以外の勉強時間別

  • 母・父・その他の同居者と同居している子ども数・構成割合,性、学校以外の勉強時間、父母等の家庭学習への関わり方別

  • 子ども数・総数に対する割合,市郡、同居者の構成、体験の種類、体験の有無・回数別

  • 子ども数・総数に対する割合,市郡、同居者の構成、習い事等の種類(複数回答)別

  • 学習塾を利用している子ども数・構成割合,市郡、きょうだい構成、1週間の学習塾の日数別

  • 家庭教師を利用している子ども数・構成割合,市郡、きょうだい構成、1週間の家庭教師の日数別

  • 学習塾等を利用している子ども数・構成割合,市郡、同居者の構成、学習塾等を利用する主な目的別

  • 子ども数・構成割合・1か月の平均子育て費用,性、きょうだい構成、1か月の子育て費用別

  • 習い事等の費用のある子ども数・構成割合・1か月の平均習い事等の費用,性、市郡、1か月の習い事等の費用別

  • 子ども数・構成割合,きょうだい構成、1か月の子育て費用、1か月の習い事等の費用別

  • 学校にかかった費用のある子ども数・構成割合・1か月の平均学校にかかった費用,性、きょうだい構成、1か月の学校にかかった費子ども数・総数に対する割合,市郡、同居者の構成、子どもがいてよかったと思うこと(複数回答)別

  • 子ども数・総数に対する割合,市郡、同居者の構成、子どもを育てていて負担に思うことや悩み(複数回答)別

  • 子ども数・総数に対する割合,市郡、同居者の構成、子どもの日常生活で気になることや悩み(複数回答)別

  • 母・父と同居している子ども数・構成割合,性、同居者の構成、母-父の家事・子育ての状況別

項目、多っ!まさか我が子たちのちょうど中間時期に生まれた子どもたちが継続調査されているとは。いいな私も調査されてみたい!上のなかに2項目で「コンピューターゲーム」に関する設問があって、これが検索にヒットしたということのようですね。

具体的にどんなデータかというと。目が痛くなるパターンのこんなやつがダウンロードできます。

ダウンロードしたCSVデータ

21493人のうち、平日ゲームをしない人が4609人、1時間未満が5561人、1~2時間が6432人、2~3時間が2847人、3~4時間が1026人、4~5時間が384人、5~6時間が191人、6時間以上が180人となっています。平成22年生まれと言えば、今年中1のはず。平日のゲーム時間が6時間以上とかどんだけ!?って驚きがありました。ちなみに我が子たちの平日のゲーム時間は1.5時間です。

e-Statでグラフや地図統計も見れる!

講義では、e-Statのさまざまな機能の使い方についての説明がありました。動画を見ているだけだと正直かなり眠かったですが、想像力を膨らませて最後まで視聴を頑張りました。ただこれ、パソコンを実際に操作しながらやるべき内容だったんじゃないかなあ。睡魔との飽くなきバトルだ。

とくに大きなトピックとして取り上げられていたのが、統計地図機能であるjSTAT MAP(ジェイスタットマップ)。インターネット上の地理情報システム(GIS=Geographic Information System)で、ブラウザで簡単に表示できる分かりやすい視覚資料として有益という話でした。

jSTAT MAPには6つの特徴があります。すなわち、

  1. ユーザーが保有するデータを取り込んで分析できる

  2. 任意のエリア情報を算出できる

  3. 統計地図を作成できる

  4. 地域分析レポートを作成できる

  5. 国勢調査や経済センサス、農林業センサスなど多様なデータを利用できる

  6. Google Mapや地理院地図、国土画像情報などの背景地図を利用して分析できる

といったものです。なるほど非常に有益らしいのですが、Webライターの仕事で地図情報を分析するほどの作業はぶっちゃけ必要ないのかなと思ったので、話そこそこに聞いておきました。使いこなせれば楽しいんだろうなあ。

e-Stat以外にも便利なデータがある

さて、今回のメインはe-Statの話だったのですが、それ以外にも使いやすい統計データが公開されているよって紹介もされました。具体的には、社会・人口統計体系「SSDS」、教育用標準データセット「SSDSE」、地域経済分析システム「RESAS(リーサス)」および世界の統計です。

RESASのサイトが予想外にイケているデザインでびっくりしました。内閣官房が整備していて、産業構造や人口動態、人の流れなどのデータを集約し、グラフや地図などで可視化しているんだそうです。あくまでも主要データを分かりやすく可視化しているだけなので、本当に深掘りしたければe-Statで生データを確認する必要がありますが、概要を理解したいだけならこれで十分って感じですね。内閣官房、やるやないかい

なお、関連として、新型コロナの影響を探るための「VーRESAS」という機能もあります。

最終問題の成績がボロボロでした

総務省統計局「社会人のためのデータサイエンス入門」では、講義の最後に毎回確認テストがあり、合格しないと修了できないようになっています。

Week1からWeek3までは毎回設問が5問程度と少なく、しかも1問につき3回まで回答できるので、間違ってもまあ大丈夫という安心感がありました。ところが最終週のWeek4はどうですか。回答は1問につき1回限りと急に厳しく、さらに設問が全部で20問とか、いやいきなり多いわ嫌がらせですか!?って感じでした。しかも設問がいちいち難しいのよ。泣くぞ。メモを一生懸命取りながら受講した私でも不正解連発です。ぐふ。なんとか合格ラインはクリアしたものの、、、データサイエンス、奥深し。

gacco管理画面「成績」メニューより

まあ及第点ってことで、個人的には頑張ったかなと褒めてやりたい気分ですね。自画自賛も時には大事なのだ。

結び

ということで、総務省統計局の「社会人のためのデータサイエンス入門」最終週を受講した復習と感想などをまとめてみました。

副業Webライターとして記事を書くとき、一次資料としてe-Statのデータを参照する機会はそれなりにあるんですよ。で、そんなときって割といつも、ダウンロードしたExcelデータをフィルター表示で確認してみて、そしたら別に気になることが出てきちゃって、データとひたすらにらめっこしていたらあっという間に1時間過ぎちゃった・・・なんてことがままあります。だからe-Statについて詳しく教えてくれた今回の講義は、私にとって非常にためになる内容でしたね。統計局ありがとう。

先日、数学好きの長男(中2)に「そんなに数字がすきなら、将来データサイエンスを勉強したらいいんじゃない?」という話をしたのですが、そういうふうに言えるのも、今回データサイエンスについて少しだけだけど勉強したからだと思います。知ることは、新しい道を開くきっかけになる。これからも学びを大切に、そして学んだことを未来へ活かせるように頑張っていきたいな。

というところで、実は現在わたくし家族旅行中まっただなかでして、子どもたちの寝静まったホテルでひっそりとこの記事を書いております。楽しい家族旅行中に何書いとんねんって感じですが、鉄は熱いうちに打てって言いますし、忘れる前に書いてしまいたかったというところで。頑張ったと褒めてくださいどうかどうか。ということでみなさま、よい連休をお過ごしください。そろそろ寝る。

この記事が参加している募集

ライターの仕事

この記事が気に入ったらサポートをしてみませんか?