見出し画像

趣味のデータ分析070_弱男 vs 弱女②_母集団整理

前回、「独身高齢女性たちが、労働意欲も低く貧困率も高い」という事実があるかどうかという問題提起を行い、統計上処理できるように命題を以下のように整理した。
命題1:弱者女性の数>弱者男性の数
命題2-1:「女性全体に占める弱者女性の割合」>「男性全体に占める弱者男性の割合」
命題2-2:「未婚女性全体に占める弱者(低所得女性)の割合」>「未婚男性全体に占める弱者(低所得)男性の割合」
命題2-3:「低所得女性全体に占める弱者(未婚)女性の割合」>「低所得男性全体に占める弱者(未婚)男性の割合」
命題3:弱者女性の所得分布が、弱者男性に比して低所得側に分布している(平均と中央値のいずれも低所得側にある)

前回は実質命題整理のみだったが、今回から本格的に分析に着手する。

就業者の所得分布

さて、上記命題に記述したとおり、今回調査では所得データを触る必要がある。これまで所得に関してはそこまで突っ込んでこなかったが、流石に今回は逃れられない。ただ、所得にも色々なデータがあり、何をどこまで分析できるか、データで異なるところもある。
先の命題から、性別、配偶、所得のデータは必ず必要となる。この3種をクロスで取得できるのは、2022年の就業構造基本調査しか存在しない(多分)。よって以降は原則、就業構造基本調査を用いて分析するので、「低所得」の定義についても、就業構造基本調査をもとに整理したい。なお2022年しかデータが存在しないため、時系列での分析は不可能である。

さて、今回は低所得層を確認したいので、平均だけでなく中央値や分布も確認したい。幸い2022年就業構造基本調査では所得層での分布のデータを取得できる。さらに、性別、配偶、所得のデータのほか、学歴(あるいは現在の教育状況)、年齢、職業上の地位に分けても取得可能である。
細分化しすぎると信頼性も下がるので、まず今回は、就業上の地位と学歴には着目しない。要するに、博士号を持った経営者でも、所得が低ければ「弱者」とみなす。ほかにも細かい突込みはあるが、それはデータを見ながら確認しよう。

まずは、性別/配偶有無別の全体像を確認しよう。ユニバースは15歳以上全有業者のうち所得が判明している、計64,886千人である。049で、50~54歳についてのみ類似のデータを出したが、まずは全年齢で。
まず実数については図1で、未婚よりその他のほうが男女ともに多い。そのためか、その他女性は低所得層に大幅な偏りがあるが、高所得層の数も、結局未婚女性より多い。男性側も、なんやかんや低所得その他男性は、未婚男性の数より多い。

図1:性別配偶関係別所得分布(2022年・全数は「所得データあり有業者」)
(出所:就業構造基本調査)

図2は図1を構成比に直したものだ。分布の山としては、その他女性のそれは未婚女性のそれより左側(低所得層側)に位置するが、600万円台から右側に位置する割合は対して変わらない。上記の「高所得層の数も、結局未婚女性より多い」が結果的にこのような現れになっている。一方男性は、構成比ベースでは、400万円台を境に、それ以下では未婚の方が、それ以上ではその他のほうが多いという、きれいなクロス型になっている。

図2:性別配偶関係別所得分布の構成比(2022年・母集団は「所得データあり有業者」)
(出所:就業構造基本調査)

最後に、中央値、平均値を含めた具体的な数字を挙げたのが表1になる。図1、2は、表1をグラフに倒したものと思ってよい。
各値を見ると、中央値、平均値ともに、その他男性>未婚男性>未婚女性>その他女性、ときれいに並んだ。未婚同士で比べるなら、女性の方が所得の意味で「弱者」と言える。

表1:性別配偶関係別所得分布(2022年)
(出所:就業構造基本調査)

以上を、まずはベンチマークとしよう。ただ、これからまだ作業がいくつか必要になる。

無職と学生

さて、上記のユニバースは、就業構造基本調査での、「全有業者のうち所得が判明している者」である。つまり、無業ないし所得が不明の者は含まれていない(ついでにいうと、性別が不明の者も含まれていると思われるが、確認の限りそのズレはないようだ。また配偶関係不明の者は、「その他」の方に含まれる)。
ただ今回は、低所得層を定義する、つまり無職の人間も含めて考慮することが重要となる(無職は「弱者」の大きな構成要素となると考えられる)。一方で、就業構造基本調査には無業者データがない。無業も含めた就業状態と性別と配偶関係のデータを取得できるのは、国勢調査しかない。詳細は補足に述べるが、今回は無職=所得0とみなし、前段のユニバースを補正する。

また合わせて、就業者、無業者から在学者のデータを抜く。在学者兼就業者の殆どは、いわゆる学生バイトで所得が低い≒分布全体を左に歪めると考えられること、そして学生バイトの所得が低いのは労働環境や能力というよりは、単に本業が学業だからだ。社会人学生も増えており、一様に削除するのもやや気が引けるが、大宗に影響はないとみなした(図3)。

図3:在学者、就業者の構成割合(2020年)
(出所:国勢調査)

無業者についても、学生を加えると「バイトしてない高校生」等がユニバースに入り、無業者が過大になること、「学生だったら弱者男性/女性じゃないってことにしてあげようよ」という著者の温情から、そもそものユニバースから抜くことにした。
まとめると、前段のユニバースから、無業者を加え、学生を抜くという処理を施すことにする。

これらの処理を施したのが、図4~5になる。見たとおり、無職が圧倒的に多い。実数で見るとわかりにくいが、構成比的には、未婚女性のほうが、未婚男性より山が左側にあることが確認できる。この辺は、055など、「男女賃金格差の謎」でも触れたとおり。

図4:性別配偶関係別所得分布の実数(2022年)
(全数は「所得データあり有業者+無職ー学生」)
(出所:就業構造基本調査、国勢調査)
図5:性別配偶関係別所得分布の構成比(2022年)
(母集団は「所得データあり有業者+無職ー学生」)
(出所:就業構造基本調査)

まとめ

今回は、男女の所得分布について、性別配偶関係別に、所得額の分布を見た。また、有業者だけでなく無職についても確認した。
全く本論に入れていないが、当然この分布も分析の母集団とすることはできない。無職が多いのは、このデータに高齢者が含まれているからだ。というわけで、次回は年齢をさらに考慮して、データをブラッシュアップしていく。冗長な展開になっているが、これくらい丁寧にやらないと、自分が混乱するので許してほしい。

補足、データの作り方など

今回のデータは、就業構造基本調査国勢調査。珍しく補足が長いが、ユニバースがセンシティブであることの表れと思ってほしい。前提として、就業構造基本調査は就業者のみがそもそも対象だし、国勢調査も労働力状況を調査したものであるため、対象は15歳以上である。

無業者データの作成法

無業者のデータは、2020年の国勢調査と2022年の就業構造基本調査のデータを組み合わせ、下記の通り作成した。

まず、国勢調査には15歳以上の労働状況について、就業人口、完全失業人口、非労働力人口(主婦や学生)、そして労働状況不詳の(性別年齢別配偶関係別の)データが存在している。就業構造基本調査の母集団は就業人口である。ここでは、就業者数は就業構造基本調査を真とし、そこに2020年の国勢調査の無業者比率を掛けている(性別年齢別配偶関係別に算出した)。

ここで問題になるのは、国勢調査の「労働状況不詳」の存在で、実は全体で10%以上存在する。実際、2020年国勢調査での就業人口は5700万人、就業構造基本調査では6700万人と、実に1000万人もの差があり、それは多分にこの不詳の影響が大きいと考えられる。
国勢調査はコロナ禍で、実際就業人口がかなり減少していた可能性もあるが、別途労働力調査で確認しても就業者数は6700万人前後で、コロナ禍のめちゃくちゃな減少は確認できなかった。推計的には、国勢調査の就業人口を真としても良かったが、就業構造基本調査を真としているのはこのような理由である。

さて、ではこの不詳をどのように扱うかだが、迷った結果、学生をそもそも母集団に含めない観点から、国勢調査の無業者比率を以下のように算出することにした。

$$無業者比率 = \frac{完全失業人口 + 学生除く非労働力人口}{就業人口 + 不詳}$$

つまり、不詳を実質的に就業者とみなした。これは、不詳人口が、国勢調査と就業構造基本調査の就業者数の差と概ね合致すること、不詳割合が、働き盛りである20代~40代で特に高いことから、少なくとも何らかの形で就労している可能性があると判断したためだ。

なお、「学生除く非労働力人口」は、「非労働力人口」から「通学」を差し引いたものである。国勢調査の調査票では、「9月24~30日の間に仕事をしましたか」という質問になっており、回答は「主に仕事」や「少しも仕事をしていない」からまず選び、「少しを仕事をしていない」の場合に「通学」「家事」などを選ぶ形となっている。2020年9月24日~30日は、シルバーウィーク期間ではあるものの、特に祝日等はかぶらず平日5日、土日2日なので、学生なら「通学」が最も多くなるはずである。
実際のところ、例えば大学生なら夏季休暇が継続している場合もあり、「当該期間に通学が主であったか」を学生かどうかの基準にするのはかなり甘い(狭い)基準である。国勢調査には「在学か否か」というデータもあるので、直接的にはそれを引用したいのだが、性別×配偶関係別×年齢別×在学か否か×労働状況別のデータが、国勢調査からは得られなかった。配偶関係別をオミットしたクロスデータは得られたが、今回配偶関係は、在学か否かより重要な項目だし、在学していれば未婚である、というようなわかりやすい関係は、実際のところあまりない(図6)。

図6:卒業/在学別既婚その他の割合(2022年・全数は就業者)
(出所:就業構造基本調査)

今回は、基準が狭いことを前提に、通学しているか否かを、学生か否かの基準とした。ちなみに甘くしたためか、35歳以下の無職男性において、「総計より未婚者の数が多い」=「その他の数がマイナス」の自体が発生した。これは、総計(未婚者)の無業者比率が低すぎる(高すぎる)ことが原因で、理由の一つは多分この学生の扱いだが、補正もやりようがないので、マイナスの場合は0と扱った。

就業構造基本調査の配偶関係データ

配偶関係の仕分けで、既婚/未婚ではなくその他/未婚としたのは、元データがそういう区分でしか取れないからである。その他は正確には既婚+離死別である。特に女性の出産経験でいえば、離死別は、出産経験がある可能性を全く否定しないから、その他/未婚の区分で十分であろう。

不明データの取扱い

無業者データでも言及したが、就業構造基本調査では、不詳データが存在する(あるいは推計上の誤差?)ため、「部分の和が総計と合致しない(少ない)」ということが今回のテーマでは頻発する。これまではちゃんと書いてなかったかもしれないが、備忘も兼ねてちょっと丁寧に説明しておく。
そもそも今回の調査での不詳データが発生するのは、所得、性別、配偶、学歴(在学)、年齢、そして「そもそも有業か(就業構造基本調査に入っているか)」の6つ。年齢は今回扱っていないが、それ以外については今回細分化した(部分に分けた)上で、各部分の合算を総計としている。それぞれの部分と総計の差の存在と扱いは下記の通り。

①「そもそも有業か」:「無業者データの作成法」に記載のとおり。
②所得:所得が判明しているデータのみ使用した。所得不明の者は、(各所得ごとの和は、総計と全セグメントで合致しない)
③性別:男と女で取得したが、性別ごとの和が、総計と合致しないセグメントがある。
④配偶関係:「その他」について、「総計 - 未婚」で算出しているので、部分と総計が全セグメントで合致する。
⑤学歴:「卒業者」という単一カテゴリからデータを引っ張ったので、部分と総計のズレは発生しない(なお、就業構造基本調査のデータ的に、卒業者の内訳と卒業者の総数は当然のごとく合致しない)。
⑥年齢:今回は全年齢総計のデータを使用したので、部分と総計のズレはない。ただし、年齢別に分けた場合、年齢別データの和と総計の値は合致していない。

まあ、就業構造基本調査の部分と総計のズレはそこまで極端なものではないので、全体の議論への影響はないだろう。次回以降は年齢別のデータになるので、今回のデータとはずれることだけ、留意してほしい。

国勢調査以外の無業者データ

労働状況に関するデータは、国勢調査以外にも複数ある。代表的なのは、毎月勤労統計調査と労働力調査がメジャーだが、毎月勤労統計調査には、無職のデータがそもそもない。労働力調査は無職のデータがあるが、世帯主との関係に基づくデータしかなく、二世帯同居等の場合の配偶関係のデータが正確に取得できない。データ頻度の点で国勢調査より優れているし、先述の通り数字も正しそうな感じなのだが、年齢も取得できず、国勢調査から補正をしたほうが、今回の調査には適切と考えられる。

この記事が気に入ったらサポートをしてみませんか?