【データ分析】つくば市の産業別就業者の男女での割合の比較

こんにちは。つくばに住む研究者です。
今回は前回の続きとして、つくば市の産業別の就業者数の割合について、男女別にグラフを作り、県や全国との様子と比較してみます。

前回はこんな感じのグラフを作りましたが、男女別に見てみると就業者割合はどのくらい違うのでしょうか?

産業別の就業者の割合の比較(前回から再掲)

コードは前回のものと殆ど同じです。データの取り込みまでのところは割愛します。

df_new_m = pd.DataFrame(columns=occupation_type)
df_new_m.insert(0, '都市名', None)
df_new_f = pd.DataFrame(columns=occupation_type)
df_new_f.insert(0, '都市名', None)

df_iba_m = df_iba[df_iba['男女'] == '1_男']
df_iba_f = df_iba[df_iba['男女'] == '2_女']

#全ての都市について、新しいDFに必要な情報をコピー
for i, cities in enumerate(df_iba_m['地域名'].unique()):
  df_new_m.loc[i,'都市名'] = cities
  df_new_m.loc[i,'0_総数'] = int(df_iba_m[(df_iba_m['地域名']==cities)&(df_iba_m['産業'] == '0_総数')]['総数'])
  for j in occupation_type[1:]:
    try:
      df_new_m.loc[i,j] = int(df_iba_m[(df_iba_m['地域名']==cities)&(df_iba_m['産業'] == j)]['総数'])
    except ValueError:
      df_new_m.loc[i,j] = 0

#全ての都市について、新しいDFに必要な情報をコピー
for i, cities in enumerate(df_iba_f['地域名'].unique()):
  df_new_f.loc[i,'都市名'] = cities
  df_new_f.loc[i,'0_総数'] = int(df_iba_f[(df_iba_f['地域名']==cities)&(df_iba_f['産業'] == '0_総数')]['総数'])
  for j in occupation_type[1:]:
    try:
      df_new_f.loc[i,j] = int(df_iba_f[(df_iba_f['地域名']==cities)&(df_iba_f['産業'] == j)]['総数'])
    except ValueError:
      df_new_f.loc[i,j] = 0

df_new_m[df_new_m.columns[1:]] = df_new_m[df_new_m.columns[1:]].astype('int')
df_new_m[df_new_m.columns[2:]] = df_new_m[df_new_m.columns[2:]].divide(df_new_m.max(axis=1),axis=0)
df_new_m = df_new_m.set_index('都市名')

df_new_f[df_new_f.columns[1:]] = df_new_f[df_new_f.columns[1:]].astype('int')
df_new_f[df_new_f.columns[2:]] = df_new_f[df_new_f.columns[2:]].divide(df_new_f.max(axis=1),axis=0)
df_new_f = df_new_f.set_index('都市名')

今回は前回のコードをそのまま流用しているので、男性のデータをまとめたデータフレームと女性のデータをまとめたデータフレームを別々に作りましたが、一緒に取り扱う方がスマートですね。
まずは全国の産業別就業者の割合について男女別に見てみます。

産業別の就業者の割合の男女の比較(全国)

青線が男性、赤線が女性です。どうやら男女で就業している産業は相当に違うようです。男性は製造業で、女性は特に医療・福祉の分野で働く割合が多いようですね。この構造は茨城県やつくば市という単位でどう変化するのか見てみます。まずは全国と茨城県の様子を比べてみましょう。

fig = plt.figure(figsize=(16,8),dpi=100)
ax = fig.gca()
plt.rcParams["font.size"] = 12
plt.xticks(rotation=90)
ax.set_xticks([*range(0,df_new_m.shape[1]-1)]) 
ax.set_xticklabels(df_new_m.columns[1:])
ax.set_ylabel('産業別の就業者の割合')

plt.plot(range(0,df_new_m.shape[1]-1),df_new_m.iloc[0][df_new_m.columns[1:]],label=df_new_m.index[0],linestyle='dotted',color='cornflowerblue',marker='o')
plt.plot(range(0,df_new_m.shape[1]-1),df_new_m.iloc[1][df_new_m.columns[1:]],label=df_new_m.index[1],linestyle='dashed',color='blue',marker='s')
plt.plot(range(0,df_new_f.shape[1]-1),df_new_f.iloc[0][df_new_f.columns[1:]],label=df_new_f.index[0],linestyle='dotted',color='tomato',marker='o')
plt.plot(range(0,df_new_f.shape[1]-1),df_new_f.iloc[1][df_new_f.columns[1:]],label=df_new_f.index[1],linestyle='dashed',color='red',marker='s')

ax.legend()
ax.grid()
plt.show()
産業別の就業者の割合の男女の比較(全国+茨城県)

全国と茨城県の就業者の産業別の割合はかなり似ていると言えそうです。製造業の割合が男女ともに全国よりも高いようです。次につくば市と全国の様子を比べてみます。

fig = plt.figure(figsize=(16,8),dpi=100)
ax = fig.gca()
plt.rcParams["font.size"] = 12
plt.xticks(rotation=90)
ax.set_xticks([*range(0,df_new_m.shape[1]-1)]) 
ax.set_xticklabels(df_new_m.columns[1:])
ax.set_ylabel('産業別の就業者の割合')

plt.plot(range(0,df_new_m.shape[1]-1),df_new_m.iloc[0][df_new_m.columns[1:]],label=df_new_m.index[0],linestyle='dotted',color='cornflowerblue',marker='o')
plt.plot(range(0,df_new_m.shape[1]-1),df_new_m.iloc[17][df_new_m.columns[1:]],label=df_new_m.index[17],color='darkblue',marker='x')
plt.plot(range(0,df_new_f.shape[1]-1),df_new_f.iloc[0][df_new_f.columns[1:]],label=df_new_f.index[0],linestyle='dotted',color='tomato',marker='o')
plt.plot(range(0,df_new_f.shape[1]-1),df_new_f.iloc[17][df_new_f.columns[1:]],label=df_new_f.index[17],color='darkred',marker='x')


ax.legend()
ax.grid()
plt.show()
産業別の就業者の割合の男女の比較(全国+つくば市)

茨城県前提では製造業の割合は全国のそれよりも高いですが、つくば市では製造業の割合は低いようです。前回も見たように、学術研究や教育の分野では男女ともに、全国と比較してかなり割合が高いことがわかります。学術研究の分野の就業者割合が全国の自治体の中でどのくらいの偏りなのか、偏差値にして数字として確認します。

# 偏差値(男性)
dfx = pd.read_excel(dir_path+'/c05_03a.xlsx')

df = dfx[~dfx['地域名'].str.contains('.*旧:*')]
df = df[~df['2020年_都道府県'].str.contains('00_全国')]
df = df[df['男女'].str.contains('1_男')]
df = df[(df['産業'].str.contains('L_学術研究,専門・技術サービス業'))|(df['産業'].str.contains('0_総数'))]
df = df[df['地域識別コード']!='a']
df = df[df['地域識別コード']!='1']
df = df[df['総数'] != '-']
df['総数'] = df['総数'].astype('int')
df['L割合'] = 0.0

for index, row in df.iterrows():
  if row['産業'] == 'L_学術研究,専門・技術サービス業':
    # print(float(row['総数']) / float(df[(df['地域名']==row['地域名'])&(df['産業'].str.contains('0_総数'))]['総数']))
    df.loc[index, 'L割合'] = float(row['総数']) / float(df[(df['地域名']==row['地域名'])&(df['産業'].str.contains('0_総数'))]['総数'])
    # row['L割合']

df = df[df['産業'].str.contains('L_学術研究,専門・技術サービス業')]

df['L偏差値'] = 0.0
df['L偏差値'] = df['L割合'].map(lambda x: round((x - df['L割合'].mean()) / df['L割合'].std(ddof=0) * 10 + 50)).astype(int)

ヒストグラムを見てみます。

ax = df['L偏差値'].hist(bins=40,range=[0,125],color = "blue")
ax.set_title('学術研究,専門・技術サービス業に就く労働者割合の偏差値(男性)')
ax.set_xlabel("偏差値")
ax.set_ylabel("自治体数")
学術研究分野の就業者数の偏差(男性)

偏差値が高い順に自治体を確認してみると、男性について学術研究分野での就業者数の割合はおよそ15.9%で偏差値122となり、全国4位であるようです。1位の東海村は原子力関連の研究所があることで有名ですね。

次に、女性についても確認してみます。

# 偏差値(女性)
dfx = pd.read_excel(dir_path+'/c05_03a.xlsx')

df = dfx[~dfx['地域名'].str.contains('.*旧:*')]
df = df[~df['2020年_都道府県'].str.contains('00_全国')]
df = df[df['男女'].str.contains('2_女')]
df = df[(df['産業'].str.contains('L_学術研究,専門・技術サービス業'))|(df['産業'].str.contains('0_総数'))]
df = df[df['地域識別コード']!='a']
df = df[df['地域識別コード']!='1']
df = df[df['総数'] != '-']
df['総数'] = df['総数'].astype('int')
df['L割合'] = 0.0

for index, row in df.iterrows():
  if row['産業'] == 'L_学術研究,専門・技術サービス業':
    # print(float(row['総数']) / float(df[(df['地域名']==row['地域名'])&(df['産業'].str.contains('0_総数'))]['総数']))
    df.loc[index, 'L割合'] = float(row['総数']) / float(df[(df['地域名']==row['地域名'])&(df['産業'].str.contains('0_総数'))]['総数'])
    # row['L割合']

df = df[df['産業'].str.contains('L_学術研究,専門・技術サービス業')]

df['L偏差値'] = 0.0
df['L偏差値'] = df['L割合'].map(lambda x: round((x - df['L割合'].mean()) / df['L割合'].std(ddof=0) * 10 + 50)).astype(int)
x = df['L偏差値'].hist(bins=40,range=[0,125],color = "red")
ax.set_title('学術研究,専門・技術サービス業に就く労働者割合の偏差値(女性)')
ax.set_xlabel("偏差値")
ax.set_ylabel("自治体数")
学術研究分野の就業者数の偏差(女性)

女性については、学術研究分野での就業者数の割合は約11.1%で偏差値は122となり、全国1位でした。2位〜5位は東京都の港区、渋谷区、千代田区、中央区です。総数としても多く、女性の研究者の多くは東京都の中心部で働いているようです。

つくば市は男性女性ともに研究分野での就業者の割合は高く、特に女性については全国1位の割合であることがわかりました。次回は教育関連のデータかについて、見てみたいと思います。

それでは。


この記事が気に入ったらサポートをしてみませんか?