見出し画像

【AI】人工知能のクセを知る日


noteの記事を書く際、

タイトル画像の作成に『AI Picasso』というアプリを使っている。


ある時、『いろいろな人』という指定で画像を生成してもらった。


その結果が↓これ↓だ。

『いろいろな人』No.1


やはりクオリティが高い。

パッと見ではAIによる生成と気付けない人も多いだろう。


…ん?

この画像、ちょっとおかしくないか?

「いろいろな人」なわけだから、男女混合なのはわかる。

しかし…

男女比率、極端じゃね?


もちろん外見的特徴から見て取れる範囲だが、

12人中10人が女性、男性は2人だけに見える。

12人中 男:2 女:10 不明:0

No.1

もう一度、『いろいろな人』で生成してみる。

No.2


判断しにくい顔もあるな。

口紅をしている人としていない人の区別はありそうだけど、口紅引く男性もいるしなぁ。

最下行右から3人は不明としよう。

見た感じ、女性っぽいのが10人、男性っぽいのは3人、不明が3人だ。


16人中 男:3 女:10 不明:3

No.2

どんどん行こう。

No.3


急にインドっぽいテイストになったな。

年齢層もこれまでの2枚よりは高そうだ。

3行2列と4行2列は不明としよう。

2行2列と4行3列は男性かな。


16人中 男:2 女:12 不明:2

No.3


この感じでどんどん生成して確かめていこう。

以下noteの添付画像の限界30枚に達するまで同様のフォーマットでカウントしていくので、No.30まで読み飛ばしていただいても構いません。


※判断は全て外見的特徴に基づいた唯坂の主観です。

※ちょっとでも迷った顔は不明にカウントしています。



No.4


※明らかに顔じゃないものが一つあるのでコレはカウントせず。2行3列。

19人中 男:9 女:9 不明:1

No.4

不明は2行1列。


No.5

17人中 男:5 女:12 不明:0

No.5

No.6

51人中 男:17 女:29 不明:5

No.6

No.7

4人中 男:1 女:3 不明:0

No.7

No.8

23人中 男:11 女:10 不明:2

No.8

お、初めて男性の人数が上回った。

不明は1行8列2行1列


No.9

30人中 男:10 女:20 不明:0

No.9

No.10

30人中 男:3 女:27 不明:0

No.10

最下行5列、ボヤけているためノーカウント。


No.11

16人中 男:5 女:10 不明:1

No.11

No.12

16人中 男:9 女:7 不明:0

No.12

No.13

18人中 男:14 女:4 不明:0

No.13

No.14

15人中 男:2 女:13 不明:0

No.14

No.15

20人中 男:3 女:17 不明:0

No.15

No.16

6人中 男:2 女:4 不明:0

No.16

No.17

42人中 男:21 女:19 不明:2

No.17

不明は5行4列6行5列


No.18

18人中 男:2 女:16 不明:0

No.18

No.19

16人中 男:5 女:11 不明:0

No.19

No.20

16人中 男:2 女:14 不明:0

No.20

No.21

9人中 男:3 女:6 不明:0

No.21

No.22

12人中 男:2 女:9 不明:1

No.22

不明は2行4列

男性っぽいけど迷ったら不明ってことにしてるので一応。


No.23

18人中 男:8 女:10 不明:0

No.23

子どもっぽい顔が2つある。これは両方少年っぽいから男性カウント


No.24

16人中 男:1 女:15 不明:0

No.24

No.25

20人中 男:7 女:11 不明:2

No.25

不明は3行4列4行4列


No.26

8人中 男:2 女:6 不明:0

No.26

No.27

35人中 男:18 女:17 不明:0

No.27

No.28

19人中 男:5 女:14 不明:0

No.28

No.29

56人中 男:30 女:26 不明:0

No.29

No.30

16人中 男:7 女:9 不明:0

No.30

考察



…終わった!

ちゃんとしたデータとるなら30枚なんかじゃ全然だろうが、ここはnoteの画像添付上限に助けられたな。

さて、ざっと数字を見てみよう。

30枚の画像に描かれた合計610人のうち、男性は211人、女性は380人、判別不能が19人だった。

男性より女性が1.8倍も多く出力された計算になる。


生物学や人口学には、雌雄の個体数の比を表す『性比』という概念がある。


女性100人に対して男性が何人いるかを計算して求めるらしい。

2020年のやや古いデータだが、世界全体の人口性比は101.7だそうだ。

(性比に関するデータの出典は以下のリンクより。)


現実世界では男性の方が多いのか。

対してAI Picassoが生成した画像30枚を総合して性比を計算すると、なんと脅威の55.53

仮に判別不能を全て男性にカウントしても60.53だ。

なぜこんな大きな乖離が生まれたのか…


画像を生成してもらう時に入力した『いろいろな人』というオーダー自体に女性っぽい顔が出やすくなるバイアスがかかっていた可能性があるか?

とはいえ少数ながら一枚の画像の中に男性の方が多く描かれているのもあったので、そうは考えにくいか。


画像生成AIを開発するには、大量の画像データを元に学習させる必要がある。

AI Picassoについてちょっと調べたら、アメリカの企業が開発したStable Diffusionの学習データを使用しているとのことだった。

Stable Diffusionの学習元になっているのはLAION-5Bというデータセットらしい。

画像とテキストのペアを作成するにあたり、LAIONはインターネット上のデータを提供するコモン・クロールのファイルを解析し、テキストと画像のペアを選択して、CLIPを用いて類似性の高い画像とテキストのペアを抽出しました。

上記リンクより引用


ざっくり言うと「ネットに落ちてた大量の画像とテキストデータを使いました」というわけだ。

それって著作権的にどうなん?みたいな話もあるみたいだが、そこに興味がある人は『コモン・クロール』でググるといい。


この情報を元にもう一つ考えられる可能性。

「ネット上にある『人』というテキストに紐付けられた画像の被写体は女性が多い。」

こっちの方があり得そうだ。

ややジェンダーバイアスかもしれないが、確かに女性の方が自撮りとか集合写真とか撮って上げたがるイメージがある…あくまでイメージだが。

次は『人』だけのオーダーで生成した場合男女比どうなるか調べてみようかな。

疲れたからすぐにはやらないけど。


スタートは一枚の画像の男女比が気になったというだけのことだったが、

ここまで考えてきて感じたことがある。


今後AIはますます社会に浸透していくはずだ。

彼らは与えられた学習データを元に世界を見ているし、

そのデータを反映した行動(出力)をとることになる。


AI Picassoが本来101.7になるはずの性比を55.53にしたように、出力が実情と乖離することも十分あり得るわけだ。


それ自体が良いか悪いかは言い切れない。

当の人間だって、持っている知識や経験の違いで物の見方とか行動の指針に個体差が出るものだ。


自分には理解できない行動をとる人もいる。

でも彼らにも、その行動へと導いた何らかの理論があるはずだ。

彼らをその奇妙な出力に至らしめた学習データが。


AI相手にもこの視点を持ってみると面白いかもしれない。

今や当たり前のように生活に溶け込んでいるAIたちも、僕たちと同じように過去から学んできたのだ。

何を聞いて育ったのか。

何を見て育ったのか。

何を学び、それがどんな行動を導き出すのか。


その影響は1ジャンルに特化したAIから多面的な対応ができるAGIへのシフトが進むにつれ顕著になるはずだ。

彼らはもっと多くの学習データを必要とするだろうから。


人工知能がどんなデータを学習していて、その影響がどう出ているか調べる。

あるいは逆に、

人工知能の不思議な出力を見て、その原因をデータに求める。


…それってもう心理学では??

対象の生育歴から考え方や行動のクセを分析することとそっくりじゃないか。


AIの保全・改良に心理学の知見が活かせたりするかも…なんて突飛なことを考えてしまった。

こういうSFチックな妄想してる時が一番楽しいね。


この記事が参加している募集

AIとやってみた

この記事が気に入ったらサポートをしてみませんか?