見出し画像

[趣味研究][R18]男の娘とショタの扱われ方#2:LDA


注意

分析対象としてアダルトサイトを選んでいることから、本記事には過激な性的表現が含まれているので、未成年の方や、そうした表現が苦手な方は閲覧を控えてください。ご了承いただける方のみスクロールして本記事をお読みください。

*なお本来であれば自主的にR18指定をかけたいのですが、noteにはその機能がなく、公式からR18と指定されるのを待つしかないようです。



















前回記事

前回まで

このnoteでは男の娘とショタの扱われ方の違いを見ることを目的としています。それで、前回は男の娘とショタ作品につけられているタグのランキングを見て終わりました。これはデータ分析というには少しお粗末なので、今回はタグのグルーピングをして、より両者の差が分かりやすくなるようにしたいと思います。

*重大な問題として、DLsiteさんがタグの表記を変更すると発表しました。今のうちにデータを取得する+再現性がなくなってしまかもしれない という二つの問題を抱えることになりました。

LDAの説明

・概説
今回は、LDAという手法を使って分析していきたいと思います。LDAはトピックモデルというDeep Learningが流行る前の時代によく使われていた分析手法の一つで、基本的にはデータを概観するための手段として使われます。そのため、その結果自体を研究成果と言い張ることは余程の定性分析の含蓄がないと難しいのかなと思っています。LLMやDeep Learningと違って割と気軽にできるので、さっと分析するときに使うイメージです。僕はLLMもDeep Learningも使ったことがないのでよくわかりませんが。

LDAの仕組み

自分も数理的にはしっかり理解できていませんが、概ね以下のような単語生成モデルをベースとした分類方法です(毎回ベイズが出てきて分からなくる)。

  1. 文書の生成プロセス: LDAでは、文書が複数のトピックから生成されると仮定されます。具体的には、ある文書が複数のトピックにわたる確率分布を持ち、それに基づいて単語が生成されると考えられます。こうすることで、文書内の単語の出現パターンを説明することができます。

  2. トピックの生成プロセス: 各トピックは、単語の確率分布として表現されます。したがって、あるトピックが特定の単語を生成する確率が高いと、そのトピックが文書内で言及される可能性も高くなります。トピックは文書間で共有され、文書内の単語の出現に影響を与えます。

このモデルの逆をたどることで、トピックを推定します。つまり、モデルはトピックから単語が生まれるという発想でしたが、実際は、この単語があるということはこのトピックか?といった感じです

例えば

文書: スポーツニュース

トピック1: バスケットボール

トピック2: サッカー

トピック3: 野球

トピック4: テニス

文書生成プロセス:

  1. このニュース記事は複数のトピックから構成されています。

  2. バスケットボールに関する情報がトピック1から生成され、サッカーに関する情報がトピック2から生成される可能性があります。

トピックの生成プロセス:

  1. トピック1(バスケットボール)は、"スラムダンク"や"シュート"などの単語の確率分布として表現されます。したがって、これらの単語はバスケットボールに関連するトピックと関連付けられます。

  2. トピック2(サッカー)は、"ゴール"や"キック"などの単語の確率分布を持ちます。このため、これらの単語はサッカーに関連するトピックと関連付けられます。

  3. 同様に、トピック3(野球)やトピック4(テニス)もそれぞれの特定の単語の確率分布を持ちます。ただ、"ボール"に関してはどのトピックにも存在する単語なのでどこから生成されたか推定するのは難しい


メソッド

今回はコードがかなり長いので省略します。前回取得したコードを使う方は以下の点に注意してください。

・前回、愚かにも作品のtagが見つからなかった場合、Noneではなく、[float("nan")]にしていたことに気づき欠損値の処理が面倒でした。

・ワードクラウドを使う際は、日本語は十中八九文字化けするので、以下の記事を参考にGithubからヒラギノ体をインストールして使いました。

・LDAの結果は毎回微妙に変わる


結果

トピックの特定

まずはLDAの結果をワードクラウドと、それぞれのトピックの上位5単語とその寄与率を見て、トピックにラベリングをしていきましょう。

全年齢 ショタ

全年齢 ショタ
全年齢 ショタ top5

トピック1:ギャグコメ
トピック2:健全・ほのぼの
トピック3:日常生活
トピック4:男の娘
トピック5:異性愛


全年齢 男の娘 

全年齢 男の娘 
全年齢 男の娘 top5

トピック1:(ラブ)コメディ
トピック2:属性
トピック3:かわいさ
トピック4:性別移行*
トピック5:日常

*同人誌の文脈での、tsは概ね「ジェンダーアイデンティティ―は男(女)のまま、身体が女(男)になる」という状態を指していることが多く、一般的なtranssexualの用法(https://jobrainbow.jp/magazine/transgid)とは異なっていると思います。また、ここでは一般には「性転換」という日本語が当てがわれることもありますが「性別移行」の方がよい表現だそうです。ジェンダー学については不勉強なところが多いので間違っていたら指摘をお願いします。


R18 ショタ

R18 ショタ
R18 ショタ top5

トピック1:逆レイプ・おねショタ
トピック2:母属性
トピック3:男同士
トピック4:プレイ内容(巨乳や中出し)
トピック5:ロリ

トピック2が微妙かなと思います。


R18 男の娘 

R18 男の娘 
R18 男の娘 とp5

トピック1:強制
トピック2:アナル
トピック3:純愛(らぶらぶ・あまあま)
トピック4:乱交
トピック5:性別移行(+男性受け)

*あとの祭りですが、女装が多すぎて結構影響与えてそうですね


トピックの比較

・ショタは竿役
R18ともにショタは異性に関するトピックがみられました。もちろん、全年齢向けではギャグコメトピックの中にボーイズラブがあり・R18では男同士トピックもありましたが、それ以上に逆レイプや女性を表す語(ロリ・人妻・母)が見られたと思います。

・男の娘は受け
一方で、男の娘には性別移行トピックが全年齢向け・R18についていました。これはより、女の子っぽい男を実際に女にする文脈、女の子になりたい男の娘が女になる文脈なのかは気になります。またR18では男性やフタナリに対して「受け」の役割を果たしている事が分かりますが、一方で全年齢向けでは異性愛のトピックもみられるのが意外でした。

・ショタと男の娘のオーバーラップ
R18男の娘のアナルトピックや全年齢の男の娘の属性トピックにショタが入っていたり、全年齢のショタに男の娘トピックがあったりとやはりそれなりにオーバーラップしているのかなと思います。

*R18でも男の娘のほうには純愛トピックがあったのは気になりますね。
 

トピック間の関係

次にトピック同士の近さを確認しましょう。あまり自身はないですが、各トピックは確率分布からなるベクトルになっているのでこうした近さの表現ができます。今回「近さ」はユークリッド距離で定義しました。(コサイン類似度とかでもいけるはず)。

異性愛のトピックが離れているのが特徴的ですね。これはおそらく、他のトピックはショタそのものを楽しむようなコンテンツで、異性愛のトピックは少年少女の異性愛や関係性を楽しむようなコンテンツなのかなと思います。

ここでも、男の娘自体を楽しむコンテンツか否かで属性のトピックが離れているのでしょうか?全体的な分布はショタのそれと似ているような気がします。tsがファンタジー同じグループになっているのは、上述のtsの説明から何となくわかります。

男同士トピックとロリトピックや母属性トピックから結構離れているのは直観にあいますね。プレイ内容トピックが男同士トピックに比較的近いのは寄与率の高い「中出し」が女にする場合と男にする場合両方あるからだと思います。そうすると逆レイプトピックと男同士トピックがプレイ内容トピックを中心に対称の位置にあるのもなんとなく理解できると思います。

まず、R18男の娘漫画において一番一般的なトピックだと思われるアナルトピックが、なぜか一番離れています。これは、おそらく全てのトピックのtop5に女装が含まれていることから、あまり分類の制度が良くないのだと思います。アナルトピックが基準で、他が離れてるって考え方かもしれません。一応、純愛トピックと強制トピックが離れていて、強制トピックは乱交トピックに近いのは、直観にあっています。

今後

時系列でのトレンドの分析や、商品紹介文をLDA以外に分析することなどを考えています。DLsiteさんのタグ名称変更は悲しいです。


この記事が気に入ったらサポートをしてみませんか?