見出し画像

女性向けAVと男性向けAVの違いを、AV研究者・Python初心者がテキストマイニングで分析する


まえがき

私の所属ゼミで、今学期はPythonを使ったテキストマイニングの実習が行われています。

『Pythonによるテキストマイニング入門』に書かれている内容を実践していく……という内容で、私が報告を担当することになったのは、5.3節「語の重要性とTF-IDF分析」と5.4節「KWICによる検索」
しかし、教科書に書いてあるとおりに、「問い」もなく青空文庫の小説を分析しても、正直言ってあまり面白くはありません。

そこで、自分の研究テーマである女性向けAVを対象にテキストマイニングするとどうなるか試してみました。
3週間前までコマンドプロンプトを開いたことさえなかった人間が分析するので粗は多いと思うのですが、想定よりはっきりと結果が出て楽しかったので、試運転の結果をnoteで発表しておこうというのが、本記事の目的です。


問題関心:男性向けAVと女性向けAVはどのような差異があるか?

先行研究では、「ポルノグラフィの提出する性的欲望は、つねに性的に興奮しなければならないという単調さ(同一性)に支えられてはじめて成立可能な多様性(差異性)」(赤川 1996: 147)をもつことが指摘されています。

言い換えれば、すべての出来事が性的興奮に向けて組織化されていることでストーリーは「お約束」に凝縮され、視聴者は登場人物のフェティッシュな特徴や、性交する2人の関係性、性行為がなされる場所などが与えられれば、線的な流れがなくとも物語を読み込むことができるということです。

たとえば、個室ビデオ店のフィールドワークを行った永井良和によれば、当時の個室ビデオ店には「『実用性』のないドラマ部分や女優のイメージシーンなどはスキップできる」ように「操作端末として早送りボタンのみがついてい」ました(永井 1992: 190)。
AVとは、「飛ばしながら観る」という不思議な視聴方法がとられる独特なメディアであり、内容上の特徴がそうさせているといえます。


しかし、以上の分析は、男性向けAVが持つ特徴であるにすぎません。

私が修論で分析した女性向けAVメーカー「SILK LABO」の作品では、「なぜセックスに至るのか」は、性交する2人の親密性、愛情、関係性によって説明されることが多いです。
しかもそれは、「お約束」「設定」に圧縮されるのではなく、物語的長さによって説得されます。そもそもプレイ内容は、たまにソフトSMなどもありますが、基本的にはどの作品を視聴しようとも、男性向けAVに比べれば大きな違いはありません。


仮説

こうした男性向けAVと女性向けAVの違いは、商品説明やあらすじにも現れているのではないか、というのがここでの仮説です。

男性向けAVのあらすじは,視聴者が膨大な量の作品の中から自分の嗜好に合ったものを即座に選択できるように,カテゴリを表す「巨乳」「レイプ」「女子校生」といった性的思考の語彙がそのままふんだんに使われているのではないか。
他方、女性向けAVのあらすじは、性行為の内容や出演者がもつフェティッシュな特徴などについての情報ではなく、ドラマのストーリーを伝えている、という差異があるのではないか。

以上が、私が2018年12月に提出した修士論文の、6章での分析の一部です。この分析を、テキストマイニングで量的に実証することを目的とします。


データ

今後の研究の試運転として、本記事ではアダルト動画販売サイト「FANZA」の「お気に入り数」トップ60作品の商品説明文を使用しました。

なぜ「人気」「売上本数」「評価」ではなく、「お気に入り数」なのか。

まず、FANZAの「人気」と「売上本数」は直近の期間内の「瞬間風速」のようなもので、セール商品が上位に来やすいという偏りを持ちます。
また「評価」は、Amazonぐらいレビューが集まれば信頼に足るかもしれませんが、FANZAは視聴回数に比べるとレビュー数がかなり少ないです。当該作品の商業的な成功とは一応切り離されたユーザーの主観的な評価だといえるでしょう。つまり、累積的な人気の指標としては消去法で「お気に入り数」が最も信頼できるといえます(くろがね 2016)。

ただし、新しい作品ほど「お気に入り数」が多いような気はしました。相対的に偏りが少ないだけであって、まったく偏りがないわけではありません。


2019年7月6日時点のランキングに従い、①男性向けAV、そして女性向けAVから2メーカー、②SILK LABOと、③GIRL’S CHからそれぞれ60作品、合計180作品選び、商品説明を分析にかけました。

「GIRL’S CH」は、修論では扱う余裕のなかった女性向けアダルト動画サイトです。SILK LABOと同様にソフト・オン・デマンドグループに所属。ソフト・オン・デマンドの「男性向け」作品を「女性向け」に編集して提供してもいるのですが、女性向けオリジナル動画も撮っており、FANZAでも販売されています。
SILK LABOと比べると「エロ」に寄っていて、男性向けAVとの中間的な特徴を有するのではないかと予想されます。


実践①:TF-IDF分析

分析手法は、教科書通りTF-IDF分析です。

TF-IDFとは、出現回数(Term Frequency)に、その語が出てくる文書の数のlog逆数(Inverse Document Frequency)を掛けたもの。
つまり、「事」「時」のようにどの文書でも頻繁に出てくる語は重要度が減らされたうえで、文書の特徴語を拾い上げているということですね。

なお、
TF(単語iの文書jにおける出現頻度)=単語tiの文書djにおける出現回数/文書djにおけるすべての単語の出現回数の和
IDF(単語iを含む文書の数の逆数のlog)=log(総文書数/単語tiを含む文書の数)
で計算されます(noteは数式に不向き……)。

ただし、この計算方法だと、まったく出現しない単語のTFおよび、すべての文書に出現する単語のIDFが0になってしまうという、問題点があります。
ゆえにPythonの機械学習パッケージライブラリscikit-learnでの定義では、別の計算方法でスムージングされています(山内 2017: 158)。


教科書では、青空文庫から夏目漱石の『吾輩は猫である』『三四郎』『こころ』のデータを引っ張ってきてTF-IDFを計算していますが、登場人物の名前のTF-IDF値が高くなるという結果で終わっています。あまりに当たり前ですね。

代わりに、男性向けAV、SILK LABO、GIRL’S CHの商品説明をデータに使用します。

# -*- coding: utf-8 -*-
# 人気のある男性向けAV、SILK LABO作品、GIRL’S CH作品説明の TF-IDF を計算する
## Aozora周りは不要だと思うが、1か所いじると訳が分からなくなったのでファイル名を変えただけ

import numpy as np
import pandas as pd
import MeCab
from aozora import Aozora
from sklearn.feature_extraction.text import TfidfVectorizer
#
aozoradir = "./"
m = MeCab.Tagger("-Owakati")  # MeCabで分かち書きにする
files = ['AV_for_men.txt', 'SILK_LABO.txt', 'GIRLS_CH.txt']
readtextlist = [Aozora(aozoradir + u) for u in files]     #この代わりにどういう処理をすべきかよくわからない
stringlist = ['\n'.join(u.read()) for u in readtextlist]
wakatilist = [m.parse(u).rstrip() for u in stringlist]
wakatilist = np.array(wakatilist)
# ベクトルの正規化(長さを1にする)をしない
vectorizer = TfidfVectorizer(use_idf=True, norm=None, \
                            token_pattern=u'(?u)\\b\\w+\\b')
tfidf = vectorizer.fit_transform(wakatilist)
tfidfpd = pd.DataFrame(tfidf.toarray())     # pandasのデータフレームに変換する
itemlist = sorted(vectorizer.vocabulary_.items(), key=lambda x:x[1])
tfidfpd.columns = [u[0] for u in itemlist]  # 欄の見出し(単語)を付ける
for u in tfidfpd.index:
  print(tfidfpd.T.sort_values(by=u, ascending=False).iloc[:50 ,u])
  # 行と列を転置したものを、それぞれの文書に対して降順にソートし、先頭50語を表示

教科書に書かれていたプログラムのファイル名を変えただけです。
Aozoraモジュールは「青空文庫」のデータ整形のためのものなので、ここで使う意味はないのですが……代わりにどう書けばいいのかわからず放置しています。まあ、(FANZAデータには存在しない)ルビや注釈を取り除いているだけで、悪さはしていないはずです。


この出力結果から、助詞などを除いて見やすくしたものが以下になります。それぞれ見ていきましょう。


男性向けAVのTF-IDF値

美少女  42.328680
超  23.178277
チン  22.010913
セックス  21.000000
中  21.000000
av  20.000000
彼女  19.000000
僕  18.624619
絶頂  18.624619
娘  18.624619
美  18.624619
女優  18.027549
男  17.000000
腰  16.931472
フェラ  16.931472
デビュー  16.931472
初  16.739867
生  16.739867
専属  15.452185
ステージ  15.238325   ※AVメーカー「プレステージ」
アイドル  14.164503

何がとは言いませんが……AV独特の語彙をうまく拾いきれていませんね。
MeCabの辞書をカスタマイズしたりすればいいのかもしれませんが、今後の課題です。

(芸能人)デビュー作は注目されがち(=「お気に入り」されがち)なので多めに拾われることになりました。FANZAでは7月11日現在、40万弱のタイトルが販売されており、60作品は上澄みにすぎないということを押さえておく必要があるでしょう。

「フェラ」は、以下を比較すればわかる通り、唯一プレイ内容を表す語彙です(GIRL’S CHの「マッサージ」は判断が微妙)。
「腰」もまた、「チン」を除けば唯一、身体パーツの語彙です。が、多くは「腰使い」として出てきている語なので、「くびれ」ならまだしも、胸・尻・脚 etc.に比べるとそんなにフェティシズム的な色はないかもしれません(「手コキ」が必ずしも手フェチを表さないのと同様)。


SILK LABOのTF-IDF値

人  41.000000
彼  27.041324
女性  27.000000
二  25.000000
自分  21.000000
作品  19.000000
face  16.931472     ※シリーズ「Face to face」
オムニバス  16.739867
一徹  16.739867    ※人気男優名
恋人  15.452185
恋  15.452185
ドラマ  14.000000
収録  13.000000
カレ  12.876821
メン  12.876821    ※「エロメン」:SILK LABO出演男優の呼び方
様々  12.876821
テーマ  11.852030


登場人物が「彼」「カレ」「恋人」であることが大きな特徴でしょう。

また、性行為に至るまで「ドラマ」的な長さをもつという特徴も拾えています。
「作品」(cf.商品)、「オムニバス」という語彙も「ドラマ」っぽさゆえかもしれません。男性向けAVでも複数女優による複数シーンの詰め合わせはありますが、なぜか「オムニバス」とは呼ばれない気がします。


GIRL’S CHのTF-IDF値

エッチ  38.630462
男子  32.192052
マッサージ  28.329006
人  25.000000
女性  21.000000
一徹  20.602913
悶絶  20.317766   ※「街角素人男子もっと悶絶マッサージ」シリーズ
中  19.000000
私  18.027549
翔太  16.931472   ※「北野翔太」
男  16.000000
素人  15.452185
捜査  15.238325   ※「囚われた捜査官」シリーズ
監督  14.164503
無料  13.545177
彼女  13.000000
こと  13.000000
北野  12.876821
撮影  12.876821
イケメン  12.876821
大学生  11.852030
街  11.852030
有馬  11.852030    ※「有馬芳彦」


60作品しか拾っていないので、特定の人気シリーズの語彙に引っ張られすぎている印象はあります。
しかしそれでも、SILK LABOが「恋」に関心を向ける一方、GIRL’S CHは「エッチ」に関心を向けるなど、かなり違う作風を感じます。
また、「イケメン」への言及は、男性向けAVでの「美少女」への言及とジェンダー対称的でしょう。

興味深いのは、SILK LABOが「自分」に関心がある(「自分の気持ちを伝えにくい」「新しい自分の発見」「自分を解き放った」etc.)のに対し、GIRL’S CHが「男子」すなわち他者に関心を向けている、という対比です。これは、映像を見ているだけでは気づけなかった、テキストマイニングの醍醐味でしょう。

「愛されるあなた」がガラスの向こう側に現れるとき、「私」の視線は「あなた」に注がれることになる。しかし、「あなた」を見つめようとすればするほど、「私」はぼんやりとガラスに映っている自分の姿を見つけてしまう。[…]愛とは、「あなた」を見つめるまなざしであり、性とは、「あなた」をみつめるときにガラスに映し出されてしまう「私」の姿を再認することである[…]。(赤川学 1999: 62)

この「愛」と「性」の分析を拙速に援用することが許されるならば、SILK LABOは「二人」「恋人」的な対の「愛」を謳いながら、実は「自分」にナルシスティックな視線を注がせる「性」の装置なのだ……ということができるかもしれません。ま、拙速ですね。


実践②:KWICによる検索

文書中の特徴語を拾い上げても、どのような文脈の中で語が使われているか確認しないと、誤った結論を導き出してしまう危険性があります。そんなときに便利なのが、KWIC検索です。

KWICとは、Keyword in contextの略。文書の検索結果を表示する際に、前後の語も同時に表示し、文脈の中で語の使用を捉えることができます。

Pythonでは、NLTKのConcordanceIndexクラスで簡単にできます。ただし、英語を前提としているので、日本語をMeCabで分かち書きする必要があります。


これも、男性向けAV、SILK LABO、GIRL’S CHのデータに使用してみましょう。

先ほど、SILK LABOについて「登場人物が『彼』『カレ』『恋人』であることが大きな特徴」だと書きました。しかし、男性向けAVも「彼女」という語のTF-IDF値が高いという結果が出ています。
両者の「彼女」「彼」の使い方を、元の文脈に戻って確認してみましょう。


# -*- coding: utf-8 -*-
# 男性向けAVのあらすじに使われる「彼女」をキーワードにした KWIC 検索プログラム例

from aozora import Aozora
import MeCab
import nltk
aozora = Aozora("AV_for_men.txt")
m = MeCab.Tagger("-Owakati -b65535")   # MeCabのインスタンス生成(分かち書き)
string = m.parse( '\n'.join(aozora.read()) )  # 分かち書きに変換する
text = nltk.Text( nltk.word_tokenize(string) )
            # NLTKでトークン化しTextのフォーマットに変換する
word = '彼女'                        # 検索語
c = nltk.text.ConcordanceIndex( text )
            # ConcordanceIndexクラスのインスタンス生成、入力textを指定
c.print_concordance(word, width=40)  # 検索語wordでKWIC形式を表示

】 いつも つるん で いる 僕 と 彼女 と 彼女 の 友人 で ある 梨 夏
つるん で いる 僕 と 彼女 と 彼女 の 友人 で ある 梨 夏 と 優衣
家族 旅行 に 行く と いう ので 彼女 と 3 日間 会わ ない こと に
会わ ない こと に なっ た 。 彼女 が 発っ た 日 、 忘れ物 を 取
のむ 完璧 な スタイル 。 そんな 彼女 と 限ら れ た 時間 の 中 で
し ちゃう 若い 冒険 心 満載 の 彼女 の 膣 奧 に おじさん が 中出
ージ に 降臨 ! ! 同棲 中 の 彼女 が 四 日間 、 家族 旅行 に 出
に 出かけ た 。 ひとり 寂しく 彼女 の 帰り を 待つ 僕 の 家 に
仕事 で 旅行 に 行け なかっ た 彼女 の 姉 ・ 紗 栄子 さん の 姿
僕 を 誘惑 し て き て … 。 彼女 が 家族 旅行 で 不在 の 四 日
に 自信 が 無い … 。 そんな 彼女 が 洋服 を 脱ぐ と 、 細い の
の を フェラ し て いる という 彼女 は 、 大 の チン ポ 好き !
濃厚 な セックス を 経験 し 、 彼女 は 新しい 快楽 に 溺れ て いく
なる ため に 専門 学校 へ 通う 彼女 の 男性 経験 は まだ 一 人 。
持っ て スタジオ へ と 訪れ た 彼女 に は 、 インタビュー 前 に セ
なお 復活 を 求める 声 が 多い 彼女 が 遂に 期待 に こたえ て くれ
! 天真爛漫 で 元気 いっぱい の 彼女 も 初 撮影 で 緊張 の あまり
な 人気 で 快 進撃 を 続ける 彼女 に 、 プレ ステージ から ただ
浮かれ た 男 たち は 次々 と 彼女 に 群がり 、 マ ○ コ を 奪い

見ればわかる通り、男性向けAVの「彼女」は代名詞(she)であることが多いようです。しかもgirlfriendを指している場合も、「彼女」ではなく「彼女の友達」「彼女の姉」との性交を行っています

他方、SILK LABOの説明文における「彼」は、

、 私 の ブラウス の ボタン に 彼 の 手 が ― 。 誰 か に 見
ヤツ 。 だけど ナオ は そんな 彼 に だんだん 惹か れ て … 。
本当 の 悦び が ここ に ― 。 彼 と の メイク ラブ で 、 自分
に し た オムニバス ドラマ 。 彼 の バースデー に 彼 を 可愛く
ドラマ 。 彼 の バースデー に 彼 を 可愛く 攻め て み たり 、
、 お 酒 の 勢い で 強引 に 彼 に 攻め られ たり … 。 今 ま
セフレ と 気 に なる 年下 の 彼 」 「 自分 に 好意 を 寄せる
でき た ところ で 、 不意 に 彼 に 抱きしめ られる 。 肌 が 触
へ と あなた を 誘い ます 。 彼 と の メイク ラブ で 自分 の
『 セックス の 技術 を 磨け ば 彼 は 私 の 虜 に なる 』 と 思
ガズム を 得る 方法 や 体位 、 彼 が 挿 れ たく なる オーラルテク
ニック など 、 もっと 感じる 、 彼 が 喜ぶ 女性 に なる ため の
だっ た のに … 嘘 みたい 、 彼 の 指 が 、 唇 が 、 私 の
の 悦び を 教え て くれる 。 彼 の 目 に は 私 の すべて が
日 < As it is > と 、 彼 の サプライズ による 一 泊 温泉

このように、ほとんどの場合が恋人である「彼」と性交を行う内容です。「彼女」「彼」というジェンダー対称的な語でも、文脈に戻るとかなり異なる使われ方がされていました。


もう1つ、男性向けAVとGIRL’S CHでどちらも上位に入っている「中」の使われている文脈を調べてみましょう。

※このパートは、とりわけ猥褻な内容を含むのでご注意ください。


男性向けAVの場合は、

な 彼女 と 限ら れ た 時間 の 中 で 精一杯 お互い を 求め 合う
ゃん 18 歳 は 、 おじさん に 中 出し を 頼ま れる と 断れ ない
じさん が 中出 しし まくる 超絶 中 出し ハメ 撮り 動画 ! モテ な
を 与え っぱなし ! インタビュー 中 は もちろん 、 フェラチオ 中 、
ー 中 は もちろん 、 フェラチオ 中 、 挿入 中 、 い つ いかなる
ちろん 、 フェラチオ 中 、 挿入 中 、 い つ いかなる とき も 乳頭
等 も 使っ て 文字通り 一 日 中 「 乳首 」 を こねくり 回さ れ
で ベロベロ 舐め 回し 、 耳 の 中 まで 舌 入れ ドリル ! チ ●
ま ● この 締め 付け で 絶対 中 出し フィニッシュ へ 誘う スケベ
応募 が あり まし た 。 その 中 から 2 名 を ピックアップ 。
と が 出来 た の です 。 連続 中 出し で 子宮 に 精子 が 溢れ
あい り 』 を 朝 から 晩 まで 中 出し 漬け ! 必要 な の は ヤ
を 味わい 、 ためらう こと なく 中 出 し フィニッシュ ! 皆 が 寝

一目瞭然ですが、男性向けAVの「中」は「中出し(膣内射精)」がひとまとまりの単語として拾えていないだけであることが多いようです(やはり辞書のカスタマイズが必要ですね)。

他方、GIRL’S CHの場合は、

クニック で 胸 も 陰部 も 身体 中 を ほぐさ れ スイッチ の 入っ
に 応じ て ついに は 生 で 、 中 で … ! テロ 対策 組織 の 秘
監督 と さし 飲み 。 盛り上がる 中 、 監督 が 女性 と 飲む 姿 も
リジナル 女性 向け AV 作品 の 中 で も 特に 女性 に 人気 の 男
マッサージ 」 。 過去 作品 の 中 で 、 人気 の 高かっ た 6 名
と 恋愛 し ませ ん か ? 同棲 中 の ある 休み の 1 日 。 眠い
過ごす ひと時 。 そんな 日常 の 中 に 詰まっ た 甘い 時間 を こっ
リジナル 女性 向け AV 作品 の 中 で も 特に 女性 に 人気 の 男
の イケメン 担当 さん と 内 見 中 に … マッサージ に き た お客
ちよく さ れ て … お 風呂 の 中 で いじら れ ちゃっ て … リビ
せ られ て … 夜 、 ベッド の 中 で 恥ずかしい こと 言わさ れ て
、 そして 限ら れ た 時間 の 中 で ふたり は また 、 求め 合う
全部 大好き で 、 遠距離 恋愛 中 の 彼女 が いる という こと を

このように、「中」が膣内射精を意味するのは1作品だけです。


実践③:TF-IDF値ベクトルによる文書間距離

最後に、男性向けAV、SILK LABO、GIRL’S CHの商品説明が互いにどれだけ似ているのか分析します。
このとき、TF-IDFのベクトルを比較したcos類似度を使用しました。

cos類似度とは何か。
ある文書に現れたn個の単語のTF-IDF値を並べたn次元のベクトルを考えてみましょう。2つの文書間の類似度は、2つのベクトルの距離として理解可能になります。
2つのベクトルの距離は、2つのベクトルが挟む角の大きさとして考えられます。ベクトルの挟む角は、内積を使って計算することができました。

ベクトル1と2の内積=ベクトル1の長さ×ベクトル2の長さ×cos(2つのベクトルの挟む角)

ベクトルの長さを1に正規化すれば、内積はcos(2つのベクトルの挟む角)に等しくなります。つまり、0≦cosθ≦1かつ、1に近づくほど2つの文書が類似していることになります。


Pythonでcos類似度を分析するときは、先ほどのTF-IDFの計算プログラムの「norm=None」を「norm='l2'」に書き換えてベクトルの長さを1に正規化するとともに、

for u, v in [(0, 1), (0, 2), (1, 2), (0, 0), (1, 1)]:
   x = (tfidfpd.iloc[u, :]).dot(tfidfpd.iloc[v, :])
   print(x)

を書き加えるだけです。

男性向けAVとSILK LABOの内積は、0.908
男性向けAVとGIRL’S CHの内積は、0.911
SILK LABOとGIRL’S CHの内積は、0.934

つまり、3グループでは中間的な特徴を有するのではないかと思われたGIRL’S CHは、男性向けAVよりもSILK LABOに近いテキストで説明されているということがわかります。


まとめ

単純に人気だけで60作品選んだ場合、「男性向けAVのあらすじは、視聴者が膨大な量の作品の中から自分の嗜好に合ったものを即座に選択できるように、フェティッシュな語彙がそのまま使われている」と言いきるには証拠が乏しい感じがしました。
これは、プレイ内容が「標準的」な、デビュー作や「単体モノ」を多く拾うことになったからではないかと思います。

他方、SILK_LABO作品において、性交に至る理由が2人の親密性や愛情をドラマ的長さで描いて説明されることは、テキストマイニングでも確認されました。
語の使われる文脈を確認すると、SILK LABO作品が男性向けAVに比べて恋人同士の性交を描く傾向があることがさらによくわかります。

しかし、同じ女性向けAVであっても、GIRL’S CHは「恋」より「エッチ」への言及が多いなど、SILK LABOとは異なる語彙で映像が説明されていました。
それでもcos類似度では、GIRL’S CHは男性向けAVよりSILK_LABOに近い文章で説明されていると分析されました。


ただし、テキストマイニングはあくまで「説明文」を、「統計的」に分析したにすぎません。映像をつぶさに確認していく作業は、依然として重要でしょう。むしろ私個人としては、研究はそういう細部にこそ神が宿ると信じています。

たとえば、現在FANZAでお気に入り数1位の『彼女が3日間家族旅行で家を空けるというので、彼女の友達と3日間ハメまくった記録(仮) 麻里梨夏 富田優衣』は、男性向けAVですが、いってみれば非常に「ドラマ」的な作品です。レビュー欄を見ても「まるで映画」といった感想が多い。
つまり、物語に力を入れるのは、SILK LABOなど女性向けAVの専売特許ではないし、それを評価するのも「女性」だけのセクシュアリティではないのです。


感想・今後の課題

私は社会学の博士課程1年目で、まだまだAV研究者として駆け出しですが、それでも学部3年からこのテーマを扱い始めて6年目になります。
しかし、Pythonに関しては触り始めて3週間のマジのペーペーなので、ほとんど何もわかんないような状態です。コードも難しそうに見えますが、結局、教科書の例のファイル名を書き換えただけなので。このあたり、詳しい方がいらっしゃればぜひコメントください。

とはいえ、軽く触ってみた感じとしては、問題の背景、先行研究、リサーチ・クエスチョン、他の研究への知見があれば、自分の研究テーマでも調査方法として十分使える気がしました。
しかし、ここでやった分析のほとんどは、社会学の分野ではすでになじみの深いKH Coderでもできることですので、Pythonの優位性を発揮するならば、より発展的な方法を取り入れる必要があるでしょう。


たとえばその1つに、Webスクレイピングがあるかと思います。手でちまちまとFANZAの40万弱の商品説明を集めてくるのは無謀ですが、プログラムを走らせるだけでビッグデータが集まるならば、新たな調査可能性に開かれます。

Webスクレイピングは、例えば性産業のように、従来はフィールドワークなどのsmall-Nの質的研究が担ってきたようなアクセスが困難な対象について、量的な輪郭を得ることを可能にするという点で、社会調査の新たな道を拓く。(前嶋 2016)

自然言語処理は、セクシュアリティの社会学の領域にこそ新たな道を開くかもしれません。


また、データ収集だけでなく、今回の分析手法にも限界があります。

TF-IDF分析では、「エッチ」と「セックス」の意味が近いこと、「美少女」と「イケメン」がほぼジェンダー対称的な意味を持っていることなどは読み取ってくれませんでした。
GIRL’S CHが、男性向けAVよりもSILK LABOに近いと分析されたのも、もしかするとこれが影響しているのかもしれません。この点を解決するには、潜在的意味を探るような分析手法を用いる必要があるでしょう。


こうした課題をクリアできたときは、もう少し立派なところに研究結果を発表しようかなと思います。夏休みはPythonの修行。


参考文献

〇赤川学,1996,『性への自由/性からの自由――ポルノグラフィの歴史社会学』青弓社.

〇赤川学,1999,『セクシュアリティの歴史社会学』勁草書房.

〇くろがね阿礼,2016,「【AV廃人・くろがね阿礼が徹底分析!】11月はどの新人ちゃんがハネたの?そして12月デビュー新人の予約段階お気に入り数で占うヒットの行方!【業界騒然のヒット解析がここにある!】」,FANZAニュース,(2019年7月11日取得,https://news.dmm.co.jp/article/992730/ ).

〇前嶋直樹,2016,「闇を削りとる社会調査 ――Web スクレイピングを用いた調査の可能性と諸問題」科学社会学会第5回年次大会要約.

〇永井良和,1992,「アダルトビデオと欲望の変容――縮みゆく男性性」アクロス編集室編『ポップ・コミュニケーション全書――カルトからカラオケまでニッポン「新」現象を解明する』パルコ出版,178-207.

〇山内長承,2017,『Pythonによるテキストマイニング入門』オーム社.




この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

note.user.nickname || note.user.urlname

研究経費(書籍、文房具、機材、映像資料など)のために使わせていただきます。

ありがとうございます!よろしければシェアもお願いします
53

服部恵典

東大社会学博士課程1年。女性向けAV(男優)ファン研究。詳しくは[プロフィール]をクリック

アダルトビデオ・スタディーズ

AVについての、論文未満の思いつき
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。