見出し画像

新・間違いだらけの論客選びREMASTER 第1回・データとパラメータの概要 前編:単語とそのカテゴリー分け

画像1

はじめに

本章では、分析に用いるデータについて説明を行う。

まえがきでも述べたとおり、本書は、320冊の書籍について、フリーのテキストマイニングソフト「KH Coder」を用いて、mecab-neologd-ipadicをエンジンに形態素解析を行い、取得した単語データを用いて分析を行っている。

使用した単語は、KH CoderにおいてB分類(すべてひらがなの単語)を含め、全体で出現数が50000以下1500以上となる自立語を用いた。分析の対象となった単語は全部で827となった。

なお形態素解析エンジンの性質に起因する誤算として、「…。」という単語がカウントされており、そのため文の数は性格に反映されていない可能性があることをあらかじめご承知おきたい。

画像2

画像3

単語一覧のPDFへのリンクはこちら。
https://drive.google.com/file/d/1363wq2C94u0h5bBAwIbbB8psDe1OpE_C/view?usp=drivesdk

単語のカテゴリー分け

集計した単語は、多次元尺度構成法によってカテゴリーに分けた。ただし、本企画の元になっている同人誌『新・間違いだらけの論客選び』においては、計算時間の短縮を名目に小見出しを基準として、Jaccard係数をもとにしてカテゴリー分けを行ったが、Jaccard係数を用いる性質上、小見出しに特定の単語が「含まれている/含まれていない」が基準になってしまうため、単語ごとの「距離感」を正確に 反映できていなかった。

そこで本企画においては、集計基準を書籍とし、またカテゴリー分けに用いる距離についてはJaccard係数ではなくユークリッド距離を用いることにした。これにより、分析にかける時間の短縮と単語の距離感の把握の両方を満たせるようになった。

今回はカテゴリーを12として、つぎのように分けた。

画像4

カテゴリー分けの基準となった図は次のとおり。Jaccard係数を用いた布置だと観測数の多い単語は中央に配置されることが多いが、ユークリッド距離を 用いた布置ではそのような単語は図の外側に配置されている。

画像5


以下、それぞれのカテゴリーについて解説を行う。割合の集計は段落を基準にして行い、各カテゴリーに属する単語が1つでも使われているものの割合を集計した。なお、集計基準を文ではなく段落と下のは、エッセイ的性格の強い書籍では、文が細切れになっていることがあると判断したからである(場合によっては段落も細切れになっていることもあるが)。

※以下の節で示す「偏差値」について、値が不正確である可能性があります。現在は諸事情によりデータの見直しと図の差し替えを行うことができないため、データの正確性が判定され次第、偏差値に関する記述を追記する予定です。なおデータの見直しに関して、図が差し替えられる可能性もあります。あらかじめご了承ください。

カテゴリ1:社会(またはエッセイ的性格の強さ)

画像6

こちらについては、一般的な社会評論、と言うよりは社会全体に関するエッセイ的な評論で使われている単語が並んだ。割合の上位を見ると、やはりエッセイ的な性格の強い社会評論が目立つ。一方下位は、どちらかと言えば政治や経済に関する評論が多い。

カテゴリ2:教育

画像7

このカテゴリーにおいては、もっぱら教育思想、教育哲学のような内容を示すパラメーターとなった。上位も下位も若者論的な書籍が目立つが、この単語が使われている頻度の多寡によって明確に分けられるということか。上位陣を占めるのはもっぱら社会学者によるものの一方、下位は学者ではない書き手によるものが多い。

カテゴリ3:政治

画像8

このカテゴリーに属する単語が多く使われている書籍は、政治や歴史に関するものが多いといえる。ただし、性質上、山崎『戦前回帰』と、中西『国民の文明史』という、イデオロギー的にほとんど反対のものが同列に並んでいることに注意する必要がある。あと、なぜか東『動物化するポストモダン』や宇野『ゼロ年代の想像力』といった、特定の系列のサブカルチャー評論も上位になった。一方下位はというと、もっぱら経済格差に関する書跡が占められている。ただし、三浦展や山田昌弘といった、学術的というよりも広告的と言うべき書跡が多いことにも注目しておきたい。

カテゴリ4:家庭

画像9

このカテゴリーにおいては、経済格差論や家庭教育関係の議論、研究で使われる単語が並んでいる古都から、上位陣もそういった関連の書籍に占められている(とはいえほとんど山田昌弘だが)。ただ、「女性」「結婚」といったジェンダーに関する言葉がある一方で、ジェンダーを取り扱った書籍のランクインは乏しかった。下位は、もっぱら政治にかんす時事的な評論が中心になっているが、他方で勢古『まれに見るバカ』や、小田嶋『ポエムに万歳!』といったエッセイ的な社会評論もちらほら見られる。

カテゴリ5:流行

画像10

このカテゴリーは単語こそ少ないが(いや、それ故に?)、傾向は明確であった。ここでは、一部の例外を除くとマーケティング的な書籍が上位陣に入っており、そういった立場からの社会評論も多い(ただし、「父」や「母」が入っている関係上、林『父性の復権』や永田『生涯未婚時代』のように、一部家族論的なものもある)。一方、下位は政治や社会全体に関する評論が多くなっている。

カテゴリ6:愚痴その1(若者論中心)

画像11

いや、なんというか…。このカテゴリーの性質は、まさに上位に属する書籍のラインナップがそれを物語っている。すなわち、この数値が高いほど、「愚痴」的な議論と言うことができる可能性が高いということである。

カテゴリ7:社会学

画像12

カテゴリーに属する単語だけを見ると、このカテゴリーは経済を示すものに見えるかもしれないが、書籍を見るとどちらかといえば経済的状況を通じて見た社会という、社会学的な要素の強いものになっている。これについては、経済に関する書籍の数が少ないというのもあるかもしれないが、カテゴリー2とはまた違った社会学的議論の類を見ることができよう。一方、下位は、案の定、「愚痴」的な議論が並んだ。

カテゴリー8:世代論、「働き方」

画像13

単語を見ると、格差論なのか社会学なのか就職なのか関連性が薄いように見えるが、集計を行うと、若者論もしくは世代論と言うべき書籍が上位陣を占めており、なおかつどちらかというとバッシングというよりは(間違った)擁護論、もしくはロスジェネ論的なものが多くなっている。他方、下位においては、政治に関する議論に占められており、明確な愚痴と言えそうなのは適菜『日本をダメにしたB層の研究』くらいしかない。

カテゴリ9:国家論、政治思想

画像14

上位陣は明確で、国家や愛国心といった国家論的なものが多い(その割には、タイトルも直球の佐藤優『国家論』がないが)。イデオロギーについては保革・左右入り乱れてはいるため、これを分ける基準がもう少し欲しいところである。下位はやはりそれとは関係のなさそうな愚痴がほとんどである。

カテゴリ10:愚痴その2(社会評論中心)

画像15

カテゴリー6を「愚痴」と書いたが、こちらは単語からも愚痴を示すものであることが推測されるものとなった。ただし、カテゴリー6とは、向こうは若者に関するものであるのに対し、こちらは社会に関するものが中心であるという違いがありそうだ。

カテゴリ11:文化評論

画像16

こちらのカテゴリーは、単語からわかるとおり、ネットカルチャーや漫画やアニメなどのメディアカルチャーを中心とする文化評論が多い。ただし、藤本由香里『私の居場所はどこにあるの?』や、大塚英志『「おたく」の精神史』といった、作品評論が中心となっている書籍はあまり含まれていない。下位は政治に関するものが多い。

カテゴリ12:大衆論

画像17

このカテゴリーについては、前カテゴリーで見たような文化論と、社会学がミックスされており、声質としてはやはり若者論に近いものになっていると言えよう。それでも社会学や思想はあまり多くなく、どちらかと言えば若者論が中心と言えそうではある。

最後に:今後の課題

ここまで、もっとも適切と思われるカテゴリー分けとして、12のカテゴリーに分類した結果を見てきた。ただ、たとえば本企画の元となった書籍の一つの研究テーマとして挙げたフェミニズムに関するものや、あるいは政治・思想に関する言説から排外主義を分けるようなカテゴリーは現れなかった。

これを解消するための課題としては、集計の対象とする単語とカテゴリーを増やして、それを元に対応分析などの手法を行うことが挙げられるが、その手法が有効かどうかについては今後の研究課題となるだろう。

おまけ:全体の集計表(有料コンテンツ)

全体の集計の一覧は有料コンテンツになります。みなさまご支援のほどよろしくお願いいたします。

ここから先は

102字 / 14画像

¥ 100

この記事が気に入ったらサポートをしてみませんか?