見出し画像

データでわかる #うたの日 【文体と得票数の関係】

先日、ヘッダー画像みたいな図をAyatoriで出力できるようになったのだけれど、これと得票数はたぶん関係ないということがわかるという記事です。

この記事でやること

文芸作品の作者ごとの特徴について考えるとき、文体は興味深いキーワードです。私たちの感じとる文体の違いが実際のところどんな要素に由来するものなのかは明らかではありませんが、計量文体論的なアプローチからは語彙の使用比率にもとづく文体の特徴量が提案されています。

Ayatoriで見られるようにした名詞率・MVR・VNRはそうした特徴量の例です。名詞率は自立語の総数に対する名詞の割合で、一般に名詞率が高いと凝縮的・要約的な文体になるといわれています。MVRは動詞の数に対する修飾語(形容詞・副詞・連体詞)の割合で、 この値が小さい(動詞が多い)と動きのある物語的な文章になり、この値が大きい(修飾語が多い)と記述的・描写的な文章になるとされています。VNRは名詞の数に対する動詞の割合で、この値が大きい(動詞が多い)と、よりダイナミックで事件展開型の文章になるといわれています。

こうした特徴量であらわされる「文体の違い」によって短歌において好まれやすい文体の傾向が明らかにできれば話がわかりやすくてよいのですが、いろいろな人のレーダーチャートを見てみたところ、それほど差があるようには感じられませんでした。

名詞率・MVR・VNRで捉えられる文体の差は、うたの日における得票数とは関係ないのではないかということを検討するために詳細な分析をおこなってみます。

分析対象

うたの日のオープン1001日目から1500日目までの500日間に投稿された短歌(74,857首)のうち、同一の筆名で20首以上出詠がある人の短歌(70,150首)を分析対象とします。

方法

分析対象の短歌をMeCab(NEologd辞書)で形態素解析し、名詞率・MVR・VNRを筆名ごとに集計します。得票数は、まず短歌ごとにハートと音符の数を合計した値を計算し、筆名ごとにその値の平均を算出したものを用います。そのうえで、3つの文体の特徴量と得票数との相関関係を確認します。

文体と得票数の関係

相関係数は下図のようになりました。nrは名詞率で、meanが得票数です。

画像1

名詞率とVNRとのあいだには一般に負の相関があることが知られています。それ以外のあいだにはやはり相関関係はないように見えます。

散布図でも確認してみます。

画像2

名詞率とVNRとのあいだには比較的はっきりした負の相関があるため、各点は名詞率が大きくなるとVNRが小さくなるような平面上に載っているように見えます。それ以外には分布のようすに特徴はなく、得票数が高い筆名が集中しているようなようすは見受けられません。

以上のことから、名詞率・MVR・VNRで捉えられる短歌の文体的特徴とうたの日における得票数とのあいだには必ずしも関連はないことがわかります。

文体の特徴量をどう受けとめるか

名詞率・MVR・VNRで捉えられるかぎりでは、うたの日のなかでとくに好まれる文体があるわけではないということがわかりました。自分の特徴量を眺めながら、もっと評価されるためにはこの値が大きく/小さくなるように詠むべきだなどと考える必要はないということです。

それでも、できればこういう雰囲気の文体で詠みたいという理想はそれぞれあるものだと思います。その雰囲気というのは語彙の使用比率で推し量れるものばかりではないでしょうが、それらを定量的に調べることでつかめるものもあるのではないかと思います。個人的に好きな雰囲気の文体を模索しながら、いろいろな人の文体の特徴量を見比べてみるのも楽しいかもしれません。

所感

今回の分析は決して難しいものではなかったのですが、Rで名前付きベクトルをデータフレームに格納して処理するのが癖があってハマったので、かなり大変な思いをしました。簡単だったはずなのに時間がかかっています。つらかった。


この記事が気に入ったらサポートをしてみませんか?