見出し画像

データサイエンス VTuber が自分の YouTube データを分析してみた - グラフィカルモデリング編

ハローワールド!
データサイエンス VTuber のアイシア=ソリッドです!!
(右が私。左は仲良しのはこつきさん!)

画像7

YouTube に動画を投稿していると、伸びる動画や伸びない動画、高評価をもらう動画や低評価をもらう動画など、色々出てくるんですよね。

それらの特徴を分析すれば、どのような動画が好まれているのかがわかるはず!

というわけで、自分のチャンネルの動画データを用いて、色々分析してみることにしました!
(チャンネルはこちら)

データを集める

画像1

YouTube は Google の製品なので、分析機能がめちゃしっかりしています。
これは投稿者用の分析画面で、動画の長さ、投稿日、再生数、コメント数、高評価数なんかが見られます。

びやーっと選択して、コピペすると、、、

画像2

こんな感じにデータが取れます。

動画のサムネイル: 【深層学習】LSTM - RNN に記憶をもたせる試みその2【ディープラーニングの世界 vol. 11 】 #067 #VRアカデミア #DeepLearning
26:17
公開
オン
なし
2020/07/24
プレミア公開済み
2,159
17
100.0%
高評価 116 件

こいつをいい感じに整形してやれば、こんなデータが作れます。
動画分析データ_20200504 - Google スプレッドシート

画像3

意外とかんたんですね。
早速分析に行きましょう!

とりあえず相関

とりあえず、 Google Spreadsheet を使って、相関行列の計算と可視化をしてみました。

画像4

(※低評価件数は、高評価件数と高評価率から計算しています。)

これを見てみると、主要な数値はすべて強く正に相関しています。
特に、「視聴回数」「コメント」「高評価件数」「低評価件数」は凄まじく強く相関しています。
まず視聴された後、これらの行動が起こるのでので、相関が強いのもある意味納得ですね!

意外なのは、動画の時間と視聴回数等に正の相関があることです。
この時点では理由はよくわかりませんでしたが、後の分析で明らかになります。

※ちなみに、相関行列を計算する spreadsheet の作り方はこの動画で解説しています。

その spreadsheet も公開しているので、よかったら試してみてください
こちら → 相関係数の計算 - Google スプレッドシート

相関係数の謎

画像8

(相関行列再掲)

さて、ここで、見過ごせない事実があります。
「高評価件数」と「低評価件数」が 0.661 と強く正に相関しています。
普通に解釈すれば、高評価されればされるほど低評価されるという意味ですが、これは直感に反しますよね。

普通に考えたら、高評価と低評価は、負の相関を持つはずです。
そもそも、同じ人は高評価と低評価を同時に押せないので、正に相関すること自体がおかしいです。

これはおそらく、再生数の影響でしょう。再生数が多いほど、高評価も低評価も増えるため、見かけ上は正に相関してしまいます。
こういう現象は偽相関と呼ばれます。油断してるとすぐ騙されるので、厄介なやつです、、、。

というわけで、これが偽相関であることを確かめるべく、グラフィカルモデリングを実施してみました!

グラフィカルモデリング

グラフィカルモデリングは、見かけ上の相関に騙されず、
・どの変数とどの変数の相関が本質的なのか
・他の変数の影響を除くと、相関の値はどうなるか
を分析してくれる方法です。

今回の分析結果がこちらの図です。

画像5

「+1」が高評価、「-1」が低評価です。
◯で囲まれているのが変数で、
本質的な相関がある場合だけ、それらが線で結ばれています。
また、その線に乗っている数値は、「偏相関係数」と呼ばれる相関係数の一種で、他の変数の影響を取り除いた、純粋な2変数間の相関です。

ちょっと眺めてみましょう。

まず、「再生回数」と「高評価」「低評価」の偏相関は、0.79、0.68になっており、強く正に相関しています。
当初の予想通り、「再生回数」と「高評価」の相関や、「再生回数」と「低評価」の相関は本物で、再生回数が伸びるほど、高評価も低評価も増えるということが確認されました。

一方、「高評価」と「低評価」の偏相関係数は、 -0.42 と大きな負の値になっています。これは、再生数が同じ程度なら、高評価件数と低評価件数には負の強い相関があるということを表しています。

当初の直感が正しいと、ちゃんと証明されましたね!

次に、「高評価」「低評価」「コメント」を見てみます。
もともとの相関係数は、「高評価」と「コメント」の相関は0.832、「低評価」と「コメント」の相関は0.614と、ともに強く相関していました。

画像6

(相関行列再掲)

ですが、この2つの変数の間に線はありません。
つまり、コメントと高評価、低評価の間には見た目の相関しかなく、コメントするかどうかと、高評価、低評価するかどうかは全く別であるということがわかりました。

コメントと高評価に直接の関係はありませんが、さっきの図では間に再生回数が挟まっています。
なので、コメントと高評価に見えていた相関は、全て、再生数の影響にすぎなかったということもわかります。
言い換えると、コメントも高評価も、再生数が増えれば増えるので正の相関を持つが、それ以上の関係性はなかったということです。

考えてみれば当たり前かも知れません。
私の動画の最後では必ず、「面白かったら高評価押してね」「疑問や感想があったらコメントしてね」といっています。
つまり、高評価、低評価は、動画の面白さと関係するが、コメントは面白さとはあまり関係しないという仮説が持てるのではないかと思います。

最後に、「動画時間」について見てみましょう。
「動画時間」と他のすべての変数の間にはすべて正の相関がありましたが、どうやら、本質的な相関は「動画時間」と「コメント」の間のみで、他はすべて偽相関のようです。

なぜ、「動画時間」と「コメント」には本質的な相関があるのでしょうか?
おそらく、長い動画では重厚なテーマを扱っているので、「見終わった後に疑問が残り、それを質問する」パターンや、「見終わった達成感からついコメントをしてしまう」パターンがあるのではないかと思います。
(逆に言うと、短い動画は、サクッと見て、わざわざコメントしない)

グラフィカルモデリングは結構単純な分析なのですが、それでここまで深い洞察が得られるのはすごいですね!

結論

分かったこと(事実)

1. 再生数と、コメント数、高評価、低評価の間には本質的な相関あり
2. 再生数が同程度なら、高評価と低評価の間には強い負の相関あり
3. コメントと高評価、低評価の相関は、再生数に媒介された見かけの相関
4. 動画時間が長いほどコメントが増える傾向あり

導かれるインサイト

1. 「おもしろい」動画の場合、高評価が増えて、低評価が減る
2. 動画時間が長い重厚な動画では、疑問解消や、達成感のためにコメントが増える
3. 「おもしろさ」とコメント数には直接の関係なし
4. 疑問解消、達成感といった要素は高評価、低評価とは直接の関係なし

良い結果が得られたぜ!

おまけ

今回の分析は、 GitHub にてコードを公開しているので、興味ある人は是非見てみてください。

また、グラフィカルモデリングについては、こちらの動画で解説しています!

参考にした文献はこちらです

次回予告

インサイトのところに書きましたが、「おもしろい」動画の場合、高評価が増えて、低評価が減るっぽいのです。
ということは、逆に、再生回数、高評価、低評価の関係性を用いることで、動画の面白さを分析することができるのではないでしょうか。

この仮設を、(階層)ベイズモデリングという手法で確かめてみました。
そのうち書きますので、ぜひお楽しみに!

面白かったら、チャンネル登録よろしくお願いします(^o^)v

Twitter フォローもよろしくね! → https://twitter.com/AIcia_Solid

あとあと!
面白かったら、 twitter で拡散してね!(^o^)/


この記事が気に入ったらサポートをしてみませんか?