"コロナ"ツイートを収集した話
混ぜそばを三人分作るために一人前のレシピを3倍にしたら味が濃すぎたので初投稿です。
本日はコロナ関連のツイートってどの程度つぶやかれているんだろうって話です。
経緯
Twitterって結構すごくて毎日何億ものツイートが投稿されているそうです。Twitterのトレンドを見ると、特定ワードに関するツイートが数千・数万投稿されており、すごいなぁって感じです。
しかしながら、最近のトレンドと言えば「コロナ」だと思うのですが、別にコロナツイートはトレンドとして浮上しません。なぜでしょうか。実は意外と「コロナ」ってつぶやかれていないんですかね。
ということで本日はコロナツイートがどの程度つぶやかれているか調べていきます。
収集に使用するもの
先に使用するものを列挙していきます。
・ノートPC(240GB SSD メモリ8GB)
・Twitter API
・python 3.8
・適当なエディタ(今回はpythonについてきたIDLEを使用します)
収集するといっても単純にTwitterで「コロナ」と検索して、出てきたツイートをコピペして・・・を繰り返しては日が暮れてしまいます。疲れますし。
ということでTwitterのAPIを使用して効率よくツイートを収集していきます。Twitter APIとは、Twitter社が提供するTwitterの機能(ツイートとかいいねとか検索とか)を、個人がプログラムなどを通じて使用できるサービス(ツール?)です。無料で登録・使用ができますが、機能をより充実させるためには有料コースへの登録が必要です。
Twitter APIの準備については先駆者の方々かとても丁寧に説明されているので、今回は割愛させていただきます。
また、このAPIを使用するのにTweepyという非常に便利なライブラリがあったため、今回はTweepyを使用できるpythonを使用します。作成者に感謝。
収集方法について
無料版のAPIを利用した収集にはいくつか制限があり、無料版では15分間の検索数が一定を超えると検索機能を制限される点と、過去7日間しか遡って検索できない点という、この2点が特に痛い制限となります。
しかし前者の制限はアプリケーション認証という、個人を指定しない認証方法を利用することで、検索ツイート数を約3倍に伸ばすことで緩和することが出来ます。ただしツイートやいいねなどの機能は制限されます。今回は検索だけで十分なので、こちらを採用しました。これらの話も先駆者の方々が(以下略
検索には検索単語が必要ですね。今回は単純に「コロナ」を含むツイートを収集します。ただしRTは除きます。量が多すぎるとパンクするので...
収集ツイートには、ツイート内容はもちろん、ツイート主やいいねされた数、RTされたかどうかなどの情報も含まれます。これらの情報はを一連の情報としてcsvファイルとしてどんどんと追加していきます。
これにより、過去七日間の「コロナ」を含むツイートを(理論上)全て収集することが出来ます。やったね。さっそくプログラムを書いて実行しましょう。
プログラムを実行した結果
ツイート数多すぎィ!
いやまぁ舐めてました。なんと4/25のAM00:00~12:00だけで約14万ツイートありました。びっくり。
量が多すぎて収集が全然間に合っていません。夕方~夜にかけてツイート量はもっと増えそうですし、まだまだ収集は続きそうです。本当は収集したツイートに対して色々やっていきたかったのですが、厳しそうです。
最後に
Twitterってすごいなぁって話からコロナすごいなぁって話でした。
ただ14万ツイートという数字が多いかどうかは、結局ほかのトレンドツイート数と比較しないと分かりません。
ということでコロナツイートは一旦放置し、ほかのトレンドツイートと比較してこの数字を分析していこうと思います。比較対象は最近Twitterを賑わせた「パズドラ」を対象にしようと思いますが、ほかにあればぜひ教えてください。
ではではー
この記事が気に入ったらサポートをしてみませんか?