見出し画像

#14 感情分析(元データ作成編)

おはようございます。
昨日友人何人かで奥多摩にある滝で滝行をしていました。3回滝に入るプログラムだったのですが、1回目に入った時にあまりに打たれている時に寒くて絶望しました。煩悩が振り払われるという感覚よりも、余計なことを考えている余裕がないというのが真相でした。自分は最近悩みごとが多いのですが、余裕がないほど何かに熱中して成果を出すということということが求められているのではないかという学びを得ました。

雑談はこのくらいにして、今回は感情分析に使うSVMのモデル作成にあたり必要なデータをどう作成したかについて説明しようと思います。

Q1.作りたいモデルのインプットとアウトプットはどのようになっているか?

図1  モデルの説明

モデルとしては、「ツイートをインプットしたら、そのツイートの肯定・否定の評価がアウトプットとして出てくる」というモデルを想定しています。
元は否定と肯定の2段階評価をする予定でしたが、先生からのアドバイスで5段階に分けることにしました。


Q2.データセットをどう用意するか?
このモデルを構築させるために、文章と評価の紐付けがされたデータセットを用意する必要があります。用意の方法は2通りあります。

A Github等で提供されているデータセットを利用する
B 自分で再生水に関連するデータセットを用意する

基本的にAに自分の欲しいと思った分野のデータセットがあるのは稀です。
初めは試しにAで実施してみたのですが、先行研究では基本的にデータセットを自分で用意するようだったのでBで実施しました。

Understanding #WorldEnvironmentDay User Opinions in Twitter: A Topic-Based Sentiment Analysis Approach

Understanding# WorldEnvironmentDay user opinions in Twitter: A topic-based sentiment analysis approach
Sentiment Analysis of people perception on WASA Water condition using machine learning approach.
https://www.ajer.org/papers/Vol-8-issue-8/S0808148155.pdf


Bについては収集したツイートとは別のTweetを集めてきて、自分で評価し先生に確認してもらうという手順を取りました。現状このデータセットが500程度しか準備できていないので、ここを増やしていくのが課題になります。

調べていると、学習用のデータセットの研究者の主観を排除する方法として、Amazon mechanical Turkという人間でしかできない仕事を機能として、アプリやWebサービスにAPIで組込むことができるツールを活用している先行研究がありました。ただしもちろん有料です。

Amazon mechanical Turk


今回はここまでにしようと思います。ここまで毎日更新しようとしてきましたが、TOEFL受験と研究の進捗のためここからは頻度を落として更新しようと思います。
読んでいただきありがとうございました。