テキスト分析


使いどころ

・テキスト分析を属人化させたくないとき(再現性が欲しいとき)
・分析対象のテキストが大量にあるとき(少なければ人間が確認したほうがよい)

基本的にテキスト分析とは効率化の手段で、可能なら人間(分析観点をきちんと持てている)が見るに越したことはない

具体的な分析対象

・アンケート
・大規模文章
・SNS

用語

・テキストマイニング:定性データ(平均などを計算して比較したりできない)であるテキストデータを分析すること。ルールベースで分析する手法もあるし、機械学習を使う手法もある。
・自然言語処理(NLP):テキストマイニングの手法のひとつ。高度・専門的な文脈で使う。長文要約AI(イライザダイジェスト)など。

ツール

データ分析ツールの機能を分析ワークフローごとに区分すると、
①データ読み込み:他アプリとのコネクタがあるか、OCRできるか、文字起こしできるか、など
②前処理:大量データを扱えるか、探索的データ分析用の可視化(可視化しながら試行錯誤できる)があるか、など
③モデル構築:ノンコードな直感的なGUIを提供しているか、など
④モデル組み込み:Webアプリなどに簡単に埋め込めるか、など
あとは、チームで使えるか(SaaSか)も結構だいじ

・汎用ツール:Excel、ChatGPT

・テキストマイニングアプリ:KH Coder(https://khcoder.net/、内部で形態素解析エンジンを使っている)

・形態素解析エンジン(日本語用):MeCab、ChaSen

データ形式

・定量データ
 ・数値データ(量的変数):数値で表現できる
  ・財務情報:金額で表現できる
  ・非財務情報:金額で表現できない(個数、人数など)
 ・カテゴリカルデータ(質的変数):数値で表現できない(性別、優/良/可など)
・定性データ:定量化できない

・構造化データ:RDBに格納されている
・非構造化データ:生テキスト(文章)、画像、動画、音声


・時系列データ
・クロスセクションデータ
・パネルデータ:クロスセクションデータ✕時系列データ

分析手法

・頻度分析
・ポジネガ分析
・形態素解析

自然言語解析は次の手順で文章を処理する。

1. 形態素解析(テキストを単語に切り分ける)
2. 構文解析(単語同士の関係性から文の構造をいくつか推測する)
3. 意味解析(推測された構文のうち正しい構文を1つに絞る)
4. 文脈解析(複数の文にまたがって、1~3を実施する)

1~4に行くにしたがって、コンピュータの意味理解の精度は落ちる。これは冒頭に説明したとおり、自然言語は人工言語と異なって解釈の余地が大きいためだ。

時系列分析

LSTM


可視化手法

・共起ネットワークグラフ
・対応分析グラフ
・ワードクラウド

動画


文章の類似度を測る
・tf-idf(Term Frequency * Inverse Document Frequency):ある文章における単語の特徴
・cos類似度:単語ベクトルがどれくらい同じ方向を向いているか

Matlab



この記事が気に入ったらサポートをしてみませんか?