テキスト分析

2024年1月16日 13:11

使いどころ

・テキスト分析を属人化させたくないとき（再現性が欲しいとき）
・分析対象のテキストが大量にあるとき（少なければ人間が確認したほうがよい）

基本的にテキスト分析とは効率化の手段で、可能なら人間（分析観点をきちんと持てている）が見るに越したことはない

具体的な分析対象

・アンケート
・大規模文章
・SNS

用語

・テキストマイニング：定性データ（平均などを計算して比較したりできない）であるテキストデータを分析すること。ルールベースで分析する手法もあるし、機械学習を使う手法もある。
・自然言語処理（NLP）：テキストマイニングの手法のひとつ。高度・専門的な文脈で使う。長文要約AI（イライザダイジェスト）など。

ツール

データ分析ツールの機能を分析ワークフローごとに区分すると、
①データ読み込み：他アプリとのコネクタがあるか、OCRできるか、文字起こしできるか、など
②前処理：大量データを扱えるか、探索的データ分析用の可視化（可視化しながら試行錯誤できる）があるか、など
③モデル構築：ノンコードな直感的なGUIを提供しているか、など
④モデル組み込み：Webアプリなどに簡単に埋め込めるか、など
あとは、チームで使えるか（SaaSか）も結構だいじ

・汎用ツール：Excel、ChatGPT

・テキストマイニングアプリ：KH Coder（https://khcoder.net/、内部で形態素解析エンジンを使っている）

・形態素解析エンジン（日本語用）：MeCab、ChaSen

データ形式

・定量データ
　・数値データ（量的変数）：数値で表現できる
　　・財務情報：金額で表現できる
　　・非財務情報：金額で表現できない（個数、人数など）
　・カテゴリカルデータ（質的変数）：数値で表現できない（性別、優／良／可など）
・定性データ：定量化できない

・構造化データ：RDBに格納されている
・非構造化データ：生テキスト（文章）、画像、動画、音声

・時系列データ
・クロスセクションデータ
・パネルデータ：クロスセクションデータ✕時系列データ

分析手法

・頻度分析
・ポジネガ分析
・形態素解析

自然言語解析は次の手順で文章を処理する。

1. 形態素解析（テキストを単語に切り分ける）
2. 構文解析（単語同士の関係性から文の構造をいくつか推測する）
3. 意味解析（推測された構文のうち正しい構文を1つに絞る）
4. 文脈解析（複数の文にまたがって、1～3を実施する）

1～4に行くにしたがって、コンピュータの意味理解の精度は落ちる。これは冒頭に説明したとおり、自然言語は人工言語と異なって解釈の余地が大きいためだ。

時系列分析

LSTM

可視化手法

・共起ネットワークグラフ
・対応分析グラフ
・ワードクラウド

動画

文章の類似度を測る
・tf-idf（Term Frequency * Inverse Document Frequency）：ある文章における単語の特徴
・cos類似度：単語ベクトルがどれくらい同じ方向を向いているか

Matlab

この記事が気に入ったらサポートをしてみませんか？