PythonとMeCabでTabjoのnoteを形態素解析してみよう

2022年12月12日 22:18

noteをお読みいただきありがとうございます！Tabjo Webコンテンツ担当のkanaです。絶賛開催中の「Tableau Tips＊アドベントカレンダー」に参加しています！最近、社内でワードクラウドの表現をよく見かけます。私もトライしてみたいと思い、TabjoのNote記事を対象にワードクラウドに挑戦してみました。今回はその過程を紹介します。

【参加者募集中】Tableau Tips＊アドベントカレンダー｜Tabjo Official｜note

１．はじめに

noteの記事をそのままTableauに接続しても、ワードクラウド表現はできません。なぜかというと、ワードクラウド表現を行うためには、文章を単語に分割して、その出現回数をカウントする必要があるからです。文章を単語に分割することを「形態素解析」と呼びます。
この形態素解析を行うには、必要なソフトウェアがあります。まずは、それらのソフトウェアをインストールしましょう。

２．ソフトウェアインストール

必要なソフトウェアは３種類です。

Anaconda3（64bit）
MeCab 0.996（64bit）
mecab-python-windows

インストールの手順は、こちらのサイトを参考にしました。

３．読み込むテキストの準備

今回は、2022年の活動記録の記事を対象にしました。

【活動記録】第31回 Tabjo お役立ちTips100本ノック!?WorkOutWednesday mini
【お知らせ】TC22にTabjoが登場！！
【活動記録】第33回初めの一歩を踏み出して見えた世界～キャリアを支えるユーザーコミュニティ～
【活動記録】第34回オンラインで復活！人の心を動かすVizを作ろう~前編~
【活動記録】第35回オンラインで復活！人の心を動かすVizを作ろう~後編~

対象の記事を開いてメモ帳にコピー＆ペーストで準備しました。（noteの記事をテキストで出力する機能があればと思いましたが、そのような機能は見つからなかったため、今回は手動でがんばりました。）

４．PythonとMecabで形態素解析

プログラムは、こちらのサイトを参考にしました。

インストールしたAnacondaを起動して、Juputer Labを開きます。

# Mecabのインポート
import MeCab

import re

# ファイル読み込み
file = r'C:\読み込み対象のファイル保管先\ファイル名'
with open(file,encoding='utf-8') as f:
    text = f.read()

# 空行の削除
text = re.sub('\n\n', '\n', text)

print(text)

# Mecab で形態素解析
tagger = MeCab.Tagger("-Ochasen")
result = tagger.parse(text)
result_lines = result.split('\n')

result_words = []
words = []

for result_line in result_lines:
    result_words.append(re.split('[\t,]', result_line))

# csv形式で出力
import csv
csv_path = r"C:\出力先フォルダ\出力ファイル名"

with open(csv_path, 'w', newline='', encoding='UTF-8') as file:
    writer = csv.writer(file)
    writer.writerow(["分割タイプ１", "分割タイプ２", "分割タイプ３","品詞"])
    writer.writerows(result_words)