見出し画像

Pythonでプログラミング!-形態素解析

GiNZA NLPライブラリおよびGiNZA日本語Universal Dependenciesモデルが公開されています。

Google Colabで実行してみます。

!pip install "https://github.com/megagonlabs/ginza/releases/download/v1.0.2/ja_ginza_nopn-1.0.2.tgz"

とするとインストールが始まりますが。ランタイムが一度終了しても、もう一度RUNするとうまくいきます。

「GiNZAの公開ページ」のコードをそのまま実行してみます。

import spacy
nlp = spacy.load('ja_ginza_nopn')
doc = nlp('依存構造解析の実験を行っています。')
for sent in doc.sents:
   for token in sent:
       print(token.i, token.orth_, token.lemma_, token.pos_, token.dep_, token.head.i)
   print('EOS')

とすると、

0 依存 依存 NOUN compound 2
1 構造 構造 NOUN compound 2
2 解析 解析 NOUN nmod 4
3 の の ADP case 2
4 実験 実験 NOUN obj 6
5 を を ADP case 4
6 行っ 行う VERB root 6
7 て て SCONJ mark 6
8 い 居る AUX aux 6
9 ます ます AUX aux 6
10 。 。 PUNCT punct 6
EOS

と解析結果が出てきました。

ちなみに形態素解析とは、

形態素解析(morphological analysis)とは、検索エンジンにも用いられている自然言語処理の手法の一つで、ある文章・フレーズを「意味を持つ最小限の単位(=単語)」に分解し、文章やフレーズの内容を判断するために用いられます。

この記事が気に入ったらサポートをしてみませんか?