Pythonでプログラミング！-形態素解析

2019年4月8日 17:08

GiNZA NLPライブラリおよびGiNZA日本語Universal Dependenciesモデルが公開されています。

Google Colabで実行してみます。

!pip install "https://github.com/megagonlabs/ginza/releases/download/v1.0.2/ja_ginza_nopn-1.0.2.tgz"

とするとインストールが始まりますが。ランタイムが一度終了しても、もう一度RUNするとうまくいきます。

「GiNZAの公開ページ」のコードをそのまま実行してみます。

import spacy
nlp = spacy.load('ja_ginza_nopn')
doc = nlp('依存構造解析の実験を行っています。')
for sent in doc.sents:
   for token in sent:
       print(token.i, token.orth_, token.lemma_, token.pos_, token.dep_, token.head.i)
   print('EOS')

とすると、

0 依存依存 NOUN compound 2
1 構造構造 NOUN compound 2
2 解析解析 NOUN nmod 4
3 のの ADP case 2
4 実験実験 NOUN obj 6
5 をを ADP case 4
6 行っ行う VERB root 6
7 てて SCONJ mark 6
8 い居る AUX aux 6
9 ますます AUX aux 6
10 。。 PUNCT punct 6
EOS

と解析結果が出てきました。

ちなみに形態素解析とは、

形態素解析（morphological analysis）とは、検索エンジンにも用いられている自然言語処理の手法の一つで、ある文章・フレーズを「意味を持つ最小限の単位（＝単語）」に分解し、文章やフレーズの内容を判断するために用いられます。

この記事が気に入ったらサポートをしてみませんか？