見出し画像

日本語Wikipediaで学習済みのBERTが公開されているので使い方メモ

噂のBERT、使ってみたくはありませんか?

huggingface がBERTの日本語モデルを公開しました。BERTについては以下の記事が参考になります。

https://ai-scholar.tech/articles/text-mining/bert-ai-93

BERTの日本語モデルはtransformersに含まれています。そのため、従来のtransformersの利用方法と同じ操作感で日本語モデルを利用することができます。

しかし、Mac 環境で実際にBERTを動かすまでにいくつか躓いたので、解決のために取り組んだことについてメモを残しておきます。

mecabのインストール

BERT の日本語モデルを利用する際に、形態素解析エンジンであるmecabがインストールされている必要があります。おそらくtransformersの日本語トークナイザがmecabを要求する仕組みになってるためです。

以下のサイトを参考にmecabをインストールしました。

Mac の場合、homebrew を利用して、mecab とipadicをインストールします。

brew install mecab mecab-ipadic

辞書を更新するために、適当な辞書用のディレクトリを作成し、以下のコマンドを実行します。

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
./bin/install-mecab-ipadic-neologd -n -a

以下のコマンドでpython のmecabラッパーをインストールします。

pip install mecab-python3

transformersのインストール

ここから先は

1,467字

¥ 500

私にカフェオレを飲ませるためにサポートしてみませんか?