ディープラーニングで松岡正剛の bot をつくった

なんとなく示唆に富むような文章をガンガン生成してくれる bot をつくりたかった。できれば面白く。
文章生成の方法は色々あって、それっぽい文章を手早く生成するならマルコフ連鎖を使ってもいいが、どうせなら十分な量のテキストを用意して LSTM と RNN を使っていきたい。
インターネット上で手に入るまとまった量の文章といえばパッと思いつくものには Wikipedia や青空文庫などがある。実際、これらを使ってAIに架空の歴史を作成させている記事があったり、夏目漱石っぽい文章の生成をしている人がいたりする。

もっといい感じになんとなく示唆に富むような文章を生成してくれそうな元になる大量の文章は無いかな〜、と漠然と考えていて、松岡正剛を思い出した。

松岡正剛という知の巨人、この御大が2000年2月から執筆を続けている「千夜千冊」という書評サイトがあり、なんとその記事数は1683件にもなっている。(2018年8月28日現在)

Wikipedia によれば千夜千冊のルールは次の3つ。
・同じ著者の本は2冊以上取り上げない
・同じジャンルは続けない
・最新の書物も取り上げる

これだ、求めていたものがあった。多分。
早速すべての記事からテキストデータをかき集め、TensorFlow で LSTM と RNN を使って学習をスタート。GTX 1080 Ti を使って丸一日ほどかかった。

できあがったモデルを使って文章を生成してみると、予想以上に破綻のない文章が生まれてきて驚いた。
実際に生成されたテキストをいくつか載せてみる。

一瞬格調高い文章に見えますが、すべてディープラーニングで生成された文字列です。
難解で意味がわかるようなわからないような文ではあるが言葉のつながりがとても自然。出てくる言葉が難解であるがゆえに人間が書いたものと区別がつきにくくて面白い。
以前にもある人間のブログから文章を集めて学習させてみたことはあるけど、その時は今回の十分の一くらいの量しかなかったし、ここまでのクオリティにはならなかった。

Twitter の bot として実装したので不定期に何かしらツイートされるようになってます。


この記事が気に入ったら、サポートをしてみませんか?気軽にクリエイターを支援できます。

6

ofxmp3

Nuxtデモマガジン(ストリーム表示)

2つ のマガジンに含まれています
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。