見出し画像

『な』の本質とディープラーニング

もう20年近く前になるが、僕が大学の研究室に入ったとき、最初の研究会が「自己紹介プラス自分が興味あることを皆に発表する」という回だった。そこで僕が話したのが「『な』の本質が何なのかに興味がある」という話だった。

手書きの文字は、使い慣れた人なら殴りがきの、一見すごく雑で汚い文字でも、本人が『な』と書こうとした文字なら、意外とすんなり他人も『な』と読める。でも子供の書いた『な』だったり、日本語を学習中の外国人が書いた『な』は、雑であるとか汚いとかとは別に、どこか拙くて「文字として読みづらい」という印象がある。

ということは、きっとひらがなの『な』には、骨格よりも上位の「『な』の本質」みたいなものがあって、読む側はそれの有り無しで、目にしている記号が「な」であるかどうかを判定しているのではないか。そういった「『な』の本質」をどうにか取り出すことができないか。

……ということに興味があります、と話した記憶がある。いま思い返すと、初回でいきなり込み入った話をしすぎた気もする。このとき僕の頭にあったのは、殴り書きの「な」を大量に集めて平均値と中央値をとって、画像処理的にひとつの「な」を作れば……みたいな、直球というか安直なイメージしか持っていなかったし、実のところそれから特に研究を進めるわけでもなかった。最近になるまでずっと忘れていたくらいだ。

ただ、去年の10月にこんな記事を読んだ。

手書きひらがなの認識で99.78%の精度をディープラーニングで

どうやら99.78%という数字は、今までのOCRから比べて「画期的に高い」というわけではないようだけれども、僕がびっくりしたのは、あの初回の研究会で話した(そしてそれ以来すっかり忘れていた)『な』の本質が、いままさに明らかになるかもしれない、という事実のほうだった。手書きのひらがなを機械が読んで文字認識をするということは、(専門家ではないので間違ったイメージかもしれないけれど)各ひらがなの「本質」なるものと目の前の記号を照らし合わせることにほかならないのでは? と思ったのだ。

そして、本当に、ものすごく残念なのが、ディープラーニングで得られた判定基準=『な』の本質 は、どうやら人間の理解できる形では展開できなさそうなことだ。機械が何かを判定する基準としては使えても、ニューラルネットワークの構造そのものを人の理解できる言語で再現するなど、いかにも無理そうな話である。

もっと、目で見られる形で『なのイデア』を目にすることができると期待していたのだけれども……。ニューラルネットワークが学習した判定基準を、人間に理解可能な形で表現する技術、みたいなものって、研究されてるんだろうか。文字認識に関してはさほど必要とされないかもしれないけれど、AIに何か重要な決定を任せたとして「どうしてそれに決めたのか理由が知りたい」というのはとても素直な欲求に思えるのだけれど。せめて僕が死ぬまでには「『な』の本質」が何なのかを知りたい。もちろん自分に分かる形で、である。

この記事が気に入ったらサポートをしてみませんか?