人間にしか書けない文章を書きたい

2023年4月11日 21:00

疲れる。すごく疲れる。今年に入ってから、ネット上の文章を読むのが、すごく疲れる。

なにせ、AIが書いた文章なんて読みたくないのだ。特に、それがまるで人間の作者の手なるものだと偽装されている場合には。

ときに巧妙に隠され、ときに露悪的な―そしてもはや使い古されたテンプレでしかないような―「じつはChatGPTが書いてました」というネタバラシが文末にくっついている形で、AIの文章を読まされる。現に、そういうのがそこかしこに転がっているのだ。これからの話じゃない。今まさに、もう出会う文章の1割ぐらいはそうかもしれない。

われわれは、さながら贋作を掴まされるのを必死に避けようとする画商である。常に作品のあらゆる細部、あらゆる語句と文体に気を配り、人間らしさの痕跡に目を凝らし続ける。そこで読み手は、一瞬たりとも緊張を解くことをゆるされない。

それが、すごく疲れる。

贋作を見分けるには、オリジナルを知っているだけでは足りない。それだけでなく、贋作師のやり口に、精通していなければならない。なにせ、向こうも命が掛かっている。贋作づくりで糊口をしのごうとしている。家族全員を養おうとしている。本物と見紛うものを作るプロなのだ。

どういう技法と手順が、どういう表現様式が、あるいはどういう意味内容が贋作師の作品を証立てるのかを知っていなければならない。手法の最新トレンドだって追っていく必要がある。

同じように、人間らしい文章を判別するには、AIらしい文章についてよくよく知っていなければならない。深層学習モデルの原理は言わずもがな、AIが生成しやすい文章のフォーマットや文体、語句の選び方、配置、そして意味内容。

ここに至って、ことは美術品の贋作判定よりも一層困難を極める。

AI技術の進歩は日進月歩であって、1週間も立たないうちにどんどん新しいモデルが出てくる。気づけばパラメータ量が劇的に増え、オープンソース化された似たようなモデルがGitHubに上がり、各々のローカル環境でも動くようになる。みんなそれぞれ独自のデータを食わせていく。これではもはや贋作の民主化、贋作のカンブリア爆発といった様相である。

こうして、AIが書いた文章を見分けんとする者は、ほとんどAI技術者さながらの知識を擁する必要に迫られる。大手IT企業が元ブラックハッカー/クラッカー（=いわゆる悪のハッカー）を、自社サービスのセキュリティ強化のためにホワイトハッカーとして雇うことはすでに有名な話だが、「ミイラ取りがミイラになる」でなくて、「ミイラ取りになるためにはまずミイラになる必要がある」のである。

でも、それはしょうがない。そのような努力の苦しみの方が、AIが書いた文章をそれと知らずに読まされるよりもずっとずっとマシなのだから。

さて、もう一つ大きな問題があるのだった。

いい具合の文章を生成できる大規模言語モデルは、大量のテキストデータを用いて学習を行っている。生成された文章の内容は、当然ながらこれらデータの内容を拠り所としている。

ゆえに、AIが生成した文章の特徴を把握するには、この元データの特徴をも深く知っている必要がある。(公開されていない事も多いが、)その出処や内容、その特性、そしてそれらの正確性や孕んでいるバイアスなども。

重要なのは最後の点である。AIが用いるデータは、当然ながら完全無欠の無謬なものではない。データには量と質がある。優れているものと劣っているものがあり、目的に対して適切なものとそうでないものが存在する。そしてそれらはかなりの部分、それがなんについてのデータかに大きく依存しているのである。

たとえば、生成された文章が「世界各国の主な食べ物」についてのものであれば、AIが学習する元となる精確なデータは（ネット上に沢山転がっているため）おそらく非常に多く、その出力も精確度がかなり高いだろう。他方、「取り調べ室での一幕」とかであれば、学習元のデータは極めて少ないニッチであるだけでなく、ドラマ等での描写（を切り抜いたPR記事とか、考察ブログとかのテキストデータ）に強く引っ張られるバイアスが掛かるだろう。電子的に開示が義務付けられているデータ（たとえば上場企業の決算データや政府統計等のパブリックデータ）は取りやすく、そうでないデータは取りにくい。オープンアクセスが可能なデジタルアーカイブ等は積極的に学習される一方で、Amazonで販売されている書籍の中身はほとんど学習に使うことができない。正統なデータが少ない分野では、個人が適当に書き散らしているブログ記事のテキストをもとに学習が行われるため、精度は下がる。

そう、対象となる分野が有する学習可能データがどんな性格のものかを、読者は予め把握しておく必要があるのだ。そしてさらに敷衍すれば、学習可能"でない"ものを含めた分野全体の体系的な情報の全体像を思い描けなければ、「そのうちネット上にあるのはここからここまで」という事実を適切に把握することはできないだろう。こうしたデータ特性を理解することなしに、AIがどれほどの意味内容までの文章を生成できるかは分からないはずである。

とすると、随分困ったことになる。

つまるところ、AIによって書かれた文章をしっかりと見分けるためには、読者は予め知っていなければならない。その出所不明の文章の主題が属している分野について。読んで知りたいと思うその主題について、読む前からすでにして、余すところ無く精通していなければならない。

こうなると畢竟、その文章を読む意義は大幅に薄れる。なぜなら、もう知っているのだから。タイトルを見た時点でブラウザバックしても良い程度に、その分野の専門家であるのだから。その文章がAIによって書かれたかどうかの判定はできる。できるが、精確に判定したところで、それがもはや何になろう。

2023年の読者は、AI技術者にして各分野の専門家であることが求められている。

でも、それはしょうがない。そのような努力の苦しみの方が、AIが書いた文章をそれと知らずに読まされるよりも、ずっとずっと、遥かにマシなのだから。

そいえば、読む方じゃなくて書く方について書きたかったんだったわ。間違った。がはははは。

実のところ、この文章はその全体、ないしほぼ全ての箇所がChatGPT(GPT-4)によって執筆された。

大規模言語モデルを用いた文章生成の凄まじさと可能性について、少しでも体感してもらえていれば嬉しい。

でもどうだろう。上記のAI判定方法の話は、人間が書いた文章の正誤を判定する場合にも、大体において同様に当てはまらないだろうか。

人間が書いた文章は、それ自体として、悪筆、誤解、誤謬、そして意図的な虚飾や嘘にまみれている。そうしたものを見抜くには、人間知性の構造や物書きの性質への洞察だけでなく、書かれた文章のテーマについての高い知識レベルをも、もとより要求していたのではなかったか。

AIが書いた文章をそれと知らずに読んでしまう嫌さと、人間が書いた悪文を読んでしまう嫌さ。この2つは、全く別のものだろうか。それとも、一緒のものだろうか。両者が関係しているとすれば、どのような形で関係しているべきなのだろうか。

頂いたサポートは、今後紹介する本の購入代金と、記事作成のやる気のガソリンとして使わせていただきます。