言語化について言語化する(失敗)

2023年9月15日 04:46

このところ「言語化」の重要さを説くひとを立て続けに見かけ、「よし！自分でもなにかやってやろう」と、言語化の言語化にチャレンジしてみたものの失敗しました。

失敗した理由と、主張しようとしたことの概要、付録として失敗したやつそのものを公開します。失敗したのですが、読み返してみるとよい感じに狂気に満ちていて愛おしくなってしまったのです。

失敗した理由

□実力不足

ぼくはメタ認知に若干の問題を抱えているようです。自己と他者の境目が曖昧となってしまい、視点が錯綜してしまうことがよくあります。よーく練り上げれば、他人に読んでもらえるような文章を書くことも出来なくはないですが、たいへんな苦労をします。論点もよく錯綜します。実力を超えた(自分の理解を超えた)議論を展開しようとして各所で破綻が見られます。お見せするようなクオリティではないですが、これはぼくの普段の思考プロセスをよく体現しています。

□相互作用を偏重すると…

ぼくの最近の基本的な考え方として、相互作用の偏重があげられると思います。相互作用しあうネットワーク構造は、社会や自然に普遍的にみることができますが、環境への依存度が高いという性質ゆえに、環境の変化を考慮しない個別の適応度や、環境の変化を考慮しない個別の戦略の有効性に関する議論の多くが不毛となります。

なにかを主張しようと直感だけで始めた議論に対するモチベーションが「まあ、それぞれだから」と萎んでしまうのです。アホです。

主張しようとしたことの概要

・言語化は非常に有効です。抽象化による情報の圧縮、繰り返し起こる情報処理の圧力の分散、保存性の高さ。それぞれが人間の高度な文明社会の骨格となっています。

特に学習において言語化は絶大な威力を発揮すると思います。

一方で「言語化」というより「意思決定にまつわる予測に関すること全般」についての議論となりますが、個体の適応度や、戦略の有効性に関して議論するときには、環境への依存度を考慮すべきである。ということが今回主張したかったことです。

アフリカゾウとシャチはどちらが強いか、というような問いには答えを出すことができません。これは極端な例ですが、あらゆる議論に対して教訓としてとるべきです。

「〇〇はこうすべき！」というような、対象の環境を考慮しない一般化に対して警鐘を鳴らそうとしました(失敗)。

ちなみにぼくはアフリカゾウのほうが強いと思います。

以上です。以下、失敗したやつです。

言語化に関すること（失敗）

尊大な序文

言語と言語によるコミュニケーション、それを支えるハードウェア、ソフトウェアの両面を支える社会構造。情報を圧縮し、長期的に未来を予測する。
人間は、ほとんど無限ともいえる情報処理の圧力から解放された。
地球でここまで繁栄した生物種はほかに存在しない。そのあまりに強大な力は、地球の環境そのものに介入できるほどの大きさになっている。内的世界は高度に抽象化され、言語という窓からは、宇宙の始まりの瞬間さえも覗き見ることができる。

言語とそれに付随する文化は、人間が獲得した最高の道具の一つである。

世界を残らず全て繋ぐ電子のネットワーク、高速化された通信、蓄積された情報資源。それらすべてが、言語の世界の栄華を華々しく彩っている。
強大なデータセットによって強化された大規模言語モデルに触れて、驚かなかった人はいないだろう。

コミュニケーションは高速化され、言語化の能力はその重要さを増しているように感じる。

あまりに複雑で豊かな世界を、限りある資源で生きてゆくために情報の圧縮や単純化を利用することは、ごく自然で強力なことだ。
しかし、極めて強力な単純化の戦略には、あらゆる段階で危険が含まれる。
この記事では、言語化や単純化にまつわる効果を思いつくままに検討していきたいと思う。

人に限らずほとんどの動物は、世界の内的モデルを持っていると言ってよいだろう。自分の行動が未来にどんな効果を及ぼすか予測を行うため、小さな世界を頭の中に持っている。良くおこることは、とても頻繁におこる。
抽象化され単純化された世界の内的モデルを利用し、情報処理にかかる資源を減らす。ほとんどの情報処理主体がもつ、普遍的な戦略のひとつだ。

繰り返し起きて、同じ行動をとることによって常に良好な結果を得られる場合はこの戦略は有効だ。そうして、高度に訓練された行動や思考はやがて自律化され、ほとんど生理的に処理されるようになれば、使用される資源はさらに節約される。

脳のニューロンの接続部であるシナプスは、よく使用される接続に関しては伝導効率が強化され、反対に稀にしか使われない接続は減退する。ヘッブの法則といわれるものだ。動物がとる情報戦略の物理的実装といえるだろう。

・言語化の美点

言語とは、記号（抽象化された意味の表象）の集合といえる。
抽象化・単純化から得られる経済的な利益に加え、言語化においてはその特性からさらに大きな美点がある。
高度に抽象化された概念を、異なる情報処理主体間で共有できること、
さまざまなフォーマットやプラットフォームで保存・蓄積できることだ。

ヒトとほかの生物種を比べたときに、もっとも大きな特徴として社会性の高さが挙げられるだろう。農耕や公共事業がそうだ。
一年後に大きな収穫を得られるであろうという長期的な予測を持ち続けることができなければ、短期的な見返りのない労働を継続することは難しい。
自分が所属する共同体への社会行動も同じく、短期的な報酬だけを考えていては起こらない。社会の構成員全体が、長期予測を共有し、さらには過去の教訓からより正しいと思える意思決定を共有し、未来の大きな報酬のために短期的な労働に投資する。この高度な社会行動を実現するためのどの段階でも、言語は重要な役割を果たしている。

内的モデルによる抽象化・単純化による経済的な効果は絶大である。
それを社会に実装するための言語というツールは、現代の科学の発展により、その効果を最大化し栄華を極めつつある。しかし、絶大であるがゆえに、眼をそむけたくなりはするものの、検討しなければならない課題はある。

・抽象化の誤謬

議論する必要もないようなことではあるものの、あらためて確認したい。
どんな理論を用いても、抽象化のプロセスを経たものは、抽象化される前のことを完全に復元することはできない。

命題や定理の論理的構造とか、難解で抽象的な世界に踏み込むまでもないだろう。局所的には、抽象化の前の構造をそのまま保存する計算理論は存在する。たとえば可逆圧縮がそうだが、あくまでも圧縮・復元のプロセスに限ってのことだ。サンプリングや、量子化の過程まで考えればやはり元の情報は失われる。

ここで強調したいのは、抽象化や単純化をしてはいけない。ということではない。そもそも抽象化されたモデルは、世界を完全に記述するために利用されるのではないことがほとんだ。未来を予測し意思決定を行うための指標として、十分な精度の現実世界の近似を得るために利用される。限られた資源で、十分な指標を得る。そのために抽象化は絶大な効果を発揮する。しかし、常にこころに留めおきたいのは、それが完全ではないということだ。

・情報通信のノイズ

情報や理論がもつ不完全さの一つの側面がノイズだ。
さらにコミュニケーション（通信）の過程まで、そのあらゆる段階にノイズが含まれる。この世界にはもともと多くのノイズやランダムさが含まれている。

十分に小さな質量の物質は古典力学に従わない確率が大きくなり、
その運動は、ある状態からある状態の連続する確率が予測として与えられるだけになる。光子ひとつというレベルであれば、次の瞬間にそこにあるかどうかは確率に従う。フォトダイオードは、光子の持つエネルギーを電圧に変化する装置で、カメラのセンサーはこの光子の数を数え上げていることになる。そのためあるフォトダイオードに届き数え上げられる光子の数には、一定のランダムさが含まれる。ショットノイズと呼ばれるもので、自然に含まれるランダムさもノイズとなる。

繰り返しになるが、この世界にはもともと多くのノイズやランダムさが含まれている。その世界を記述するには、ある程度の解釈の柔軟さが必要だ。
ノイズにまみれた環境の擾乱に対して堅牢なシステムは、一見無駄に思えるような冗長性を備えている。ノイズだらけのこの世界で、僕らが世界を認識するプロセスにノイズが含まれるのは当然のことともいえる。
人間の視覚神経は光子ひとつから反応することが可能だ。

視覚の暗順応・明順応は一種のノイズフィルターであると考えられる。
人間の視覚細胞には、明所でのみ機能し色を弁別する錐体細胞と、
暗所でのみ機能する桿体細胞の二種類がある。
※最近メラノオプシンというコントラストの知覚に関与すると考えられる第三の視覚細胞が発見された。
この前述の二種類の細胞は、明暗の変化に応じて自律的に切り替えが行われる。ゆっくりとした生理応答で、この切り替えは20分ほどかけて行われる。
映画館で映画を観終わった後に明るい場所に出て、まぶしいと感じたことがあるだろう。これは暗所で機能する桿体細胞が、大きな明るさの刺激で飽和してしまった状態だ。本来自然の中では急激な明暗の変化が持続することはない。木陰に入ったとき、太陽が隠れたとき、飛翔体の陰に入ったとき。
逆もまた然りで、暗闇の稲妻の閃光は長続きしない。これらの急激な変化にいちいち反応していたのでは無駄な労力を使ってしまう。
持続しない急激な刺激（環境の変化）はノイズとして捉えられ、ゆっくりとした生理応答はノイズフィルターとして機能する。もっと差し迫った問題としては、植物の光合成の制御なども同じように考えられる。
このノイズフィルターのように機能する生理応答は、生き物や、生き物だけに限らず、自律したシステムには普遍的に見ることのできる制御ループだ。

一方、ノイズのない世界を考えてみよう。
バベルの図書館は、ホルヘ・ルイス・ボルヘスの有名な架空の図書館だ。
世界中すべての書物が集められた巨大な建造物だ。ノイズのない世界では、この図書館はたったひとつの指輪のなかに収めることができる
指輪の円周の長さを任意の数列にすればよい。3.1415926535...
無限に続くランダムの数列の中にはすべての文字列が含まれる。

ノイズのない世界は静止した世界だ。
僕らが生きる現実世界のことを「現世（うつしよ）」といい、あの世のことを「常世（とこよ）」という。あの世はすべてが静止した「常なる」世界だ。もしこの世界にノイズがなかったとしたら、僕らはまともでいられるだろうか？

時には、やりとりしたい情報よりノイズのほうが大きいような環境もある。
音声通信でノイズが声をかき消してしまうような場合がそうだ。
それだったらまだいい。時にはほとんどノイズの存在に気づくことなく情報通信を行っているような場合もある。

情報処理主体によって捉えられ方が変わるだけで、ノイズと情報は本質的に同じものだ。ノイズの価値を正しく評価する態度が重要だ。

・情報処理のバイアス

情報処理主体としての人間や、その集団から切り離せないのが、各種バイアスだ。バイアスは、人間の情報処理の特性に起因すると考えていいだろう。
有名なのは後知恵バイアスだ。「ほら、あの時言っただろう？」
同じ内的モデルを使って予測した出来事のうち何パーセントが実現したか検討しなければならない。ほかには生存者バイアスもある。これは生き残った数少ないモデルを過大評価してしまうことだ。ノイズに満ちた世界を単純化するという行為自体に矛盾が含まれているものの、意思決定を行うには依拠できるなにかが必要だ。問題は、この内的モデルに重大な誤りが含まれるような場合や、過大な、または過少に評価したモデルの不完全さを、バイアスにより覆い隠してしまうことだ。

同じ強調になるが、抽象化されたモデルを利用するなと言いたいのではない。ノイズやバイアスは避けがたい。自らと、自らが持つ内的モデルの不完全さを忘れてはならない。

・意味の連環

だいぶ遠回りしたが、言語に関することも考えてゆこう。
言葉の持つ意味は、それもまた言葉の持つ意味によって定義づけられている。意味を意味によって定義付ける。ここにパラドックスが含まれると断言してもいい気がするものの、関係が生む意味の連環は、もっと豊かで根源的ななにかが含まれるように僕は感じる。

意味は一意に定まっているものではなく、関係の中にたちまち現れる。
関係がない場所には、意味が現れない。

オズマ問題というものを聞いたことがあるだろうか？
宇宙人に音声通話だけで左右の概念をどうやって伝えるかという問題だ。
物理学でいうパリティ対称性の破れを確認できる測定操作を引き出そうとする課題だ。前提知識の共有がない状態で、パリティ対称の破れを一意に示す現象は長らく発見されていなかった。1956年ウーが行ったコバルト60の核物理実験で、このパリティ対称性の破れが確認された。絶対零度に近くなるまで冷やし、磁界の中で整列させたコバルト60が核崩壊を起こしたときに放出されるγ線に偏極が生まれる。この核物理学における、弱い相互作用のパリティ対称の破れは、ヤンとリーによって予測されていたもので、その功績でこの両名は1957年にノーベル物理学賞を授与された。難しいことはさておき、左右の違いのようなごく簡単に思える概念も、厳密な意味や手順を求めた途端に、扱いづらくなってしまう。だが逆に捉えれば、核物理学など微塵も知らなくても前提知識の共有や、厳密過ぎない意味の揺らぎを導入すれば、その関係の中においてかなり高度な抽象化を行えるということだ。

厳密に定義づけられた数理論理学を除いて、意味論は常に曖昧になる。
言葉の連なりの統語表現、話し手・聞き手の関係の語用論、さらには認知においてもそうだ。現在一定の成功を収めている、言語モデルのAIは意味を考えない工学的アプローチによるものだ。

・関係について

ではあらためて、言語のやりとりの関係について考えてみよう。
登場するのは自己（集団の場合も含む）、他者（集団の場合や、過去や未来の自己も含む）、そして環境。この三つだ（ほかになにか大事なものを忘れていそうだが…）。それぞれが膨大なパラメータを含み相互作用しあう複雑な存在だ。

ChatGPTでいうと、その言語モデルの抽象空間のパラメーターはGPT-3.5で3550億。意味を含まない言語の工学的なパラメーターのみでだ。
人間の脳でいうと、ニューロンの数は1000億ほどで、高次脳機能を担う大脳新皮質には200億ほどのニューロンがあり、残りの多くのニューロンは運動など自律的に処理される部分にある。1000億のニューロンでも、組み合わせや相互作用まで考えれば、表現できる空間の広さはほとんど無限といってもよいが、人間が情報処理を行う際には、限られた資源と限られたデータセットしか利用できない。強大な電力や、ビッグデータを利用する大規模言語モデルとは違う。そのために揺らぎを利用して表象可能な空間を押し広げているのだ。それが極めて広大な現実世界を生き抜くための戦略なのだ。

AIは与えられたデータセットの表象空間内での最適化理論だ。
その表象空間はデータセットに依存し、あらたにデータを加えない限りは静止している。一方、われわれが立ち向かうべき世界は、常に流動している。
言語により抽象化されたモデルも、自分で見出した理論ですら手元を離れた瞬間から、流動する関係の奔流にのまれ、その意味を変化させ続ける。不可逆的にだ。

今正しいと思えることも、過去の自分や未来の自分、立場が変わったり、環境が変わればその正しさは評価することすら難しくなる。
こう書いてみると当たり前のことのように思えるものの、わすれがちな教訓だ。特に、自分の内的モデルが成功を収めているようなときほどこの教訓を思い出すのは難しくなる。

・学習の効率化

高速化したコミュニケーションで言語化が重宝されるのに加え、
学習の高効率化にも言語化は絶大な効果を発揮する。何度も繰り返されることであれば、情報処理の圧力を分散し、ほかの作業に資源を割り当てることもできる。

しかし、ここまで見てきたように言語化され抽象化された内的モデルに重大な誤りが含まれていたとしたら？今は成功を収めているようでも、問題がやがて顕在化するかもしれないし、環境や自分自身の変化によって誤りが新たに生まれることもあるだろう。誤っていた推測が、正しくなることもある。

学習のプロセスで最も重要なのは誤りのフィードバックだ。もっとも正しい判断を行うことができる可能性が高いのは、内的モデルを修正できる人だ。
間違いを犯すことは、自らの内的モデルを修正できるチャンスとして捉えよう。

最後まで読んでくれたひとはいますでしょうか？
尻切れトンボですが、ここで終わります。ありがとうございました。

この記事が気に入ったらサポートをしてみませんか？