見出し画像

【分布意味論時代の歩き方1パス目】「1859年認識革命」と「ビッグデータ革命」の思わぬ共通点は「世界を一つにした」事。

私は2020年代を「分布意味論(distributional semantics)の時代」と位置付けています。

分布意味論(distributional semantics)という考え方がある。テキスト情報における単語の分布情報を統計的に扱い、単語や文の意味に接近しようというアプローチの根本に存在する考え方だ。

簡単に言えば、ある単語(記号)の意味はその周辺に存在する単語(記号)の存在との相対的な関係により決まるというような考え方である。このような考え方は、人工知能や自然言語処理といった工学的な世界だけではなく、記号学の教科書を開いても(少なくとも類似の概念は)紹介される類の考え方である。過去の人文社会科学的な記号学の研究においてもこのような立場をとってきた研究者は少なくない。「記号をシステムとして捉え、それぞれの記号の意味を考える」というようなフレーズが用いられたときに、その裏に潜むのは広い意味での分布意味論であろう。

現代の大規模言語モデルは、この考え方を極めて素朴に敷衍し、計算機上で粛々と実現しているにすぎない。もしこのアプローチを批判するならば、その矛先は続いて、分布意味論そのものや、記号の意味を記号のシステムにおける相対的関係を通して捉える共時的な記号学的研究にさえも向けられるのが公正だ。

上掲「現代の人工知能と「言葉の意味」」より

既にこういう考え方も現れていますが…

プロンプトを使った言語モデルへの攻撃手法は「敵対的なプロンプト」と呼ばれます。敵対的なプロンプトにより、モデルの反応性能の低下や機能不全といったリスクが考えられますが、対策は十分とはいえない状況です。

主な敵対的プロンプトには、以下3つがあります。

「プロンプトインジェクション」…巧妙な質問や指示を入力してモデルの出力を乗っ取ることです。第三者の個人情報を開示する、根拠のないデマを拡散させるといった危険性があり、セキュリティの脆弱性としても懸念されています。

「プロンプトリーク」…プロンプトが保有する情報を引き出すテクニックです。本来公開されるべきではない情報を含むプロンプトを使って、情報を漏えいさせます。

「ジェイルブレイク」…巧妙なプロンプトを使ってモデルの制限を外す手法です。代表的なアプローチである「モデルに別人格を設定して答えさせる」などの方法により、差別や暴力といった非倫理的内容や違法行為を助長する情報など、調整されている内容を回答させることに成功してしまうのです。

こうした敵対的プロンプトには、日々対策が講じられていますが、いまだ複数の欠陥が残されている状況です。LLMを使うことで問題に発展することのないよう、ユーザー側で上記のようなリスクをよく認識し、適切な使い方をする必要があります。

上掲「大規模言語モデル(LLM)とは?」より

なんだかChatGPTあたりが出力した様な優等生的文章みたいですね。そもそも「敵対的プロンプトへのセキュリティ」と簡単にいいますが、一体何から何を守ろうとしているのでしょうか?  実はこの問題、1848年革命以降産業革命と資本主義の導入が本格化し、世界中が鉄道と汽船によって結ばれた結果として史上初の世界恐慌(1857年)が勃発した時代にまで遡ります。これに端を発する欧州人の精神的動揺を受けて1859年、チャールズ・ダーウィンが「種の起源(On the Origin of Species)」を、ジョン・スチュワート・ミルが「自由論(On Liberty)」を、カール・マルクスが「経済学批判(Zur Kritik der Politischen Ökonomie)」を一斉に出版。

ジョン・スチュワート・ミルはコンドルセ侯爵同様に大数の法則を信じる数学者の立場から「文明が発展するためには個性と多様性、そして天才が保障されなければならず、それを国家権力が妨げるのが正当化されるのは他人に実害を与える場合だけに限定される」と述べました。

上掲「とある本格派フェミニストの憂鬱7パス目」要約

その前後において欧州人の認識が完全にパラダイムシフトを起こす事から、かかる歴史的流れを「1859年認識革命」あるいは「カール・マルクスが本当に関わった世界史的認識革命」と呼ぶ向きも。それとは別にクリミア戦争(1853年~1856年)を契機とする「統計学の母」ナイチンゲールの躍進が軍隊近代化や近代的都市計画着手の契機となった事から、当時を「統計革命黎明期」と位置付ける系譜もあったりします(そう、それ以前の時代には大数の法則はあっても正規分布認識は存在せず、そもそも分散の概念自体が存在しなかった‼︎)。そんなこんなで呼称自体は一定しないものの、多くの歴史観がこの時期に欧州人の価値観が激変したという認識自体は共有しているのです。

歴史上現時点において、平均値から離れるほど観測結果の出現率が下がっていく「確率の等高線」の在り方を最も良く表しているとされるのが正規分布(Normal Distribution)である。最初ガウスが「天体観測時の誤差判定」において、フーリエが「熱伝導過程=ある一点に熱を加えた時の時間ごとの温度上昇」においてといった具合に自然科学の領域に適用したが、やがてその数理はさまざまな集団の分布推定にも応用可能と考えられる様になり、生物学や心理学や社会学の分野などでも用いられる様になった。一応は数学的証明もある筈だが(不勉強にて未確認)観測結果によって裏打ちされてきた部分が大きい。

上掲「確率密度空間と累積分布空間」より

平均μ、分散$${σ^2>0}$$と置いた場合、
$${N(μ,σ^2)=\frac{1}{\sqrt{2πσ^2}}exp(-\frac{(x-μ)^2}{2σ^2})(x\in\mathbb{R})}$$

確率密度関数(PDF=Probability Density Function)

平均μ、分散$${σ^2>0}$$と置いた場合、
$${N(μ,σ^2)=\frac{1}{2}(1+erf \frac{x-μ}{\sqrt{2πσ^2}})}$$
なお誤差関数(erf= error function) $${erf(x)=\frac{1}{π}\int_0^xexp(-x^2)dt}$$

累積分布関数(Cumulative Distribution Function)

で、改めて浮上してくるのがジョン・スチュワート・ミルの言葉「文明発展に不可欠な個性と多様性と天才を国家権力が妨げるのが正当化されるのは他人に実害を与える場合だけに限定される」のうち「他人に実害を与える」の部分。ここでどうしても「どこから先を如何なる基準で外れ値認定して切り捨てるか」問題や「見張りを誰が見張るか」問題などが浮上してきてしまうという次第。

特に最近は似非リベラルや似非フェミニストの類が上掲のジョン・スチュワート・ミルの言葉をひっくり返した「文明発展の為、正義は他人に実害を与える可能性のある如何なる個性も多様性も天才もその存続を認めない」なるスローガンを捏造し、これを伝家の宝刀の様に振り翳しながらあらゆる気に入らないものに襲いかかる傾向を露わにしています。「国家権力(似非フェミニストの場合は定義もあやふやな家父長制)こそ一刻も早く滅ぼすべき巨悪」と勝手に規定して自らをそれと戦う反権力と位置付けて勝手に自己陶酔し、その一方でそう振る舞う以上必ずついてまわる「自分自身の権力性」を否認すべく普遍的正義の概念を持ち出す…例えばそうした歴史の最初からあったのが「車(社会)との戦い」。

ジョン・スチュワート・ミルが「自由論」を発表したのはこのまま選挙権拡大が続くと政治がポピュリズムに屈するのを危惧しての事でした。彼自身はコンドルセ侯爵同様数学者として大数の法則を信じ「人類がその潜在的可能性を引き出すには挑戦数の最大化、すなわち職業差別や人種差別や女性差別の撤廃が不可欠である」と考えていましたが、衆愚政治は大衆の分別に欠けた感情的判断に阿るのでその原理原則を貫けないと考えて警鐘を鳴らしたのです。実際、当時の英国自動車産業を悪夢に叩き落とし、フランスやドイツの自動車業界の優位を許した赤旗法(1865年-1896年)など彼の考え方が当たってしまったとしか思えません。

上掲「とある本格派フェミニストの憂鬱7パス目」

最近では遂に霊柩車や救急車を妨害する環境活動家まで現れました。

ヴィーガン過激派の考え方も基本構造は同じ。「誰かに実害を与える」の「誰か」の規定部分に根本的欠陥があるとしか思えません。

環境テロリストの振る舞いは最初からこんな感じでした。

映画「12モンキーズ(1995年)」で語られた「動物実験に反対する動物愛護団体が、動物を救う為に人類そのものを滅ぼす殺人ウィルスを世界中に散布する」未来がすぐそこに?

そもそも歴史上「誰かに実害を与える可能性のある個性や多様性や天才」に該当するのは一体何であり続けてきたのでしょうか。

①「1859年認識革命」は全体像を俯瞰すると史上初の国際恐慌到来を契機に欧州人が既存の価値観を疑い始めたのを契機として考え方にカンブリア爆発的多様性が生じ、そのうち妥当と思われる内容が既存価値観に追加されたり、時代遅れとなった部分を上書きした結果である。

「価値観の不明瞭個所」を跋扈する「怪しい人々」への評価は、価値観が不安定になった時代に増大し再安定期に元へと戻るが、その間に既存価値観への新規追加と古くなった箇所の上書きが発生する。

大航海時代同様、産業革命時代を牽引したのもまた図でいう「カンブリア爆発的多様性を特徴とする怪しい人々」であった。その大半がただの詐欺師や大言壮語ばかりの理想主義者に過ぎず、ごく一部の「本物」だけが新時代の基礎固めに参画するが、誰が「本物」だったかについては随分と後世になってその時代全体が俯瞰可能となるまで分からない。
Captains of Industry

②こういう過程ならウィリアム・マクニール「ヴェネツィア 東西ヨーロッパのかなめ 1081-1797」にも記されている。

時はイタリア・ルネサンス期(14世紀-16世紀)。天文学や解剖学が飛躍的に発展したボローニャ大学やパドヴァ大学の教授や学生の間で広まった「科学実証主義(Scientific Positivism)の祖型」新アリストテレス主義(Neo Aristotelianism)、すなわち「実践知識の累積は必ずといって良いほど認識領域のパラダイムシフトを引き起こすので、短期的には伝統的認識に立脚する信仰や道徳観と衝突を引き起こす。逆を言えばどんな実践知識の累積が引き起こすパラダイムシフトも、長期的には伝統的な信仰や道徳の世界が有する適応能力に吸収されていく」という考え方。19世紀以降、国際的に倫理学の世界で用いられる様になった「新アリストテレス主義(同じくNeo Aristotelianismと呼ばれる)」とは全くの別物なので注意が必要。この時代のそれは、あくまで純粋に(イシラム文化圏やビザンティン帝国経由でギリシャ語版やヘブライ語版やアラビア語版という形で再流入した)ギリシャ古典の記述を実際の観測結果より敬う中世的権威主義への挑戦を意味したのである。

③残念ながら、それまでの世界の中心、すなわち地中海沿岸に割拠したビザンティン帝国やイスラム文化圏はこの「人類に必要な知識は既に古典に全て記されている」と考え、科学的探究心が抑圧される中世的権威主義を脱却する事が出来なかった(ある部分においては今でもそのまま)。ジョン・スチュワート・ミルいうところの「人類が潜在的に備える可能性の汲み上げ」を怠った文明は、必然的にそういう末路を迎える事になる

一方、欧州は大航海時代を経て「世界の中心」を地中海沿岸から大西洋沿岸に移し、数学の急速発展に支えられた精緻な航海図を片手に七つの海に乗り出した。一方、世界の中心が地中海沿岸だった時期には世界史に相応の足跡を残してきたイタリア諸国も、アラゴン王国も以降はあまり消息を聞かなくなっていく。

さらにその後、産業革命時代が到来。その当然の帰結として「1859年認識革命」が勃発したという訳である。そしてフランス革命とナポレオン戦争以降単独覇権状態を達成した大英帝国にフランス第二帝政が食い下がる。ノウハウをドイツ帝国や大日本帝国が模倣。そうするうちにやっと我々の見知った近代世界がその姿を現すも、実際にその「(国体を守るのに十分な火力と機動力を備えた常備軍を中央集権的官僚制が徴税によって賄う)主権国家間の国際協調体制」としての本質が露わになるのは第一次世界大戦(1914年~1918年)前後に「時代遅れの老大国」清朝(1636年~1912年)、ハプスブルグ君主国(1526年~1918年)、オスマン帝国(1299年~1922年)が相次いで解体して以降となった。

④ちなみに第一次世界大戦の痛手はあまりにも甚大で、欧州諸国の国力がそれ以前の段階まで回復したのは1970年代になってから。かかる欧州文化圏が相対的に国際的影響力を喪失していた(代わってアメリカやソ連といった新大国が世界の中心にのし上がった)時期を歴史的特異点と解釈する「総力戦時代」なる歴史区分も存在する。

そして時は21世紀。鉄道網と汽船航路によって世界中の物流網が一つに結ばれた結果として史上初の国際恐慌が勃発して「1859年認識革命」の引き金となった様に、世界中のデータ・トラフィック網がインターネットによって一つに結ばれた結果「ビッグデータ革命」が勃発したという次第。

同時進行でゲーム・グラフィック画質進化の落し子としての「並列処理の化物」GPU(Graphics Processing Unit)進化があり、かかる特定演算力の飛躍的向上を背景に「パラメーター数が$${2^{10000}=10^{30}}$$のオーダーを超えて初めて本領を発揮する機械学習アルゴリズム」大規模言語システム(LLM=Large Language Models)が登場してきた訳です。

現在の機械翻訳は SMT(Statistical Machine Translation:統計的機械翻訳)が基礎になっているそうです。例えば、英語から日本語だと「have 〜」は「〜を持っている」と翻訳しますが、「have to 〜」だと「〜をしなければならない」と翻訳しますよね?英語のテスト勉強での丸暗記を思い出される方も多いかと思いますが、このような言葉の並びのパターンを予めルールとして打ち込んでおいて、翻訳をする際にその発生確率を計算しながら正しい訳文を決める方法を使います。2006年に登場したGoogle翻訳の最初のバージョンはこの方法を採用しています。その10年後の2016年、Google翻訳はGMNT(Google Neural Machine Translation)に変わります。このバージョンでは人手と時間がかかるルールの打ち込みを止めて、コンピュータを使って人間が書いた大量の文書から言葉の並びのパターンのルールを取り出す、つまり機械学習のモデルへと置き換える変更を行いました。Google翻訳の精度が急激に向上した事を覚えている方もいらしゃるのではないでしょうか?ルールを維持する労力(人手と時間)を大幅に削減できて、なおかつ翻訳の精度も大きく向上できる…つまり第1次AIブームの時とは対照的に、今世紀の機械翻訳は10年間で技術的に大きくステップアップしたのです。

ですが、GNMTを採用したGoogle翻訳の印象って案外薄くないですか?今年の年始以来のChatGPTを巡る大騒ぎには程遠い感じ。ChatGPTも(人間が書いた)膨大な文書を取り込んで、次に来る確率の高い単語を予測しているだけで、GNMTも流暢な自然言語で応答してくれます。文書量が相対的に少ない日本語の精度がいささか低いのも同じ。

なのに…

相手がチャットボットだと「とうとうAIは知性を獲得した」だとか「質問に何でも答えてくれるから、宿題も相談できそう」とか「やはりシンギュラリティは近い」とか…挙句の果てには、法規制の大真面目な議論がヒートアップする始末。長年、機械翻訳に携わって来た研究者やエンジニアからは「扱いがだいぶん違いませんか?」とクレームが漏れて来そう。

上掲「先生、ChatGPTは人間の仕事を奪うのですか?(2)」より

今度は如何なる価値観アップデートが必要となるのでしょうか。それにともなって「誰かに実害を与える可能性のある個性や多様性や天才」への認識はどう動くのでしょうか。この投稿シリーズではそのあたりに注目していきたいと考えています。

そんな感じで以下続報…

この記事が気に入ったらサポートをしてみませんか?