見出し画像

自由研究進捗報告

おはようございます、カシロキです。今この部分を打ち込んでいるのは午前2:51ですので、朝には変わりないですね。文体が常体から敬体になっているのにはあまり突っ込まないでほしいのですが、強いて言うなら「敬体の方が書きやすいと気付いた」だけです。他にあまり意味はないです。

自由研究

ここで「自由研究」と言っているのは、まだ私が研究室に配属されていないし、またやってる方向性が正しいかもわからないので、とりあえずとっかかってみるか!という意気込みだけで研究を見切り発車したことに因ります。研究というのは下の記事で

文化や環境が違うところで過ごしているとはいえ、人間は皆同じ種に分類されるのだから、同じ思考基盤を保有するはずである。ではその(言語発生の)基盤をモデル化できないだろうか。

と書いていたやつのことです。

同じ記事で「言語学についてかじりたいから本を借りる」とも書いていたと思いますが、無事本は借りてきました。そして気付いたのです。

言語の発生、物理と相性が悪そうだな。

ダメじゃん、というところなのですが、どうしても言語と物理を結び付けたい、という気持ちが強く(これは今まで私がこれについて知りたいと思ったトピックがなかったため、恐らく生まれて初めての意欲的な研究テーマだったというのが強いです)、何とかしてどこか物理学に結び付けられる側面はないかと探したのです。

単語は発音できてなんぼ

私が主に興味があるのは「語彙」とりわけ「無から生まれた単語」です。例えばあなたの目の前に犬がいたとしましょう。私たち日本人はそれを「」だと認識します。しかし隣にいるアメリカ人は「dog」、その隣のドイツ人は「Hund」だと認識します。どれも概念として「犬」を指す単語ですが、その表記も音も異なります。
言語が違えば単語も違います。はるか昔に神の領域に近づこうとした愚かなホモ=サピエンスが所謂バベルの塔を造ろうとした所為で、神によって我々の言語はバラバラにされてしまったのですから当然です。では其処に一切の規則性や制約はないのか、というとそうも思えないのです。

言語、特に単語そのものを考えるにあたって、その表記(文字)を考えることはナンセンスです。文字なんてものは単語を表現するための道具に過ぎず、発音に先立って文字ができるなんてことは稀です。

例外としては英単語で言う「laser」は先に綴りが生まれた単語と言えるでしょう。しかしこれは「Light Amplification by Stimulated Emission of Radiation」の頭文字をとったものであって、私が目的とする無からの語彙生成とはわけが違います。

単語は話しやすくなくてはなりません。逆に言えば「話しやすい、発声が容易な音列が単語になった」と考えることもできるのではないでしょうか。
たとえば英語で「stone [stoʊn]」「rock [rɑk]」「sky [skaɪ]」「tree [tri]」「water [wɔtər]」などは発音が容易です。対して「symmetry [sɪmətri]」「reassembled [riəsɛmbəld]」といった単語はちょっと難度が上がりますが、今例示した2つはどちらも接頭辞などで分解することが可能な単語です。私が興味があるのは前者ですが、どちらにしろ単語はある程度発音が容易にできるものしかありません。
もうひとつ例を出しておきましょう。中学の頃に「複数形」に悩まされた方は多いのではないでしょうか。例えば「apple」は複数形で「apples」ですが、「box」は「boxes」でした。-sか-esか、はたまた-iesか……というところで悩まされた人が多いと思いますが、これは詰まるところ「発音を再現するために綴りが変化せざるを得なかった」のです。発音を見てみましょう。「apple, apples」は[æpəl, æpəlz]で[z]が付くだけです。しかし「box, boxes」は[bɑks, bɑksəz]と、[z]ではなく[əz]が付いてきます。これは英語話者が態々言語をややこしくするために意図して違うものをつけているのか、というとそんなはずはないのです。自分の母語を難しくすることに何のメリットもないでしょう。

逆です。[əz]の方が簡単なのです。

理由は[bɑksz]を発音してみればわかります。とても言いにくくはないですか?母音を挟まずに[s]と[z]を連続して発音することに我々の口は慣れていないのです。どうあがいても[ɪ]や[ə]のように母音が混ざります。つまり[s]と[z]は隣接することを好まないと推測できるのです。逆に隣接することを好む音の組み合わせもあるでしょう。例えば同じ複数形の話をすれば、「bed [bɛd], beds [bɛdz]」「road [roʊd], roads [roʊdz]」のように[d]で終わる単語の複数形には[z]が専ら用いられることが推測できます。逆に「airport [ɛrpɔrt], airports [ɛrpɔrts]」のように[t]で終わる場合は[s]が好まれるように見えます。もちろん他の単語や言語を参照したときこの「好まれない」音列が出現することはあるでしょうが、その量は有意に低いと予測できます。

物理とつなぐ

ここまでくれば物理との関連付けには十分です。
統計物理学では、実現するかしないかを問わず全ての考慮可能な状態はみな「起こりえる」ことを前提とし、しかしながらその実現確率が状態によって違うため、我々にはその全ての状態の「期待値」が見えている、という立場を取ります。ばね定数が k のゴム紐に質量 m の重りをつるすとゴム紐は mg/k だけ伸びるというのはよく知られた話ですが、2mg/k だけ縮むという現象も起こりえると考えるのです。

これを先の議論に適用しましょう。各音ごとに隣接する相性のいい音、悪い音が(ある程度)固有に存在していて、相性が悪い音列は起こりえなくはないがなかなか実現されない、と考えられます。つまり考慮可能な音のペアはすべて固有の「実現確率」を持っており、無から単語が生まれるときにはその期待値として音列が決定されると仮定できるでしょう。

問題点

しかし問題点があります。統計物理学は系の取る多くの状態から1つの実現する状態を引きずり出すのには適していますが、そうやって得られた結果は必ずしも状態の細部までを詳しく記述しません。例えば先ほどのゴム紐の話はよく「微小な長さを持つ N 個の鎖要素の連結体」を考えて議論され、この N 個の要素のいくらかは下向き、いくらかは上向きであって、結果としてゴム紐の一端から他端までの長さがある値(自然長であったり重りを吊るせば一定値伸びたり)で落ち着く、という結論は得られますが、その N 個の要素の n 番目(1≦n≦N)の要素がどこを向いているか、という情報はもたらしません。あくまで系全体としてどのような性質を持つかということしかわからないのです。

加えて単語は初めからその音の数を指定できません。「wolf [wʊlf]」という単語を作るにあたって「4つの発音記号で表現しよう」と初めから決めているわけがないのです。そのため統計物理学を適用するには、その粒子数さえ可変である「大正準集団(grand canonical ensemble)」を持ってこざるを得ないのですが、これによって音数が変化するようになり複雑になることが予想されます。

解決策と展望

今後どのように進めていくかはまだはっきりと決まっていませんが、まずは問題点の解決方法をあさりつつ、前提であった「各音ごとに隣接する相性のいい音、悪い音が(ある程度)固有に存在していて、相性が悪い音列は起こりえなくはないがなかなか実現されない」が事実かどうかを確かめることにします。

これにあたって、まず英単語の発音にその傾向があるかを調べるためにExcelで「ある発音記号の後ろに続く発音記号に有意の偏りがあるか」を分析することを考えています。単語の抽出は手作業では難しい(面倒)ので、NewYorkTimesなどの英字ニュースの文章を拾ってきて単語抽出する予定でいます。

さらに、最初期に現れたであろう単語が「1音節」(母音が1つもしくは1セット)であったと仮定することである程度音数に制限をかけられるかを」検討します。母音なしで子音のみが連続する単語は少なく、子音が3つ、4つ以上連なるような単語は私自身ほとんど見たことがありませんから、実現確率が低くなることで排除できないかと考えています。

またこれはより後の話になりますが、音として採用される子音や母音の種類(破擦音などやアイウエオの系列など)を条件として指定する、もしくは重み項として組み込むことで、実際に単語が生まれる際にその概念の「何」が表現されたのか(例えば「wolf」は狼の鳴き声が由来であると考えることができます)を考えることができないか期待しています。

何かご意見などありましたらどんどんコメントください。Twitter連携もしているのでそちらでも構いません。なにせ暗闇の中先が全く見えない状態なものですから、マッチ一本でもありがたいのです。

この記事が気に入ったらサポートをしてみませんか?