見出し画像

2部のボンドは目を細めがち?Trigram解析によるボンド&モーゼズ、あるいは各担当翻訳者の違い

概要

 ニンジャスレイヤー1)はブラッドレー・ボンドおよびフィリップ・N・モーゼズ二名の共著とされているが、各エピソードのメイン著者はどちらだったか明かされる機会は書籍やN-FILES、エピソード投票の結果発表などに限られていた。本研究では既にメイン著者が明らかになっている第2部の16エピソードを元データとして、文中に含まれるTrigram(連続する3文字)に著者や翻訳者の違いが現れていないか検証し、興味深い成果を得たので報告する。

背景

 ボンド、モーゼズ両氏にはそれぞれ対応する翻訳チームがあることがマディソンおばあちゃんの質問回答2)では述べられており、これはTwitterクライアントからの違いからも裏付けられるものである3)。これまでの研究では、二つのエピソード本文を連結して圧縮した際に、類似度が高いほど圧縮率が高くなることを利用し、さらにこの圧縮改善率を使用してクラスター解析を行うことでボンド、モーゼズ各担当チームの翻訳文をある程度区別できることが示されている4)。しかしながら、圧縮アルゴリズムを用いた解析では具体的に文章のどこが各チームに特徴的なのか示すことができなかった。

 そこで本研究では、エピソード本文からTrigram(連続した3文字)の集合を抜き出し、その積集合、差集合を取ることで各チームに特異的な3文字を抜き出し、そこから言葉使いの違いについて推測することとした。例えば、「ニンジャスレイヤー」と「ニンジャがイヤーッ」のTrigram集合は以下のようになる。

図1

図1. 「ニンジャスレイヤー」と「ニンジャがイヤーッ」のTrigram集合
 ここでTrigram集合と呼ぶものは、ある文字列から連続する3文字の組み合わせを全て抜き出したものである。「ニンジャスレイヤー」と「ニンジャがイヤーッ」からTrigram集合を作り比較すると、青で示したような共通のTrigram集合(積集合)を作ることができる。また共通していないTrigram集合(差集合)を作ることもできる。

 この手法を用いると、例えばボンドがメイン著者と示されている複数のエピソードそれぞれからTrigramの積集合を作ることで、ボンド担当チームが使いがちなTrigramを抜き出すことができ、さらにそこからモーゼズがメイン著者とされているエピソードから作成した全てのTrigram集合を引くことで、ボンド担当チームに特異的なTrigramを抜き出すことができる。具体的な使用データを次セクションで述べる。

材料と方法

 元データとなる、メイン著者が既に判明しているエピソード本文としては、以前4)使用した以下の16エピソード(ただし、note収録版)を使用した。

名称未設定3

図1. Trigram集合に使用した第2部16エピソード

 この各エピソードnote版本文から空白文字を削除した上でTrigram集合を作成し、ボンドをメイン著者とするエピソード8編について、B1、B2...B8、モーゼズをメイン著者とするエピソード8編についてM1、M2...M8とすると、各担当チーム特異的Trigram集合を以下のように作成できる。

ボンド担当チーム特異的Trigram集合 = (B1 ∩ B2 ∩ ...B8) - (M1 ∪ M2  ∪...M8)
モーゼズ担当チーム特異的Trigram集合 = (B1 ∩ B2 ∩ ...B8) - (M1 ∪ M2  ∪...M8)

 簡単に言うと、「ボンド担当チーム特異的Trigram」はボンドがメイン著者の8エピソードの全てに存在し、かつモーゼズがメイン著者の8エピソードには一回も登場しなかった3文字である。「モーゼズ担当チーム特異的Trigram」はその逆である。

 このようにして作成した各担当チーム特異的Trigramを次セクションの解析に使用した。

結果

各担当チームに特異的な文字列について

 各担当チーム特異的Trigramは、以下のようになった。

画像3

表2. メイン著者の分かっている第2部8エピソードずつより作成した各担当チーム特異的Trigram

 Trigramは当然3文字のみであるので、それ以上の長さの文字列が特異的であった場合は2文字の重複を持つ複数のTrigramが抜き出される。このことから考えて、例えば「カツカ」「ツカと」「ツカツ」の3つのTrigramは、「ツカツカと」という文字列であったことが推測され、これは実際に文字列検索によって確かめられた。また、「クザた」「ザたち」が抜き出されているのは、モーゼズがメイン著者のエピソードでは「ヤクザたち」という文字列が特異的に含まれるが、「ヤクザ」という3文字はどちらにも含まれるからである。これらのことを踏まえて復元した、各担当チーム特異的な文字列は以下のようになった。

画像3

表3. メイン著者の分かっている第2部8エピソードずつより作成した各担当チーム特異的文字列

 ただし「LAN」に関しては、モーゼズ担当翻訳チームが全角英字を使用したことによるものと考えられ、半角・全角の違いを語彙の違いに含めるのは本意ではないため除いた。

 この各担当チーム特異的文字列が、その元データとなった第2部16エピソードのそれぞれに何回登場しているかを表で示すと以下のようになる。

画像5

表4. 各担当チーム特異的文字列が元データの16エピソードに登場する回数
 「ボンド担当チームに特異的な文字列の登場回数 - モーゼズ担当チームに特異的な文字列の登場回数」を「ボンド担当チーム翻訳文特異度」、略してボン度とし付記した。

 例えば「襲いかか」という文字列は、ボンドがメイン著者の「スリー・ダーティー・ニンジャボンド」には12回も登場する一方、モーゼズがメイン著者の8エピソードには一回も登場しない。逆に、「へと向」という文字列は、モーゼズがメイン著者の「カース・オブ・エンシェント・カンジ〜」には8回登場する一方、ボンドがメイン著者の8エピソードには一回も登場しないのである。

漢字表記の差異

 さて、ボンド&モーゼズ各担当翻訳チームの使用する文字列には偏りがあることは分かったが、これは翻訳者の違いによるものか、それとも原作者の違いによるものであろうか?各担当チームの特異的な文字列を見ると、少なくとも一部は漢字表記の差異が反映されていることが想像される。

 例えば、ボンド担当チームに見られる「では無」は、「では無い」「では無かった」などが含まれることによると思われるが、これらは「ではない」「ではなかった」と書くこともできる。もしモーゼズ担当チームがこのようにひらがな表記をとっていれば、それが違いとなり検出されることになる。同様に、モーゼズ担当チームに見られる「解らな」は、「解らない」「解らなかった」であろうが、ボンド担当チームは「わからない」「分からない」などを使っている可能性もある。

 これらの漢字表記の差異の影響がどの程度あるのかを検証したのが次の表である。

画像5

表5. 16エピソードの漢字表記の差異
濃い色(「では無」など)は各担当チーム特異的文字列として抜き出されたもの、薄い色はその表記ゆれバリエーションや、類似した語彙。

 両チームで明らかに漢字表記が異なるものがいくつかある。例えば、ボンド担当チームは(する事は、来る事は、などを)「る事は」と表記するのに対し、モーゼズ担当チームは「ることは」とひらがなになる。逆にモーゼズ担当チームは(解らない、解らなかった、などを)「解らな」と表記することがあるのに対し、ボンド担当チームは「わからな」とひらがなのみを用いる。「ヤクザたち」もモーゼズ担当チームがひらがなを用いるのに対し、ボンド担当チームは「ヤクザ達」と漢字を用いる。

 これら漢字かな遣いを考慮してもなお差がある語彙には、ボンド担当チームの「襲いかか」「ツカツカ」「目を細め」「はしかし」、モーゼズ担当チームの「へと向」「の横に」「の隅に」「などが」があることが分かる。では、具体的に本文を参照しこれらの違いがどう現れているのかを見てみよう。

ボンド担当チームが使いがちな言葉

 ボンド担当チームが使いがちな言葉で特にその回数が多いのは、「襲いかかる」「襲いかかった」などの語幹、「襲いかか」である。例えば、実に12回この表現を用いている「スリー・ダーティ・ニンジャボンド」を見てみよう。

 ボンド担当チームに特徴的なのは、このように武器や身体部位などが攻撃に使用されることを「襲いかかる」と表記することである。では、「ツカツカ」「目を細め」などはどうであろうか。どちらも複数回用いている「モータル・ニンジャ・レジスター」を見てみよう。

 このようにニンジャが決断的な足取りで向かってくることを表現する擬態語としての「ツカツカ」、訝しんだり喜んだりする表情の表現としての「目を細め」などは、2部の16エピソード中ボンドがメイン著者のエピソードにのみ見られたのである。

 もう一つ着目したいのが「はしかし」である。両チームとも接続語としての「しかし」は同程度使用しているのに対し、「はしかし」はボンド担当チームに特異的である。「ザ・マン・フー・カムズ・トゥ・スラム・ザ・リジグネイション」を見てみよう。

 このように、接続語を文頭に置いた場合は「しかし○○は」と表記できる文を、主語を文頭に置き「○○はしかし」と表記する手法はボンド担当チームに特徴的なようだ。

モーゼズ担当チームが使いがちな言葉

 ボンド担当チームに比べると、モーゼズ担当チームの特異的な言葉は一見それとわかりにくい。しかし表5の「へと向」(へと向かう、へと向きなど)を見てみると、同じような意味になると思われる「へ向」はボンド担当チームとそれほど差がないのに対して「に向」もモーゼズ担当チームの使用頻度がかなり高いことが分かる。一つの仮説は、「リキシャー・ディセント・アルゴリズム」や「リブート・レイヴン」にはいずれもピストルカラテを使うガンドーの戦闘シーンが含まれるため、銃口を何かに向ける描写が多いのではないか、ということである。しかし、ボンド担当チームでも銃撃戦描写は含まれるはずなので、「へと向」「に向」に相当するボンド担当チーム側の言葉があってもおかしくはない。

 またモーゼズ担当チームで特筆したいのは、「などが」「など」の多さである。「リキシャー・ディセント・アルゴリズム」より実際の例を見てみよう。

 いかにもニンジャスレイヤーという印象を感じる、オブジェクトを列挙する風景描写である。モーゼズ担当チームは「などが」を用いてこのような風景描写をする傾向にあるようだ。しかし、「など」に関してはボンドがメイン著者の「ザ・マン・フー・カムズ・トゥ・スラム・ザ・リジグネイション」でも26回使用されている。この違いはなんであろうか?実際に本文を見てみよう。

 そう、これらの「など」は列挙だけでなく、否定・軽視の意味を持つ「など」が含まれているのである。そこで、「など」を26回使用する「ザ・マン・フー・カムズ・トゥ・スラム・ザ・リジグネイション(ボンド)」と、25回使用する「カース・オブ・エンシェント・カンジ・オア・ザ・シークレット・オブ・ダークニンジャ・ソウル(モーゼズ)」で「など」の用法を確認してみた。

図2

図2. 2エピソードにおける「など」の用法の数

 少なくともこの2エピソードにおいては「など」の用法の差は歴然であり、「カース・オブ〜」では25個中21個が例としてあげたり、列挙したりする「など」であったのに対し、「ザ・マン・フー〜」では26個中24個が否定・軽視の意味を持つものであり、例・列挙は2個にとどまったのである。

1部〜3部エピソードへの適用

 このように、ボンド&モーゼズ各担当翻訳チームの使用する言葉には確かに偏りがあることが示された。では、これは今回元データとした第2部の16エピソード以外にも適用可能なのだろうか?この疑問に答えるため、noteに収録された第1部、著者が明らかになった第3部、第4部の数エピソードを解析に加えてみた。

画像7

表6. 第1部〜第4部(の一部)を含めた特異的文字列の出現頻度
 エピソードの順番はニンジャスレイヤーWikiを参照し、初出時を基準にした。ボンド担当チームに特異的な文字列の出現数-モーゼズ担当チームに特異的な文字列の出現数を「ボン度」とし、実際のメイン著者と比較、誤った判定をしたものは赤字で表記した。

 まず、第2部の16エピソードを元に抜き出した文字列なので、2部の的中率が高いのは当然と言えよう。しかしながら、第1部ではおそらくは本文の短さから十分な出現数が計測できずに判定できていないものが多い。興味深いことは、第1部や第3部には第2部連載中に掲載されたものがあるが(マシン・オブ・ヴェンジェンス、サツバツ・ナイト・バイ・ナイトなど)、これらはかなり傾向が第2部作品に近いことである。おそらくは、今回用いた手法で抜き出したような語彙が時期によって移り変わっていくため、時期の離れた作品では有効な判定ができないのであろう。

 それを示唆するのが、表6の下部、第3部や第4部エピソードではモーゼズがメイン著者の作品でも「目を細め」「襲いかか」などが出現してくる点であろう。これにはいくつかの解釈が考えられ、翻訳チーム自体の好みの語彙が移り変わること、著者が同じでも翻訳チームが異なっているかもしれないこと、そして共著の度合いがさらに深まっている可能性もある。執筆時期の違いがこのように現れるとすれば、時期に応じてそれぞれ特異的な文字列のセットを作り解析すれば、さらに精度がよく、また興味深い結果が得られるかもしれない。

まとめとこれから

 本研究ではTrigramという、たった3文字の連続からニンジャスレイヤー翻訳チームの2グループそれぞれに特異的な文字列を特定することを試みた。漢字表記の違い(「事」と「こと」、「達」と「たち」など)はおそらく翻訳担当者の差異によるものであり、ボンドおよびモーゼズそれぞれがメインの作品には特定の翻訳担当チームがあるという見解と矛盾しない。興味深いことは、「目を細め」「ツカツカ」など翻訳以前、原文の段階で表現に差異があった可能性のある文字列も抽出できたことであり、またそれが掲載時期によっても変化していく可能性を示唆するデータが得られた。

 もともと小説を読み込む方でもない私にとって、文体の違いを見分けるということは意識的にもなかなか難しいためこのような手法を試してみたが、例えば「などが」をオブジェクトを列挙しての情景描写に使用する傾向など、これを機に作品を読み返して確かめてみたいと思わせる部分も多い。本研究はこのように、見過ごしていた細かな部分にも光を当てるきっかけになったのではないか。

 文章から特定の文字列を検索するという手法は、筆者が以前に行ったクラスタリングよりも精度が低いと考えられるが、簡便に行えることがメリットである。JavaScriptを用いて本解析に使用した手法を試すことのできるWebページを用意したので、興味のある方は試してみて欲しい。

参考文献

1) ニンジャスレイヤーとは?
https://diehardtales.com/n/nc13c0c39a52f

2) マディソンおばあちゃんの質問回答
https://twitter.com/dhtls/status/201197673880096768

3) http://www15.atpages.jp/vespiking/njslyr/teams.html

4) 圧縮率による著者推定法のニンジャスレイヤーへの応用
https://note.com/njrecalls/n/nf7bf4fe33c3f


この記事が気に入ったらサポートをしてみませんか?