見出し画像

知財系 Advent Calendar 2022 -『英語の苦手な理系の皆さん!特許明細書と機械翻訳を利用して英語を学んでみようじゃないか♪』というコンテンツを考えている件

はじめに

皆様、お疲れ様です。nasa です。この記事は『知財系 Advent Calendar 2022』の投稿記事になります。ちょうど良い機会?なので、コンテンツ作りの妄想をしたいと思います。しばらくお付き合い下さいませ!

何か役立つコンテンツを作りたい

さてさて、どうしたものか

ずーと考えていたのですが、何か役立つコンテンツを作れないのだろうかと。お金を支払って頂けるようなコンテンツを作れないのだろうかと考えていました。

もちろん機械翻訳絡みのコンテンツなんですが、翻訳者向けと考えるとなんだかしっくりこないわけです。自分よりも優秀な翻訳者なんてゴロゴロいるし、基本的に翻訳業界ではあまり良いものとして受け取られていないみたいだし。まぁ、分からなくもないですが、基本的に良いツールだと個人的には思っているワケで。。。

そこで最近は、見る方向を少しずらして考えるようになりました。私は、翻訳の仕事を経験してきてますが、翻訳者というよりはエンジニアなんですよね。英語の不得意なエンジニアなんですよ。ツールの魅力に誘われて翻訳に手を出したエンジニアなんですよ。そう改めて思ったら、なんだか、気が楽になってきましたね(笑)。

あ、失礼。知らない方がいるかもしれないので、念のために言っておくと、本業「エンジニア」、副業「特許翻訳」をしてます。そして、典型的な理系の道を歩んできました。あしからず。

エンジニア向けの英語コンテンツってあり?

現在、自分が関わっている翻訳業務を考えると、まずは受注している「特許翻訳」を思い浮かべますが、とりあえず横に置いときます。となると、本業での翻訳業務となるわけですが、何があるでしょうか。

  • 英語での資料の読み書き

  • 英語でのメールの読み書き

  • 英語でのチャットのやり取り

この3つのうち何れかは毎日やっているような気がします。特に英語の「読み」は多いかもしれないですね。「書き」はそこまで多くないかな。チャットも多くないですね。

では、このようなとき、職場のエンジニアはどうするかというと、ほぼ機械翻訳使ってます。具体的に言うと、Google翻訳やDeepLですね(ちなみに、職場ではDeepLはあまり知られてないように感じます)。ただ、使いこなしているかと言うと、怪しいものです。出力結果に自信が持てないながらも、業務を進めるために、間違ってもいいから(気づかず)どんどん使ってる。そんな感じがします。

と言うことは、機械翻訳のより良い使い方を学べば、業務ははかどるし、出力結果に自信を持って対応できるようになれば、英語に対する障壁が小さくなる気がします。なので、エンジニア向けの機械翻訳リテラシー習得のコンテンツってありかもしれません。

さて、実際にはどうすればよいのか?

では「どうしましょう?」といった所なんですが、「機械翻訳のより良い使い方」に関しては、すでに書籍や冊子が出ています。

まずこの2つは是非見ていただきたいですね。基本的なことは、おおよそ分かるかと思います。あとは、実際に試してみて、自分なりの方法を確立すればよいのですが、問題があります。特に英語の苦手な方には、大きな問題です。先ほども言ったように、「出力結果に対して自身が持てない。正誤判定ができない。」といった問題が出てきます。そりゃ当然、分からないですわ。。。

そうそう、「機械翻訳の出力結果に対して判定(確認)をする」ということに疑問をもつ方はいませんよね? そのまま使っても大丈夫と思ってませんよね? 辞書のように使っている方もいませんよね? 翻訳精度は年々増してきてますが、間違いは必ずあるので確認は必要ですよ! 

機械翻訳リテラシーを身に付けるには

話を戻して、、、さて、この判定なんですが、どうすればできるようになるんでしょうね? 間違わない機械翻訳の登場を待ちますか? いえいえ、現実的ではありません。じゃあ、どうするのか・・・・・・ はい、個人的な意見としては、『英語の勉強をするしかないです!』

え・・・・・・・

はい! 皆さんの落胆の声が聞こえてきた気がします。「英語が分からないから機械翻訳を使っているのに」とか思っていることでしょう。うん、気持ち分かりますよ。私だって分からないから使うときありますもん。

でもですね、機械翻訳を使うときに肝に銘じておくべきことは「出力結果(翻訳文)が間違っているかもしれない」ということです。このことを前提に使わなければなりません。そのことを知ってか知らずか、出力結果をそのまま使って騒ぎになったって話聞いたことありませんか?

例えば、英語の文献のおおよその内容が知りたい場合は、間違いがあったとしても、それほど影響はないかもしれません。ただ、装置のマニュアルなどで製品の品質や命の危険が伴う場合は、間違うわけにはいきません。多大な損害をもたらしたり、人命が損なわれるかもしれません。

少々大げさだったかもしれませんが、時と場合によっては、間違うわけにはいかないし、しかも、業務中であれば、すぐに判断して対応しなければならないことってありますよね。私の場合は、勤務先で使っている生産装置のエラーメッセージはほぼ英語ですからね。機械翻訳で確認して、即対応ってこともあります。エラー文を読み間違えたために、製品がお亡くなりになる可能性もあるわけで。。。

機械翻訳リテラシーに必要な英語力を身に付ける

すみません。少々脱線してしまいましたが、機械翻訳を正しく扱うためには、どうしても英語力は必要です。でも、安心して下さい。現在は、機械翻訳を含め、便利なツールがたくさん存在します。そして、英語力の向上にそれらのツールを上手く使えば、ツールの使用を前提としたあなたの業務に必要な英語力が思いのほか自然と身に付き、英語に対する抵抗感が軽減されるはずです。

全くの努力を必要としないとは決していいませんが、狙いをしっかりと見定めて、準備を整え、集中して訓練すれば、業務を乗り切るために必要な英語力は身につくはずです。特別な能力は必要ありません。

まず、狙っていこうと思うところは『英語の技術文献を読む』にしようかと目論んでいます。ツールにアシストしてもらいながら、コツコツorガンガン英文を読んでいって、頭のなかに英語の相場感を形成し、ついでにツールを使いこなしちゃおうといったところでしょうか。

言い換えると、『ターゲットを絞り込み、ツールの力で可能な限り楽をしながら、かつ、ツールの使い方も学びながら、最低限必要な英語力を身に付けて、エンジニアとしての業務に役立てよう』と言うことです。

まぁ、自身の英語力の再訓練も兼ねて、これまで特許翻訳で培ってきたことを、自分のような英語の苦手なエンジニアに役立てるように再構築し、コンテンツとして残して、皆に広めたいとの思い(妄想)があります。

妄想 - 準備編

まずは特許から

では、思い(妄想)を達成するために何が必要か考えてみたいともいます。
ターゲットを英語の技術文献としましたが、パッと思いつくものは、論文、特許、専門書、技術系メディアあたりでしょうか。そして、それらの日本語訳があると、学習に非常に便利ですよね。英語と日本語の対訳が手に入りやすいとなると、そうですね、、、特許になるのではないかと思います。

独特な文ではありますが、エンジニアとなれば読むことになるだろうし、特許に慣れるのに越したことはないかと。和訳された専門書もありますが、対訳を準備するとなるとちょっと面倒かな。技術系メディアでよいものがあるけど、分野が限定されるので別の機会に。

もちろん、対訳のない英文を最初からガツガツ読んでいくのもありだと思いますが、「仕事に英語は必要だけどちょっとね。。。。」ってところをスタート地点と考えているため、最初は、手軽に対訳が手に入る特許から始めるのがいいと思った次第です。なので題材は特許でいきます。

簡単なお復習いしときましょう

それで、いきなりツールを使って特許をバリバリ読もうってのも良いんですが、英文法の再確認をしたほうが良い気がします。簡単なものでよいので再確認しましょう。どんなものでも良いと思うのですが、自分が良いと思ったモノがこちら

技術的な英文を題材としており(ここがイイ)、一通り文法が確認でき、そんなに厚くないテキストなので、基礎確認にはよいと思います。ちなみに、エンジニアならあまりいないと思いますが、このテキストに書かれている文の意味が、日本語としてまったく分からないのであれば、中高の理科系の教科を復習して下さい。特許を題材とした英語の勉強はキツイと思うので。。

こんな参考になる資料や本もあるよ

上の二冊は、英文法の確認用テキストなので、別に文法書もあった方がよいと思います。自身で気に入っているものを使って、、、、いえ、英語があまり好きでないのならば、そんなものはないかもしれませんね。英語の得意な方々が好む定評のある文法書も良いのですが、それよりは、

なんてよいと思います。ネイティブが英語を使うときの「意識」に焦点をあてた文法書で、なかなか面白いですよ。個人的には、学生時代にほしかったなぁと思いますね。

あとは、技術文献を読むために必要な基本的な単語・例文を集めた「東工大英単を、文法を意識したり、機械翻訳に掛けて読んでみたり、英文を前から読み下していくためにALL IN ONEを読むのも良いかもしれません。

英文を前から意味を読み取っていくには、機械翻訳を使っても、ある程度できるようになるかと思います。詳細は割愛しますが、自分はある機械翻訳を使っている内にそのようになってきました。

もし、しっかりとした訳文を作れるようになりたいのならば

それとですね、ここでの目標はあくまでも「技術英文を読む」ことなので、あまり深追いはしなくてよいと思っているのですが、もし、しっかりと訳文(和訳)も作れるようになりたい、翻訳者レベルで作れるようになりたいと思うならば、

がオススメです。自分もまだまだマスターしているとは言い切れませんが、非常に参考になります。興味があれば覗いてみて下さい。ちなみに、技術英文を読んで中身を理解していくことと、訳文を作ることとの間には、それなりの隔たりがあります。ですので、訳文を作るという部分は、一旦脇に置いといて、意味を読み取ることに注意を向けた方がよいです。

辞書も忘れずに

次は辞書ですかね。辞書も用意しましょう。紙の辞書やら、電子辞書やら、オンライン辞書やらいろいろあります。翻訳者ならば、これらの辞書をたくさん持っていることが当たり前なのですが、揃えるのは大変ですし、その必要もないです。

基本的にPC上で使えた方が便利なので、電子辞書や、オンライン辞書になるわけですが、そうですね、最初は、

あたりが良いかもしれません。英辞朗とWeblioは有名ですね。できれば有料版を使いたいところです。LogoVistaは、様々な電子辞書を取り扱っており、自分にあったものを選んで貰えたらいいかと。

この他にも、それなれにお金が掛かってしまいますが、オンライン辞書の

なんかもいいですね。良い辞書が揃っています。たまに、機械翻訳を辞書のように使う方もいますが、機械翻訳は辞書ではないですからね。言葉の意味はしっかりとした辞書から確証を得ましょう。そう言った意味では、英辞朗や、Weblioの特許例文等は、参考程度に留めておくほうが無難です。

機械翻訳はどれ使う?

さて、メインツールの機械翻訳ですが、どれがいいでしょうかね。自動翻訳とか、AI翻訳とか呼ばれているものでは、

の中から選ぶことになりますかね。有料版を含むといろいろあるのですが、まずはこの3つでしょう。それぞれ、使い勝手がことなるので、自分が使いやすいものを選ぶのが良いかと思います。

その中でも、みんなの自動翻訳は「特許」に特化した翻訳ができるので、翻訳精度という意味では、みんなの自動翻訳がいいかもしれません。それに、さまざまな機能が備わっているので面白いですよ。

ルールベース機械翻訳もいいよね?!

ところで、上の3つの機械翻訳は、ニューラル機械翻訳とも言われますが、ディープラーニング(深層学習)を利用した機械翻訳で、翻訳精度を劇的に向上させました。

一方、ルールベース機械翻訳というものもあり、いわゆる機械翻訳ソフトがそれに当たります。使ったことがあるかもしれませんが、翻訳精度は、ニューラル機械翻訳に比べて悪いですよね(笑)。

ですが、私はルールベース機械翻訳もいいと思うんですよ。特にクロスランゲージの機械翻訳ソフトは素晴らしいと思ってます!ルールベースというぐらいなので、ある意味、文法に沿っていないと変な訳になるんです。なので、工夫して読取り易くするのですが、その行為が勉強になります。そして、それが英文を前から読み下していくことにも繋がったりします。

しかも、機械翻訳ソフトには、大量の用語集が内蔵されていることが多く、クロスランゲージのソフトは、高機能な用語集ソフトといってもいいぐらい使い勝手が良いですね。これとニューラル機械翻訳を組み合わせれば最高です。ただ、残念なこととして、オススメするクロスランゲージのソフトは高価です。。。仕事で使うのならばまだしも、勉強で使うには気が引けます。

私はこれを使っているのですが、見るもらうと分かるように、高いんですよ。。。でも、すごく良いものです!色んな意味で便利。使ったことはないですが、PAT-Transer よりも安めのシリーズのピカイチ翻訳や、LogoVista から出ている LogoVista Pro なんかも良いかもしれません。ちなみに、LogoVista Proは、Google翻訳とAPIで連携して使えるようです。

とにかく、エンジニアなら機械で遊ぶのは好きな方だと思うし、高機能なルールベース機械翻訳で遊んだ後に(遊びながら)、ニューラル機械翻訳をいじるのが良いのではないかと思ってます!

妄想 - 実践編

J-PlatPat から特許明細書を探そう

それでは、実践の妄想を始めます。特許情報プラットフォームである J-PatPat から英日の対訳のある特許を探し出すわけですが、日頃から J-PatPat を使っている方はどうやっているんでしょうかね?いろいろやり方があると思うのですが、自分のやり方を紹介します。

その前に、もしかしたら J-PatPat を使ったことがない人だっているかもしれないですね。開発系のエンジニアならまだしも、量産系のエンジニアならば見たことない人多い気がします。とりあえず、詳しいことは、ここでは割愛しますね。

自分のやり方って単純で「特許・実用新案検索」で、「全文」または「発明・考案の名称/タイトル」の欄に、自分の好きなキーワードを入力して、検索オプション内の「国際公開日」に適当な日付を入力するだけです。

J-PlatPat 入力例

入力例を載せましたが、これで検索するとPCT出願したものがヒットするはずです。その中から英訳がある特許があると思うので、そこから英日の対訳を作ります。

J-PlatPat 検索結果

検索結果がこちら。ここで、件数が多すぎて表示出来ないことがあります。絞る方法はいろいろありますが、例えば、国際公開日をより新しい日付にすると絞れます。さて、とりあえず、特表2022-540263を見てみます。

特表2022-540263の中身

中を見てみると、【国際公開番号】という項目があります。そこに WO2021/251953とあるので、ここをクリックします。

WO2021/251953の中身

はい、英文が出てきました。簡単でしょ? これらを勉強しやすいように加工するわけですが、その方法は、、、、割愛します。長くなるので、すみません。別の機会に。

と、まぁ、こんな風に簡単に手に入る分けです。自分の好きな技術分野の英語と日本語の対訳が、いくらでも手に入ります。この方法の注意点としては、この例では、英文が出てきましたが、他の言語の場合もあります。あと、選ぶ英文は、アメリカの会社が無難かと思います。例えば、原文がヨーロッパ系だと、1文がものすごく長く分かり難いものもあるので、避けた方がいいかもしれません。あと、日本も止めた方がいい気がします。

英文を読んでみる前の準備運動

では、英文を読んでいきましょう!といきたいところですが、その前に、準備運動はいかがでしょうか。絶対に必要ということはないですが、内容を把握する手助けになると思います。

準備運動とは「テキストマイニング」のことです。頻出用語や、共起ネットワークなどを利用して内容把握の助けとします。もし、これらのものだけで書いてあることが想像できてしまえば、その技術についてよく理解していることになると思うし、もし、何のことだかサッパリとなれば、頻出用語等からその技術について調査するところから始めた方が良いかもしれません。

この「テキストマイニング」ですが、無料ツールを利用して行います。

使い方は、簡単にですが、以前に私のブログで紹介しましたe-Patent トークセッションを終えて – KH Coderの活用法。よければ見てみてください。

この「テキストマイニング」ですが、エンジニアとして生きていく中で、多くの技術文献を読まなければならないことがあるかもしれません。そんなときに、簡単な内容把握や、読むべき文献か否かを判断する方法の1つとして使えると思います。この辺をもっと突っ込んでやってみるのも面白そうですね。

英文をアシストして貰いながら読んでみる

では、実際に、『機械翻訳』にアシストして貰いながら読んでいくわけですが、使用するツールを土台として考えると、パッと思い浮かぶ方法として、3つあります。

  1. テキストエディタ、またはWordを使って読んでいく

  2. 機械翻訳ソフトを使って読んでいく

  3. CATツールを使って読んでいく

1番目は、もっともお金がかけずにやれる方法です。具体的なことは割愛しますが、操作性も良くて、学ぶときはいいかもしれません。ただ、学んでいく過程で用語や対訳を「資産」として蓄積していくことをオススメするのですが、ここが弱いですね。

2番目は、選ぶ機械翻訳ソフトによっても違うのですが、お金が一番かかる方法です。一押しの PAT-Transer なんて高いですよ。ですが、用語集は揃っているし、文法的なアシストをしてくれるし、資産形成もできるし、いいですね。ニューラル機械翻訳との連携も手間をかければできます。

3番目は、翻訳者が使うCATツールを使う方法です。CATツールとは、コンピュータ支援翻訳ツールのことで、用語集や蓄積した対訳を利用して(参照しやすいようにして)、翻訳を効率的に行うためのツールです。無料のものから有料のものまでいろいろあります。ニューラル機械翻訳との連携は、一番良いと思うのですが、学ぶときの操作を考えると、ちょっと使い難いですね。

以上の3つになるのですが、私の一番のオススメは2番目です。そして、勉強では無く、英語の技術文献を間違いなくアシストしながら読んでいくためには、3番目が使い勝手が良くていいかもしれません。

そうそう、ツールを使う上で注意点があります。ニューラル機械翻訳を含めWeb上の無料ツールを使う場合ですが、機密性の高い文書を扱うときは注意して下さい。というか、この場合は、無料ツールを使わずセキュリティ対策を施した有料ツールを使って下さい。ニューラル機械翻訳なんて「入力した文章を品質向上のため使わせてもらいます」なんて普通ですので、機密性の高い文書を扱うときは十分に注意して下さい。

実際にどんな風に読むの?

基本的に特別な方法でもなんともないです(笑)。基本方針は『英文法に沿って英文を前から読み下してく』だけです!それを、あらゆるツールを使って少しでも手間を減らして、どんどん読んでいって、経験値を増やして、技術英語の相場感を鍛えることです。例えば、先ほど、J-PlatPat で調べた英文を見てみます。

The system determines to convert the digital component object into an audio output format.

WO2021251953A1

まず英文を読んでみて、分からない単語があれば調べますよね。自分の学生時代だったら、紙の辞書を引いてました。これを、コピペで電子辞書で調べたり、ツールによってはクリックしただけで、意味が出力されたりします。また、用語が何のことだか分からなければ調査します(読み進めるうちに分かることもあるけど)。

そして、前から読んでいくわけですが、読む前にニューラル機械翻訳や対訳の和訳を見てみるのもいいです。

デジタルコンポーネントオブジェクトをオーディオ出力フォーマットに変換することを決定する。

DeepLの和訳

システムは、デジタルコンポーネントオブジェクトをオーディオ出力フォーマットに変換すると決定する。

特表2022-540263

これらを頭の隅に置きつつ読んでみると(ちなみに、⇒ から右側は心の声です!)、

The system determines
システムが決定する ⇒ 何を決定するのだろう?

to convert the digital component object
デジタルコンポーネントオフジェクトを変換することを ⇒ へぇ~、デジタルコンポーネントオフジェクトを変換するんだ

into an audio output format.
オーディオ出力フォーマットに(変換する) ⇒ ふむふむ、オーディオ出力フォーマットに変換するんだね

はい、こんな感じです!特表2022-540263とも相異ないですね。読みやすいように、ある程度区切りながら読んでいくわけです。このちょうどよい区切り方や、区切ったときの意味などは、機械翻訳ソフトや、Google翻訳とかDeepLのニューラル機械翻訳にアシストしてもらいます。

例えば、Google翻訳だと、次のようになります。

The system determines
システムが決定します

to convert the digital component object
デジタルコンポーネントオブジェクトを変換する

into an audio output format.
オーディオ出力形式に変換します。

うん、今回はなかなか使える訳が出てますね(最後の「変換します」は余計だけど。。)。

ここで、あえて和訳は作らなくていいと思います。文章の意味はわかったのですから。次、進めましょう。もし和訳を作るとすれば、

「デジタルコンポーネントオブジェクトからオーディオ出力フォーマットへの変換は、システムによって決定される。」

とかにするかな。特表2022-540263とは違うけど、これでもいいと思う。

あと、お気づきのように、DeepLの訳は「System」が抜けていますね。翻訳の仕事だったら訳抜けとして騒がれるけど、文章の内容を把握するのであれば、影響が少ないかもしれませんね。

英語の文献を機械翻訳に掛けて、訳文だけを見て読むことがあると思いますが、今回はあまり影響はないと思うけど、もっと致命的な間違いをすることも多々あるんですよね。なので、正確かつ少しでも楽して読む方法としても、今回妄想している方法って役立つのかなぁと思ってます。

調べた用語や、考えた文章は資産にしましょう!

ところで、英文を読んでいく中で、用語を調べたり、文章の意味を考えたりしていきますが、記録もせずに通り過ぎていくのは勿体ないです。できるだけ「データ」として残して下さい。

英文を読みながら「データ」をどんどん溜めて「資産化」しちゃうのです。この「資産」は、いろんなツールで参照しやすいようにデータ化するのがポイントです。

具体的には、Excel などで、左の列に英語、右の列に日本語を記入します。これを用語と文章のそれぞれで作っていきます。

用語バージョン例
文章バージョン例

この「資産化」は何に役立つかというと、英文を読んでいるときに、過去に読んだものと同じ用語や似たような文章があった場合に、検索しやすい形で残しておけば、大いに参考とすることができます。

また、機械翻訳ソフトや、CATツールは、用語や文章をデータとして残す機能が備わっているのは勿論のこと、同じ用語や似た文章があれば、自分から探しにいかなくても、ツールが自動で教えてくれます。結構便利ですよ。

ちなみに、この対訳形式の文書データは、翻訳業界では「翻訳メモリ」と呼んでいます。本来は、英語の1つの文章に対して、しっかりと訳した1つの日本語の文章を対にさせます。ですが、今回は読むことが目的なので、

The system determines to convert the digital component object into an audio output format.

の対訳は、

システムが決定する / デジタルコンポーネントオフジェクトを変換することを / オーディオ出力フォーマットに(変換する)

としてもいいです。もし、翻訳の仕事をするのであれば、しっかりと訳してデータ化する必要がありますが、英文を「読む」ことが目的なので、このままでもよいのではないでしょうか。

あとは、そうですね、、、資産化の他の恩恵としては、英作文をする場合や、機械翻訳エンジンのカスタマイズに使えたりします。だた、これらの場合、特に後者は、しっかりと訳文を作る必要があります。ある分野に特化したカスタマイズエンジンは、更に翻訳精度の高い訳文をたたき出してくれます。

何にせよ、資産化はやっておいて損はないでしょう。

最後に

意外と長くなってしまいました。。。ここまで付き合って下さりありがとうございます。いろいろと思うがままに書いてみましたが、整理すると、

  1. 英語の苦手な理系(エンジニア)向けのコンテンツを作ってみたい

  2. 機械翻訳リテラシーを身に付けられるコンテンツを作ってみたい

  3. 翻訳者が扱うようなツールを使った機械翻訳リテラシーを伝えたい

  4. 英語の苦手な理系(エンジニア)だとしても、ツールのアシストで英語の壁を乗り越えて行けることを示したい

こんなところでしょうか。今回は「英語を読む」ことに集中しましたが、「英語を書く」ことにもチャレンジしたいですね。そのためには、自身の鍛錬が相当必要ですが。。。

とにかく、この妄想を現実にするべく、動いていきたいと思います!

この記事が気に入ったらサポートをしてみませんか?