機械翻訳含めて「無断学習」は全面禁止で良い

生成AIについて「無断学習がダメだと言うなら機械翻訳も将棋AIもダメになるぞー」とbotのように延々と言い続ける人がいまだにいます。それに対して私は「機械翻訳などの学習は『パターン分析』の部類で丸コピするような生成AIの『学習』とまったく違う」と反論して来ました。

しかしbotが長文(と言っても数千文字に満たないですが)を読めるはずも無いし、特に知識が無い人も「機械翻訳も無断学習で作られてる」と言われてサッと反論できるものでもありません(と言ってもマリオやピカチュウがそのまま出てくる画像生成「AI」はAIカルト信者以外は誰もが一目で問題だとわかりますが)。
そこで話を手短に終わらせるため、そもそも「機械学習」それ自体も問題を含んでいることを考え、「議論」だけでなく実際の運用でも問題が起きないように「無断学習は一律禁止にすべき」と意見を変更しました。

そもそも機械翻訳は不完全なものなのだから無断学習を禁止して多少性能が落ちても問題ありません。学習に使用するのは公式対訳がある公文書とか著作権が無いものだけにしても特に困ることは無いでしょう。

将来「AIの学習は人間の学習と同じ」になりAIが英語の教本を買って文法などを学び歴史背景や科学知識を考慮した翻訳ができるようになり人間の翻訳家が不要になるなら誰も文句は言わないでしょう。マンガと違ってカメラ打ち壊し運動をした画家はいませんし。

「棋譜は著作物であるという学説も少数だがある。将棋AIも作れなくなるぞ!」と言うかも知れませんが、AlphaGoZeroは人間の棋譜を参考にして無いし、現在はそれを更に上回るMuZeroが将棋その他の分野でも人間を上回ってるので問題ありません。

「スパムフィルターも作れなくなるぞ!」と言うかも知れませんが、それに関しては「無断」でない学習にすればいいだけです。GMailやGoogleの規約には細かい字で色々書かれてますが、「メール自動振り分け機能を作るためにあなたのメールを学習に使用させてください。もちろん解析に用いるのみで人間が見ることも個人情報を取得することもありません」とデカデカと表示しても「OK」と言う人は多いでしょう。「許諾学習」のみにしても特に問題は起きません。
将来新しい何かを作るための学習が必要になったら「○○という機能を作るために過去のメールも含めて学習に使用していいですか?」と再度許可を取ればいいだけです。
クレジットカード会社が「不正利用を検知するためにあなたの使用履歴を学習に使ってもいいですか? もちろん個人を特定できないように匿名化した形です」と言っても同意する人は多いでしょうからこちらも問題ありません。

Preferred Networksは、現在医療向けAIなどの開発も行なってますが、例えばガン早期発見のための医用画像解析AIを作るための学習画像で患者の許可が明示的に必要になったとしても、「医療の発展のため匿名化した形で学習に使用させてください」と言えば同意する人も多いでしょうから「許諾学習」できるので問題ありません。

Life Sciences - 株式会社Preferred Networks

ChatGPTは世界人権宣言や20年以上前に出版された評価の定まってる学術書だけをデータセットにしても下記のようなQ&Aには使えますし「文章の要約」なども可能でしょう。そしてある程度広まった「知識」はもはや誰のものでも無いので、データセットに使用した学術書一覧をクレジットすればフェアユースに同意する学者も多いでしょう。

質が保証されてるのでグローバルサウスでの有害児童労働も必要ありません。

以上により、今後「無断学習がダメと言うなら機械翻訳とかはどうなんだ?」と聞かれたら「はい。機械翻訳などもすべて許諾学習のみにすべきだと思います」と答えることにします。

ケビン・ビンフィールドによれば、ラッダイト運動の参加者は「機械があってもまったく問題なかった」という。ラッダイト運動の参加者は、標準的な労働慣行を回避するために「詐欺的で欺瞞的な方法」で機械を使用する製造業者を攻撃することに限定した


サポートいただけると記事を書く時間や質問に回答できる時間が増えます。