見出し画像

AI絵師と著作権の問題、いろいろごっちゃにしてません? -①AIモデル編-

現在の状況(Introduction)

AIが生成した画像には著作権がない。かねてより著作権を認めるかどうか審議中であったAI生成漫画「Zarya of the Dawn」に端を発した一連の騒動に、2023年3月16日アメリカ著作権局がガイドラインを発表した。

「AIが自動生成=著作権なし」「人間の創作=著作権あり」 米著作権局、AI生成コンテンツの登録ガイドライン公表 - ITmedia NEWS

このニュースが駆け巡り、動画投稿サイトにも「AI絵師爆死」などというセンセーショナルな文字が踊り、SNSでもAI生成画像=違法&著作権なしといった誤ったステレオタイプが蔓延してしまった。

確かにAI画像生成に限らず、大規模言語モデル(LLM)やその他のウェブクロール型収集データを利用してディープラーニングを行ったAIやその成果物に対しては様々な問題があることは事実である。

ここで、それらをAI画像生成を例にとって
・学習用データ収集
・AIモデル
・AIモデルによる成果物
の3つの要素に対して、日本と海外(特にアメリカ)の2軸を取って各方面の情報を纏めてみる。

ただし、2023年4月15日現在、世界規模で見て何の実効性のある判例もなく、著作権やその他の問題は全て審議中と言う点にはご容赦願いたい。

学習用データ収集(LAION-5B)

LAION-5Bの利用規約に商用利用の問題はあるか?

StableDiffusionLaion-5Bと言う58.5億枚の画像とそれを説明する文章のセットで学習されている。

LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS | LAION

その中で

do not recommend using it for creating ready-to-go industrial products, as the basic research about general properties and safety of such large-scale models, which we would like to encourage with this release, is still in progress.
(大規模モデルの一般的な性質と安全性が基礎研究の段階であり、我々が責任を負うことが出来ないため、発表可能な工業製品の作成に使用することは勧めません。)

LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS | LAION

と記載されてはいるものの、利用規約等を確認したところ、学習データを使って作ったモデルを商用利用にしてはいけないと言う記載はなかった

LAION-5B自体の問題:個人情報と著作権

・個人情報

Patient images in LAION datasets are only a sample of a larger issue (the-decoder.com)

LAION-5Bにはいくつか個人情報が特定可能な形で医療用画像が混入していることが分かっている。
LAION-5Bの規約では個人情報の含まれたデータは申請すれば削除可能となっているが、既に学習に使われてしまった後となればStableDiffusionMidjurneyにまで訴追が及ぶかもしれない。

著作権
また、LAION-5Bには著作者の許諾なく集められた絵画や画像データも多く含まれており、これが集団訴訟の原因にもなっている。

アーティストの作品でAI訓練 「無断で複製された」米国で集団提訴 [ChatGPT]:朝日新聞デジタル (asahi.com)
画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される - GIGAZINE

LAION-5Bの個人情報と著作権の問題を日米間で比較する

個人情報の問題

言うまでもなく日米両方でアウトである。
特にEU加盟国では一般データ保護規則(GDPR:General Data Protection Regulation)が批准されており、罰則もキツイ。
しかし、StableDiffusionやMidjurneyまで訴追を受けるかと言う問題は追って記載する。

GDPRはEUが定めた個人情報保護に関する規則!日本企業が違反で巨額の罰金を払う可能性も (mamoru-kun.com)

著作権の問題

アメリカ:フェアユースの壁

アメリカではフェアユース(公正な使用)に限り、著作権者に無断で画像や作品を使用しても良いことになっている。

「フェアユース」とは - Legal ヘルプ (google.com)
Fair Use | Digital Media Law Project (dmlp.org)

フェアユースの 4 つの要素:
1. 利用の目的と特性(その利用が、商用か非営利の教育目的かなど)
2. 著作権のある著作物の性質
3. 著作権のある著作物全体との関連における使用された部分の量および実質性
4. 著作権のある著作物の潜在的市場または価値に対する利用の影響

「フェアユース」とは - Legal ヘルプ (google.com)

これは日本で言うところの教育の場や、ニュースや論文などで引用したりする目的に限り、著作権による使用料が発生しないことに似ている。
フェアユースでは目的として公共性や営利事業でないこと、元の権利者の利益を損なわない範囲での使用が認められている。
例えば引用と称して有料記事の大半をコピーして貼り付けるのは当然フェアでないし、「ダースベイダーがルーク・スカイウォーカーの○○である」などの本質的な部分を取り出したり、元の記事の意図を大きく損なうような切り抜きもNGである。あくまで、有料記事の一文を載せてあそこではこう書いていたのように参考にすることは合法であるという話だ。

こう書くと、オープンソースかつ非営利目的であるStableDiffusionやその派生であるモデルはフェアユース的には問題ないが、モデルが非公開かつ営利事業に用いているMidjurneyやStableDiffusionの派生でありながら収益化しているNovel AIフェアユースの範囲から外れているように見える。

しかし、ここでも個人情報と同じく、後述する拡散モデルの性質が関わってくるため一筋縄ではいかない。

日本:著作権法第30条の4

著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁 (bunka.go.jp)
日本では平成30年当時、来るべきAI時代に先駆けて著作権法の改正を行うという旧態依然とした我が国としては異例の先進的な法改正を行っている。

【第448回】改正著作権法、全会一致で成立!今後の著作権法の行方は?(2021/05/26) - 参議院議員 山田太郎 公式webサイト (taroyamada.jp)

この中で、

改正後の第30条の4では,著作物は,技術の開発等のための試験の用に供する場合,情報解析の用に供する場合,人の知覚による認識を伴うことなく電子計算機による情報処理の過程における利用等に供する場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,利用することができることとしています。

著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁 (bunka.go.jp)

と、AIの深層学習で大量のデータを一気に処理するような場合においては著作権の範囲外と言うことになっている。
これはアメリカのフェアユースの概念に似ているが、更に進んでおり、営利目的かどうかは問わない。
Midjourney、Stable Diffusion、mimicなどの画像自動生成AIと著作権 | STORIA法律事務所 (storialaw.jp)
(↑この記事を読んだらこのNoteの99%は読まなくていいのは内緒だ)

つまり、LAION-5Bに含まれている著作物の権利者がフェアユースでないと怒ろうが、Novel AIWaifu DiffusionなどのAIモデルがアニメ絵やイラスト絵を学習するために利用したDanbooruのデータに違法に転載された画像があろうが、こと日本国内に限っては合法と言うことになる。

更に言うと、アメリカではフェアユースの概念から違法とされるモデルでも、日本で作ってアメリカに輸出してしまえば合法と言う悪用しようとすれば出来てしまう抜け穴もある。

しかし、逆に言えばアメリカが著作権に関してフェアユースの概念を適応し、欧州も似たような状況である中、欧米でLLMやDiffuserのような大量のデータを深層学習させて作ったAIで商売をすることはかなり違法に近いグレーな訳だ。

そういう意味では、日本こそがドラえもんのような強力なAIが生まれるのに適した法律を敷いているとも言える。まあ、未来は23世紀にならないと分からないが。

AIはそもそも画像をコピーしているのか?

原形をとどめないレベルの不可逆圧縮

58億枚以上のデータを学習したStableDiffusionを含めた多くのAIモデルは実際に58億枚を覚えているのか?
と言えばNOである。

StableDiffusionの本体は約4GB、だいたい43億byteである。となると画像1枚当たり多くても1byteぐらいしかない。
1byteがどれぐらいかって言うと数字で言うとゲーマーにおなじみの0~255、半角英数字で言うとa~z, A~Z, 0~9, 半角カタカナの1byte文字1文字分だ。
絵1枚に付き、「ア」ぐらいしか覚えていない。
ASCII CODE (sguc.ac.jp)

もちろん、人間の脳を模したディープラーニングを用いているため、たくさんの絵の中から似た者同士や一部が似ているものを一纏めに覚えて圧縮するため、実際に絵1枚の情報が1byteにまで圧縮されるわけではないが、じゃあモデルの中を覗くと元の絵が入っているかと言うとそうではない

Deep Learning with Python. 2017

Deep Learning in 5 minutes Part 1: Convolutional Neural Networks | by data_datum | Medium

AIのモデルには例えていうなら、バラバラにされたレゴブロックのピースが入っているようなもので、元の絵は文字通り消化されてAIの栄養になってしまっている。
プロンプトを工夫すればそれっぽいものをひねり出すことは出来ても、AIから元の絵を取り出すのは不可能だ。
そういう意味では多少の個人情報が含まれたデータをAIに食べさせようが、不可逆圧縮で匿名化しているともいえる。
この点を鑑みればAIを個人情報保護の観点から訴えることは難しいだろう。

また、著作権に関しても、元々のデータが残っていない以上、アメリカにおいてフェアユースの概念をもって訴追は難しいだろうし、こと日本においてはAIモデルは合法である。
Fair Use: Training Generative AI - Creative Commons

実際に法に触れる場合はどんな時?

特定のイラストレーターやアーティストを狙い撃ちにしたLoRA

LoRA(Low-Rank Adaptation of Large Language Models:大規模言語モデルの低ランク適応)とはマイクロソフトが発表したAIのファインチューニング(調整方法)で、この手法を用いれば少ない枚数で特定の絵柄を模倣することが出来る。
LoRA: Low-Rank Adaptation of Large Language Models - Microsoft Research

例えば、自分のオリジナルキャラクターをAIに出力させたい時、本来なら数千、数万枚必要な画像を数枚~数十枚に抑えることが出来る。
VRoid(3D)とLora(追加学習)でオリキャラを学習させてAI画像を一次創作の肥やしにする|852話|note

この機能を悪用し、特定の作家の画像を無断で追加学習させる事例が後を絶たない。

アメリカ:フェアユースの観点

画像の学習の為に著作権を超える根拠となるのがフェアユースの概念だが、そのフェアユースの観点から見ても、特定の作家を狙ったLoRAはかなり黒に近いグレーと言わざるを得ない。

フェアユースの 4 つの要素:
1. 利用の目的と特性(その利用が、商用か非営利の教育目的かなど)
2. 著作権のある著作物の性質
3. 著作権のある著作物全体との関連における使用された部分の量および実質性
4. 著作権のある著作物の潜在的市場または価値に対する利用の影響

「フェアユース」とは - Legal ヘルプ (google.com)

と何一つフェアユースの要素を満たしていない。
例えモデルの中に元の画像が残っていないとしても、その生成画像が特定の作家の仕事を奪うのなら、特に4番目を強く侵害していると言える。

日本:著作権法第30条の4

いかに無敵の著作権法第30条の4とは言え、

著作物は,技術の開発等のための試験の用に供する場合,情報解析の用に供する場合,人の知覚による認識を伴うことなく電子計算機による情報処理の過程における利用等に供する場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には,その必要と認められる限度において,利用することができる

著作権法の一部を改正する法律(平成30年法律第30号)について | 文化庁 (bunka.go.jp)

の限度を超えている。そもそも技術開発のためでもなければ、著作物に表現された思想または感情を享受させる目的もあるので二重にアウトだ。

しかし、生成した画像を著作権法違反に問えるか?と言えばまた難しいところだ。

著作権法違反に問うためには類似性と依拠性という二つの柱が必要で、類似性に関してはアウトととることが出来るかもしれないが、依拠性、要するに元となった作品がなければ作れなかったのではないか?と言う問題に関してはとても難しい

一度、LoRAという変換を通してしまっている以上、元の画像データは不可逆圧縮でほぼ残っていないし、元の絵をトレースや切り貼りコラージュするように実際に著作権法違反に問われるような方法で絵を生成する訳でもない。

さながらあるイラストレーターが特定の作家風の絵を描くようなもので、これをもって依拠性と言うのは難しい。

ただし、XXさん風と言うように特定のイラストレーターの名前を出した上で公開した場合は二次創作として翻案権や著作者人格権の侵害等の問題が発生する可能性はある。

二次創作やパロディは法律違反? 著作権法違反となる行為を弁護士が解説 (vbest.jp)

過学習の問題

LoRAの問題と近接しているが、少し異なるのが過学習だ。
LoRA意図して目的の絵柄に近づけようとする一方、過学習意図せず特定の絵柄に近づけすぎてしまう問題である。
恐らく、評価が高かった絵の学習の重みづけを強くしすぎたせいだろう。

StableDiffusionで有料写真サイトのウォーターマークが出てしまうのも同様の現象だ。

特にnijijurneyで取りざたされているが、

会木 on Twitter: "商用利用可能な画像生成AI「nijijourneyV5」 特に絵柄を指定してないのに既視感のあるイラストが生成されてしまう 版権キャラそのものが生成される場合もあり 一部のAI推進派もこれには困惑してしまう https://t.co/A6gM8445dK" / Twitter

Rootport💰🍹🍑 on Twitter: "Nijijourney Ver.5は、やや過学習ぎみで、版権キャラにそっくりなキャラクターをしれっと出力する場合があります。それも、かなり高頻度で出力されます。Niji V5の商用利用を考えている企業は注意したほうがいいです。オタク偏差値の高いスタッフにチェックさせたほうがいい。#Nijijourney #AIart https://t.co/p0XzGAFm68" / Twitter

など、おそらくDanbooruのデータをAIに食べさせたのか、既存のキャラそっくりの絵が出てきてしまっている。

この場合、tweetでも指摘されているが、商標権や意匠権、著作人格権の侵害となる可能性がある。要するに、二次創作が法的にアウトなのと同じだ。

Novel AIリーク問題(NAIリークモデル問題)

【更新】AIイラスト「NovelAI」がハッキング受け全てが流出→StableDiffusionに合体へ 全人類が無尽蔵にイラスト作れる世界へ「終わった、何もかも」→公式声明「現時点で個人情報や決済情報が漏れた疑いはない」 : まとめダネ! (matomedane.jp)

ASCII.jp:画像生成AIの激変は序の口に過ぎない (1/4)

2022年10月初頭、Novel AIハッキングを受け、そのAIモデルデータが盗まれると言う事件が発生した。

その直後から、Anything v3などの高クオリティのイラスト風モデルが出現し、人気を博したが、このモデルを解析したところNovel AIのモデルデータが使用されている可能性が高いとの報告がなされた。

開発中のWaifu Diffusion 1.35にもモデルの混入が疑われ、開発中止となった事例も有名である。
AI画像「WaifuDiffusion1.3.5」リークモデル問題決着!NovelAI運営が「最新版配布を公認」WD製作者は責任感じて学習やり直し検討 : メタバース速報 メタバースまとめ (blog.jp)

このハッキングはおそらく、Novel AIが米国におけるフェアユースを無視した営利事業を行っていたことへの意趣返しと言ったところかもしれない。

しかし、だからと言って不正に入手したデータを利用した場合、知的財産権の侵害として不正競争防止法の違反となる。
知的財産に関するリスクについて (meti.go.jp)

残念ながらこのNAIリークを利用したモデルあるいはその派生モデルが隆盛を極めている状況だ。

【2023年版】Stable Diffusion イラスト生成モデル紹介・一覧 | はちはちワードプレス (taron88wordpress.net)

今のところ、Novel AIはこれらのモデルに対して動きを見せていないが、将来的に企業体が法的にクリーンなモデルを多数リリースし、合法的に収益化できるようになった場合、NAIリークモデルを使用して金銭を稼いでいたという事実はクリエイターにとっての汚点となる可能性がある。

赤信号、みんなで渡れば怖くないと目をつぶるか、大人しく比較的問題が少ないとされるモデルで頑張るかは各々の判断に任せられる。

追記)これまでリークモデルに沈黙を貫いてきたNovelAIですが、ついに腰を上げたようです。
NovelAI、“リークモデル”に「法的措置を取る可能性」 SNSで方針明かす - ITmedia NEWS

どんなモデルなら法的に問題がないのか?

収益化を行う場合

アメリカのフェアユースの概念からすると、どのモデルでも収益化は出来ないはずではある。しかし、MidjurneyやNovelAIが一応見逃されているのは拡散モデルAIと言う革新性を持っているからだととも言われている。
Fair Use: Training Generative AI - Creative Commons

うーむ。実利の国アメリカよ。

一応、StableDiffusionのversion3では学習されたくない人は声をあげることで除外されるオプトアウトを採用するなど、フェアユースの理想に近づけようとの努力はされている。
画像生成AI「Stable Diffusion」バージョン3では自分の画像を学習させないように指示することが可能になる - GIGAZINE

結局は学習元となるデータを提供してくれているイラストレーターやクリエイターに感謝を忘れず、一次創作者が損をしないスキームの構築が必要だろう。

ともかく、日本に住んでいる我々においては著作権法第30条の4に従う限りは合法である。

この観点から見ると、NAIリークさえ避け、あからさまに危険なLoRAさえ導入しなければ安全と言えるだろう。

まとめ

  • LAION-5Bを利用したStableDiffusionを含めた画像生成AIは著作権者の心情はどうあれ、日本では合法。ただし、NAIリークモデルは除く。

  • 露骨なLoRAや過学習は著作権や意匠権などを侵害する可能性がある。

  • 現状、著作権法的には問題ないとはいえ、モデル生成時には著作者に歩み寄る姿勢が必要。

クッソ長くなったのでAIで生成した画像の著作権に関しては次回に分割します。よろしくお願いします。

タイトル使用モデル
gsdf/Replicant-V2.0 · Hugging Face

この記事が気に入ったらサポートをしてみませんか?