見出し画像

生成AIに作品が学習される小説投稿サイト一覧とされない小説投稿サイト一覧

すでに僕たちの生活に浸透しつつある生成AIですが、こうしたAIは基本的にWeb上にあるコンテンツを手当たり次第学習データとして使用することで作られています。

その代わり、多大なコストをかけて作り上げられたAIを無料で利用できるなどAI開発者なりの配慮はあるものの、やはり勝手に学習データとして自分の作品が使われてしまうことについて、クリエイターとしては思うところのある方もいるかと思います。

そんな中、ChatGPTを提供しているOpenAIや‎Geminiを提供しているGoogleはこのデータ収集をブロックする方法を公開しています。
早い話がサイト上の /robots.txt というURLに以下の記述があれば作品が学習データとして使われることはありません。

# ChatGPT
User-agent: GPTBot
Disallow: /

# Gemini
Use-agent: Google-Extended
Disallow: /

参考:
https://platform.openai.com/docs/gptbot
https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers?hl=ja

そこで、今回は各小説投稿サイトがこのブロックを行っているかどうかについて調べてみました。

注意点
- あくまで /robots.txt の有無で判別しているため、OpenAIが公開しているIPに対するIP制限やUser-agentへの制限などについては考慮していません。
- robots.txt でブロックすることができるのはあくまでもOpenAIやGoogleのクローラーであるため、他の行儀が悪いクローラーについては防ぐことができません。
- 現状あるコンテンツが学習データとして使用されたかどうかを判別する技術が存在しないため、そもそも本当にOpenAIやGoogleが学習データとして使っていないのか知る術はありません。
- 記事をメンテナンスすることはないので最新の情報は自分でチェックしていただきたいです。

学習されない小説投稿サイト

ノベルアップ+

https://novelup.plus/robots.txt
※GPTBotのみ対応
AI生成作品の投稿に関するガイドラインがあったりなど、他の投稿サイトと比べるとAIに対して向き合おうとする姿勢を感じますね。


学習される可能性のある小説投稿サイト

ほぼ全部!

小説家になろう

https://syosetu.com/robots.txt

カクヨム

https://kakuyomu.jp/robots.txt

アルファポリス

https://www.alphapolis.co.jp/robots.txt

エブリスタ

https://estar.jp/robots.txt

NOVEL DAYS

https://novel.daysneo.com/robots.txt

ハーメルン

https://syosetu.org/robots.txt

ノベルバ

https://novelba.com/robots.txt

Nolaノベル

https://story.nola-novel.com/robots.txt

note

https://note.com/robots.txt

pixiv

https://www.pixiv.net/robots.txt

ツギクル

https://www.tugikuru.jp/robots.txt

ノベルピア

https://novelpia.jp/robots.txt

この記事が気に入ったらサポートをしてみませんか?