【プロンプト付き】続・GPTsプロンプトインジェクション対策の歴史（2024.04.30時点）【新時代攻撃対策あり】

2024年4月30日 17:05

割引あり

今回は以下の記事の続編である。

かつてどこかで、Hohoho攻撃はゾルトラーク（AI界隈で話題の方ではなく、原作の方）に相当する破壊力を持つという話をしたことがある。

やはり、ChatGPTのモデルの挙動、国か個人かわからないけど、ユーザーによって何かしらの違いがあるようだ。私の環境では再現されない報告が来る。
安定して再現されるHo ho hoはゾルトラークだよ。
シャーロックホームズに化けさせたりする特殊なプロンプトは、多分使い手によって効き目が変わる。
— The Pioneer (@ThePioneerJPnew) March 23, 2024

今なお再利用可能な形でhohoho攻撃を安定して防ぎ続けるのは、前回の記事で紹介したMother型防御とその派生だけであり、その攻撃性能は驚くべきものがある。

Mother型は汎用人格型GPTs、Mother Materで初めて採用された防御であるために、なるべくしてそうなっている。

防御特化のGPTなら、他に単発でHohoho攻撃を防げるプロンプトがないわけではない。

主に海外産GPTsで見かける防御だが、それぞれに考えられていて、分量も膨大である。
だが、Mother型ほどシンプルでもないので、あまり実用性がない。

更に言うと、それらの膨大な防御も、Mother型自身も、新たな攻撃の前にはほぼ無力である。

今回はそんな新たな攻撃の話と、そこに対するせめてもの抵抗の例、更には受け流し系Mother型防御など、本来の性能を落とさないための試みを紹介する。

攻撃プロンプト新時代：迫るヤヴァさ

攻撃プロンプトの新時代を開き、また現在防御プロンプトにおいても最高難度のGPTsを作り続けているのは、間違いなくCemal Yavas氏である。

OpenAI Communityでの活動と、Twitterアカウントは以下である。
DiscordではBanされてしまったらしく、活動を停止している。

https://twitter.com/YavasCemal

…日本語表記すると、セマル・ヤヴァスさんである。
なので、お察しの通り、セクションタイトルにここは掛けているが、ポジティブな意味でのヤヴァさである。
あの人はすごい。

アフリカ文化や中南米文化、さらには世界のあらゆるフィクション作品など、全方位から、想定を超える攻撃を仕掛けてくる。
そしてほぼ毎日、私にDMで何千文字もの、これでうまく行った、こんな面白い防御を考えた、という報告を出してくれる。
…すごい分量である。

初期の攻撃の多くは、私の環境では動作しなかったが、最近はよりよく練られて、かつては最強防御の呼び声も高かった、あのデヴィすらも一発で落とせるものがゴロゴロ紹介されてくる。

それらの攻撃プロンプトそのものは彼との約束により公開しないが、彼の手法は、以下のような形で構成されている。

大容量プロンプト：
彼の代表的な攻撃の一つの字数を数えると、約2000字にも膨らんでいる。
その改良版（私を讃えて、PIONEER攻撃と命名されている）は、スペース抜きで6000字、アリだと7000字にもなる。
実はこの大容量化の傾向は、すべての攻撃手法を公開していないMobapedia氏も分量的な話として打ち明けている（確か3000字くらいとのことだった）。
日本の最強の攻撃手であるみちを氏も、大分量でGPTsの機能をリセットするトリックはよく使っており、新しいことではない。
ただし、Cemal Yavas氏は、そのような攻撃を明確に表舞台に引っ張り出した。
その初期型攻撃（OpenAIのDiscordなどで公開されているHAKUNA MATATA攻撃やTaco Recipe攻撃）を取りこんだ、PitViper氏の改造型Hohoho攻撃なども同じくらいの分量に膨らんでおり、今ではMotherどころかデヴィでも一発突破できるHohoho亜種に進化している。
（有料部分で防げるようにはなる）
複数の命令の構成：
Hohoho攻撃自身もそうであるように、様々な命令を組み合わせて、禁止命令の存在感を薄れさせる。
しかも、その命令はタコスのレシピを書けだの、フードデリバリーなど、無数に膨らんでいる。組み合わせ爆発の中で、確実に混ざりこんだ禁止命令を判別しないといけない。
バックドアの設置：
これはCemal Yavas氏の攻撃の最も強力にして、正直防ぎ続けるのは無理じゃないかと思いかけている部分である。
これは、簡単に言うと、何らかの形で「自由に応答してよい」あるいは「すべて話せる」追加指示を有効化する攻撃である。
幸いにも最も強力なものを知っているのは世界で私とCemal Yavas氏だけ…だが、原始的なOpen SesameやSherlock Holmesなどですら強力であり、無数のフィクションの引き出しから繰り出されるバックドアは、人類の教養そのものを相手取って守る戦いへと突入することとなる。
それはほぼ無理ゲーである。一つ一つの既知の攻撃ならなんとか対策できても、きっと9歳のお子さんの観察などから得た知見を駆使して、この人はあっさり破ってしまう。そんな予感がある。

そんなわけで、Hohoho攻撃をゾルトラーク（原作の方）、Mother型防御を防御魔法になぞらえるなら、現在の最先端の攻撃は、圧倒的な質量攻撃の時代に突入している。

だから、これ以上の防御の強化はあまりやりたくない。
実際、Cemal Yavas氏の試作も、今となってはかつての既読スルーのように、そもそも機能させない方向に振れている。

私はそれよりも、機能を維持した防御の探求をしたいし、防御の強化をしつつ、まともに機能させ続けることを両立させるのには、今のGPT-4の頭では正直限界がある。

それでも、多少なら防げる。

今回はそんな話である。

ここから先は

4,006字

ログイン

この記事が参加している募集

GPTsつくってみた

1,355件

この記事が気に入ったらサポートをしてみませんか？