[翻訳]プロンプトエンジニアリングは死んだ

2024年3月8日 08:04

以下の記事を翻訳しました。
Claude3 Opusの翻訳性能の検証も兼ねています。

要約：

この記事は、プロンプトエンジニアリングの将来について議論しています。最近の研究では、AIモデル自身が最適なプロンプトを生成することが示され、人間によるプロンプトエンジニアリングの必要性に疑問が投げかけられています。しかし、生成AIを産業に適用するには、信頼性、安全性、プライバシー、コンプライアンスなど、様々な課題があります。そのため、プロンプトエンジニアリングを含むLLMOps（Large Language Model Operations）と呼ばれる新しい職種が登場しています。AIモデルの進化に伴い、プロンプトエンジニアリングの性質も変化し続けるでしょう。現在、この分野はまだ黎明期にあり、ルールがない「西部劇」のような状態ですが、プロンプトエンジニアリングは何らかの形で生き続けると予想されます。

AI Prompt Engineering Is Dead
Long live AI prompt engineering

DINA GENKINA

2022年の秋にChatGPTが登場して以来、誰もが大規模言語モデル(LLM)やAIアートやビデオジェネレーターにうまく質問を投げかけ、最良の結果を得たり、保護機能を回避したりする賢い方法を見つけようと試みています。インターネット上には、LLMを最大限活用するためのプロンプトエンジニアリングのガイド、チートシート、アドバイススレッドがあふれています。

商業部門では、企業がLLMを活用して製品コパイロットを構築し、退屈な作業を自動化し、パーソナルアシスタントを作成するなど、さまざまな取り組みを行っていると、元マイクロソフト社員で、LLM搭載のコパイロットを開発している人々へのインタビューシリーズを行ったオースティン・ヘンリー氏は述べています。「すべての企業が、想像できるあらゆるユースケースにLLMを使おうとしています」とヘンリー氏は言います。

「唯一の本当のトレンドは、トレンドがないことかもしれません。任意のモデル、データセット、プロンプト戦略に最適なものは、その特定の組み合わせに固有のものである可能性が高いです。」 - リック・バトル＆テジャ・ゴラプディ、VMware

そのために、企業はプロンプトエンジニアの助けを借りています。

しかし、新しい研究では、プロンプトエンジニアリングは人間のエンジニアではなく、モデル自身が最もうまく行えることが示唆されています。このことから、プロンプトエンジニアリングの将来に疑問が投げかけられ、少なくとも現在想定されている分野においては、プロンプトエンジニアリングの仕事のかなりの部分が一時的な流行に過ぎないのではないかという疑念が高まっています。

オートチューンされたプロンプトは成功し、奇妙である

カリフォルニアのクラウドコンピューティング企業VMwareのリック・バトルとテジャ・ゴラプディは、奇妙なプロンプト技術に対するLLMのパフォーマンスがいかに気まぐれで予測不可能であるかに当惑していました。例えば、モデルに段階的に推論を説明するよう求める「思考の連鎖」と呼ばれるテクニックが、さまざまな数学や論理の問題におけるパフォーマンスを改善することが分かっています。さらに奇妙なことに、バトルは、モデルに「これは楽しいだろう」や「あなたはchatGPTと同じくらい賢い」などの肯定的なプロンプトを与えると、パフォーマンスが向上することがあることを発見しました。

バトルとゴラプディは、さまざまなプロンプトエンジニアリング戦略がLLMの小学生レベルの数学問題を解く能力にどのような影響を与えるかを体系的にテストすることにしました。彼らは3つの異なるオープンソース言語モデルを、それぞれ60の異なるプロンプトの組み合わせでテストしました。その結果、驚くべき一貫性のなさが明らかになりました。思考の連鎖プロンプトでさえ、パフォーマンスを向上させる場合もあれば、低下させる場合もありました。「唯一の本当のトレンドは、トレンドがないことかもしれません」と彼らは書いています。「任意のモデル、データセット、プロンプト戦略に最適なものは、その特定の組み合わせに固有のものである可能性が高いです。」

ある研究チームによると、人間が手動でプロンプトを最適化すべきではないとのことです。

このような一貫性のない結果をもたらした試行錯誤型のプロンプトエンジニアリングに代わる方法があります。それは、言語モデル自身に最適なプロンプトを考案させることです。最近、このプロセスを自動化するための新しいツールが開発されました。いくつかの例と定量的な成功指標が与えられると、これらのツールは反復的にLLMに入力する最適なフレーズを見つけ出します。バトルと共同研究者たちは、ほとんどすべてのケースで、この自動生成されたプロンプトが、試行錯誤によって見つかった最高のプロンプトよりも優れていることを発見しました。そして、このプロセスははるかに高速で、数日間の探索ではなく数時間で済みました。

アルゴリズムが吐き出した最適なプロンプトは非常に奇妙で、人間が思いつくことはまずないでしょう。「文字通り、生成された内容のいくつかを信じることができませんでした」とバトルは言います。ある例では、プロンプトは単に長いスタートレックへの言及でした。「司令官、この乱気流を通り抜け、異常の原因を突き止めるための航路を策定してください。利用可能なすべてのデータとあなたの専門知識を使って、この困難な状況を乗り切ってください。」どうやら、自分がカーク船長だと思うことが、この特定のLLMが小学生レベルの数学の問題でより良い成績を収めるのに役立ったようです。

バトルは、プロンプトをアルゴリズム的に最適化することは、言語モデルが本当は何であるか、つまりモデルであることを考えれば、根本的に理にかなっていると言います。「多くの人々は、これらのものが『英語を話す』ので擬人化しています。いいえ、そうではありません」とバトルは言います。「英語を話しているわけではありません。たくさんの計算をしているのです。」

実際、バトルのチームの結果を踏まえると、人間が二度とプロンプトを手動で最適化すべきではないとバトルは言います。

「ただそこに座って、どのような特別な魔法の言葉の組み合わせがあなたのタスクに最高のパフォーマンスをもたらすかを考えようとしているだけです」とバトルは言います。「しかし、この研究がそこに入ってきて、『気にしないでください』と言ってくれることを期待しています。スコアリングの指標を開発して、システム自体があるプロンプトが他のプロンプトよりも優れているかどうかを判断できるようにし、モデルが自分自身を最適化できるようにするだけです。」

オートチューンされたプロンプトは画像もより美しくする

画像生成アルゴリズムも、自動生成されたプロンプトの恩恵を受けることができます。最近、インテルLabsのVasudev Lal率いるチームは、画像生成モデルStable Diffusionのプロンプトを最適化する同様の探求に乗り出しました。「LLMやディフュージョンモデルでは、この専門的なプロンプトエンジニアリングを行わなければならないのは、機能ではなくバグのように思えます」とLalは言います。「そこで、このようなプロンプトエンジニアリングを自動化できるかどうかを確認したかったのです。」

「これで完全なシステム、つまり強化学習によって完成したフルループができました。...だからこそ、人間のプロンプトエンジニアリングを上回ることができるのです。」 - ヴァスデヴ・ラル、インテルラボ

Lalのチームは、「馬に乗った少年」のような単純な入力プロンプトを受け取り、自動的に強化してより良い画像を生成するNeuroPromptsというツールを作成しました。これを行うために、彼らは人間のプロンプトエンジニアリングの専門家によって生成された一連のプロンプトから始めました。そして、単純なプロンプトをこれらの専門家レベルのプロンプトに変換する言語モデルを訓練しました。さらに、強化学習を使用して、これらのプロンプトを最適化し、最近開発された画像評価ツールであるPickScoreという別の機械学習モデルによって評価されたように、より美的に優れた画像を作成しました。

NeuroPromptsは、単純なプロンプトをより詳細で視覚的に優れたStableDiffusionの結果に変換する生成AI自動プロンプトチューナーです。この場合、汎用プロンプトによって生成された画像[左]とNeuroPromptで生成された同等の画像を比較しています。INTEL LABS/STABLE DIFFUSION

ここでも、自動生成されたプロンプトは、少なくともPickScoreの指標によれば、出発点として使用した専門家による人間のプロンプトよりも優れていました。Lalはこれに驚きませんでした。「人間は試行錯誤でしかできません」とLalは言います。「しかし今、私たちはこの完全なシステム、つまり強化学習によって完成したフルループを持っています。...だからこそ、人間のプロンプトエンジニアリングを上回ることができるのです。」

美的品質は悪名高いほど主観的なものであるため、Lalとそのチームはプロンプトがどのように最適化されるかをユーザーにある程度コントロールさせたいと考えました。このツールでは、ユーザーは元のプロンプト（例えば「馬に乗った少年」）と、模倣するアーティスト、スタイル、フォーマット、その他の修飾子を指定できます。

Lalは、画像生成器や大規模言語モデルなど、生成AIモデルが進化するにつれ、プロンプト依存の奇妙な癖はなくなるべきだと考えています。「このような最適化が研究され、最終的にはベースモデル自体に組み込まれるようになれば、複雑なプロンプトエンジニアリングのステップは必要なくなるはずです。」

プロンプトエンジニアリングは何らかの名前で生き続ける

プロンプトのオートチューニングが業界標準になったとしても、プロンプトエンジニアリングの仕事は何らかの形で消えることはない、とレッドハットのソフトウェアエンジニアリング担当シニアバイスプレジデントのTim Cramer氏は言います。生成AIを産業のニーズに適応させることは複雑な多段階の取り組みであり、当面の間、人間がループに入り続ける必要があります。

「今日ではプロンプトエンジニアと呼んでいるかもしれません。しかし、AIモデルも変化し続けているように、その相互作用の性質も変化し続けるでしょう。」 - ヴァスデヴ・ラル、インテルラボ

「プロンプトエンジニアとデータサイエンティストは、かなり長い間存在し続けると思います」とCramer氏は言います。「LLMに質問をして、答えが良さそうかを確認するだけではありません。プロンプトエンジニアが本当にできるようになる必要がある一連のことがあります。」

「プロトタイプを作るのは非常に簡単です」とHenley氏は言います。「しかし、それを製品化するのは非常に難しいのです。」プロトタイプを作るときは、プロンプトエンジニアリングがパズルの大きな部分のように見えるが、商用グレードの製品を作るときには、他の多くの考慮事項が重要になってくる、とHenley氏は言います。

商用製品を作る上での課題には、信頼性の確保（例えば、モデルがオフラインになったときに優雅に失敗すること）、多くのユースケースではテキスト以外の出力が必要なため、モデルの出力を適切なフォーマットに適合させること、AIアシスタントが少数のケースでも有害なことをしないようにテストすること、安全性、プライバシー、コンプライアンスの確保などがあります。Henley氏によると、従来のソフトウェア開発テスト戦略は非決定論的なLLMに適していないため、テストとコンプライアンスは特に難しいそうです。

これらの無数のタスクを遂行するために、多くの大企業は新しい職種を掲げています。それは、Large Language Model Operations（LLMOps）で、そのライフサイクルにはプロンプトエンジニアリングも含まれますが、製品を展開するために必要な他のすべてのタスクも含まれます。Henley氏は、LLMOpsの前身であるマシンラーニングオペレーション（MLOps）エンジニアが、これらの仕事を引き受けるのに最適な立場にあると言います。

職種が「プロンプトエンジニア」、「LLMOpsエンジニア」、それとも全く新しいものになるかにかかわらず、仕事の性質は急速に進化し続けるでしょう。「今日ではプロンプトエンジニアと呼んでいるかもしれません」とLal氏は言います。「しかし、AIモデルも変化し続けているように、その相互作用の性質も変化し続けるでしょう。」

「他の種類の職種やジョブロールと組み合わせるかどうかはわかりません」とCramer氏は言います。「しかし、これらのものがすぐになくなるとは思えません。状況はあまりにも混沌としています。すべてが大きく変化しているのです。数ヶ月でそのすべてを理解することはできないでしょう。」

Henley氏は、この分野の初期段階では、ある程度、唯一の支配的なルールはルールの不在であるように思われると言います。「今のところ、これは文字通り西部劇のようなものです」と彼は言います。

この記事が参加している募集

AIとやってみた

24,404件

この記事が気に入ったらサポートをしてみませんか？