[翻訳]AI生成コンテンツの総合調査：GANからChatGPTまでのGenerative AIの歴史

2023年4月6日 12:46

原文の総文字数15万字超え！生成AI研究の歴史をまとめた論文をChatGPTを使って翻訳しました。ところどころ日本語がおかしいところもありますが、15万もの文字翻訳するのめんどくさい！という方、参考程度にご覧ください。ポイントだけ読み進めるとサクッと把握できます。

こちらの翻訳です

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
脚注、参考文献、Appendixなどは本文をご覧ください。

概要

【POINT1】ChatGPTはAIGCのカテゴリに属し、効率的で高品質なコンテンツ作成をします。
【POINT2】大規模モデルの利用で、意図抽出や生成結果が向上し、現実に近いコンテンツが生まれます。
【POINT3】この調査では、生成モデルの進歩や未解決の問題・将来の課題について解説しています。

最近、ChatGPT は、DALL-E-2 [1]や Codex [2] とともに、社会から大きな注目を集めています。その結果、多くの人が関連リソースに興味を持つようになり、その印象的なパフォーマンスの背景と秘密を明らかにしようとしています。

実際、ChatGPT やその他のジェネレーティブ AI (GAI)技術は、AI モデルによる画像、音楽、自然言語などのデジタルコンテンツの作成を含む人工知能生成コンテンツ (AIGC) のカテゴリに属します。 AIGC の目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質のコンテンツをより速いペースで作成できるようにすることです。 AIGC は、人間の指示から意図情報を抽出・理解し、その知識と意図情報に基づいてコンテンツを生成することで実現されます。

近年、AIGC では大規模モデルがますます重要になってきています。これは、意図抽出が向上し、生成結果が向上するためです。データの増加とモデルのサイズの増加に伴い、モデルが学習できる分布はより包括的で現実に近くなり、より現実的で高品質なコンテンツの生成につながります。

この調査では、生成モデルの歴史、基本コンポーネント、ユニモーダル相互作用およびマルチモーダル相互作用からの AIGC の最近の進歩に関する包括的なレビューを提供します。ユニモダリティの観点から、テキストと画像の生成タスクと相対モデルを紹介します。マルチモダリティ（複数の異なるモード（方法や手段）を利用することで、より豊かで効果的な情報伝達や認識を可能にすること）の観点から、上記のモダリティ間のクロスアプリケーションを紹介します。最後に、AIGC における現在の未解決の問題と将来の課題について説明します。

1 はじめに

【POINT1】AIGCは、AI技術で大量のコンテンツを自動生成することです。
【POINT2】最近のAIGCの進歩は、大規模データセットと計算リソースの利用によるものです。
【POINT3】AIGCは、アート、広告、教育など、多くの業界で採用されており、研究分野として重要です。

近年、人工知能によって生成されたコンテンツ（AIGC）は、コンピューターサイエンスコミュニティを超えて注目を集めており、ChatGPT [4] やDALL-E 2 [5]など、様々なコンテンツ生成製品が大規模なテクノロジー企業[3]によって開発され、社会全体が関心を持ち始めています。

AIGCは、人間によって作成されるのではなく、大量のコンテンツを短時間で高度なGenerative AI (GAI)技術を使用して生成されるコンテンツを指します。たとえば、ChatGPTは、OpenAIによって開発された言語モデルであり、会話型AIシステムを構築するために作られ、人間の言語入力を効率的に理解し、意味のある方法で応答できます。

さらに、DALL-E 2は、OpenAIによって開発されたもう1つの最先端のGAIモデルであり、テキスト記述から数分で「宇宙飛行士が宇宙飛行士に乗っている」といった独創的で高品質な画像を生成することができます。図1に示されるように、AIGCの目覚ましい成果によって、AIGCがAIの新しい時代を担い、全世界に大きな影響を与えると多くの人が信じています。

Regenerate response

図 1. 画像生成における AIGC の例。 OpenAI DALL-E-2モデルにテキスト指示を与え、その指示に従って2つの画像を生成します。

技術的には、AIGCは人間からの指示に従い、GAIアルゴリズムを利用してタスクを完了するためのコンテンツ生成を指します。この生成プロセスは通常、人間の指示から意図情報を抽出し、抽出された意図に従ってコンテンツを生成するという2つのステップで構成されます。ただし、上記の2つのステップを含むGAIモデルのパラダイムは、以前の研究[6、7]で示されているように、まったく新しいものではありません。

以前の研究と比較して、最近のAIGCの主な進歩は、より洗練された生成モデルを大規模なデータセットでトレーニングし、大規模な基盤モデルアーキテクチャを使用し、広範な計算リソースにアクセスしたことです。たとえば、GPT-3のメインフレームワークはGPT-2と同じですが、トレーニング前のデータサイズはWebText 8からCommonCrawl[9]（フィルタリング後 570GB）に増加し、基盤モデルのサイズは1.5Bから175Bに増加します。したがって、GPT-3は、人間の意図の抽出などのさまざまなタスクにおいて、GPT-2よりも優れた一般化機能を備えています。

研究者たちは、データ量と計算能力の増加によってもたらされる利点に加えて、新しいテクノロジーをGAIアルゴリズムと統合する方法を模索しています。ChatGPTは、人間のフィードバックからの強化学習(RLHF)[10-12]を利用して、特定の指示に対する最も適切な応答を決定し、時間の経過とともにモデルの信頼性と精度を向上させます。このアプローチにより、ChatGPTは長い対話で人間の好みをよりよく理解できます。

一方、コンピュータービジョンにおいては、Stability.AIが2022年に提案したstable diffusion[13]が、画像生成においても大きな成功を収めています。以前の方法とは異なり、生成拡散モデルは、探索と利用の間のトレードオフを制御することで高解像度の画像を生成するのに役立ち、生成された画像の多様性とトレーニングデータとの類似性の調和のとれた組み合わせが得られます。

図2 AIGCの概要一般に、GAI モデルは、ユニモーダルモデルとマルチモーダルモデルの 2 種類に分類できます。ユニモーダルモデルは生成されたコンテンツモダリティと同じモダリティから命令を受け取りますが、マルチモーダルモデルはクロスモーダル命令を受け入れ、異なるモダリティの結果を生成します。

これらの進歩を組み合わせることで、モデルは AIGC タスクで大きな進歩を遂げ、アート[14]、広告[15]、教育[16]など、さまざまな業界で採用されています。近い将来、AIGC は機械学習の重要な研究分野であり続けるでしょう。したがって、過去の研究の広範なレビューを実施し、この分野で未解決の問題を特定することが重要です。この調査は、 AIGC の分野におけるコア技術とアプリケーションに焦点を当てた最初の調査です。

1.1 主な貢献
本論文は、技術とアプリケーションの両面でのGAIの要約として、AIGCの最初の包括的な調査です。以前の研究では、自然言語生成[17]、画像生成[18]、マルチモーダル機械学習における生成[7, 19]など、様々な観点からGAIに注目が集められてきました。

ただし、これらの先行研究は、AIGCの特定の部分にのみ焦点を当てています。本調査では、AIGCで一般的に使用される基本技術のレビューを提供すると共に、図2に示すように、ユニモーダル生成とマルチモーダル生成の両面から、高度なGAIアルゴリズムの完全な概要を提供します。また、AIGCのアプリケーションと潜在的な課題についても調査します。最後に、この分野における未解決の問題と将来の方向性についても強調します。要約すると、本論文の主な貢献は以下の通りです。

私たちの知る限り、AIGCおよびAI強化生成プロセスに対する公式の定義と徹底的な調査を初めて提供します。
AIGCの歴史と基盤技術を概観し、ユニモーダル生成とマルチモーダル生成の観点から、GAIタスクとモデルの最近の進歩を包括的に分析します。
AIGCが直面する主な課題と、AIGCの将来的な研究方向について説明します。

1.2 構成
残りの調査は以下のように構成されます。セクション2では、主に視覚と言語モダリティの観点からAIGCの歴史を概説します。セクション3では、今日のGAIモデルのトレーニングで広く使用されている基本コンポーネントを紹介します。セクション4では、GAIモデルの最近の進歩を要約します。その中で、セクション4.1ではユニモーダルの観点から進歩をレビューし、セクション4.2ではマルチモーダル生成の観点から進歩をレビューします。

マルチモーダル生成においては、ビジョン言語モデル、テキストオーディオモデル、テキストグラフモデル、テキストコードモデルを紹介します。セクション5とセクション6では、AIGCにおけるGAIモデルのアプリケーションと、この分野に関連するいくつかの重要な研究を紹介します。さらに、セクション7とセクション8では、AIGCテクノロジのリスク、未解決の問題、および将来の方向性について説明します。最後に、セクション9で調査を締めくくります。

2 ジェネレーティブ AI の歴史

【POINT1】生成モデルの歴史は1950年代まで遡り、音声や時系列データ生成が始まりです。
【POINT2】深層学習の登場後、RNNやLSTMが言語モデリングに革新をもたらしました。
【POINT3】トランスフォーマーアーキテクチャが登場し、マルチモーダルタスクを実現するようになりました。

生成モデルには、人工知能における長い歴史があり、隠れマルコフモデル (HMM) [20] とガウス混合モデル (GMM) [21] の開発とともに1950年代にさかのぼります。これらのモデルは、音声や時系列などの連続データを生成するために用いられました。ただし、生成モデルの性能が大幅に向上したのは、ディープラーニングが登場してからでした。初期のディープ生成モデルは、一般に異なる領域があまり重なっていないものでした。

自然言語処理 (NLP) においては、文章を生成する従来の方法は、N-gram 言語モデリング [22] を使用して単語分布を学習し、最適なシーケンスを検索することです。ただし、この方法は、長い文章に対して有効に機能しないことがあります。この問題を解決するために、リカレントニューラルネットワーク (RNN) [23] が後に言語モデリングタスクに導入され、比較的長い依存関係のモデリングが可能になりました。その後、Long Short-Term Memory (LSTM) [24] と Gated Recurrent Unit (GRU) [25] が開発され、ゲーティングメカニズムを使用してトレーニング中にメモリを制御することができるようになりました。これらの手法は、1つのサンプル内で約200個のトークンを扱えることが示されています [26]。これは、N-gram 言語モデルと比較して大幅な改善を示しています。

一方、コンピュータビジョン（CV）では、ディープラーニングベースの手法が登場する前、従来の画像生成アルゴリズムには、テクスチャ合成[27]やテクスチャマッピング[28]などの手法が使用されていました。これらのアルゴリズムは手作業で設計された特徴に基づいており、複雑で多様な画像を生成する能力に制限がありました。

2014年に、敵対的生成ネットワーク（GAN）[29]が初めて提案され、その印象的な成果により、この分野において重要なマイルストーンとなりました。バリアショナルオートエンコーダ（VAE）[30]や拡散型生成モデル[31]など、より精密な制御を可能にし、高品質の画像を生成する能力が開発されました。

さまざまなドメインでの生成モデルの進歩は異なる方向を辿ってきましたが、最終的に交差点が現れました。それがトランスフォーマーアーキテクチャ[32]で、Vaswaniらによって2017年に導入されました。Transformerは、後にCVにも適用され、多くのドメインでの生成モデルの主要なバックボーンとなりました[9, 33, 34]。

NLP の分野では、多くの著名な大規模言語モデル（BERTやGPTなど）がトランスフォーマーアーキテクチャを主要なビルディングブロックとして採用しており、以前のビルディングブロックであるLSTMやGRUよりも優れています。CVの分野では、ビジョントランスフォーマー（ViT）[35]やSwinトランスフォーマー[36]は、トランスフォーマーアーキテクチャをビジュアルコンポーネントと組み合わせることでこの概念をさらに発展させ、画像ベースのダウンストリームに適用できるようにします。

この交差によって、トランスフォーマーが個々のモダリティにもたらした改善を除いて、さまざまなドメインのモデルを融合してマルチモーダルタスクを実現することもできました。マルチモーダルモデルのそのような例の1つはCLIP[37]です。CLIPは、Transformerアーキテクチャとビジュアルコンポーネントを組み合わせた視覚と言語のジョイントモデルであり、膨大な量のテキストおよび画像データでトレーニングできるようにします。事前トレーニング中に視覚的知識と言語知識を組み合わせているため、生成のためのマルチモーダルプロンプトで画像エンコーダーとしても使用できます。全体として、トランスフォーマーベースのモデルの出現は、AI生成に革命をもたらし、大規模なトレーニングの可能性をもたらしました。

近年、研究者はこれらのモデルに基づいて新しい技術を導入し始めています。たとえば、NLPの分野では、微調整の代わりに、モデルがタスク要件をよりよく理解できるように、データセットから選択されたいくつかの例を含めることを指す少数ショットプロンプト[38]を好むことがあります。そして、視覚言語では、研究者はしばしば、より堅牢な表現を提供するための自己教師あり対照学習目標を備えたモダリティ固有のモデルを組み合わせます。

今後、AIGC の重要性がますます高まるにつれて、この領域に新たな技術が求められることになります。

3 AIGC の 3 つの基盤

【POINT1】AIGCの基盤モデルにはTransformerがあり、自己注意メカニズムで入力シーケンスの異なる部分に注意を向ける点がとても重要です。
【POINT2】事前学習された言語モデルは、自己回帰言語モデリングとマスク言語モデリングの2種類に分類されます。
【POINT3】強化学習と人間のフィードバックを利用して、AIGCの出力を人間の好みにより適合させることができます。

このセクションでは、AIGC で一般的に使用される基盤モデルを紹介します。

3.1 基礎モデル
3.1.1 変圧器
トランスフォーマーは、GPT-3 [9]、DALL-E-2 [5]、Codex [2]、Gopher [39]など、多くの最先端モデルのバックボーンアーキテクチャです。従来のRNNなどのモデルの制限を解決するために、可変長シーケンスとコンテキスト認識の処理に最初に提案されました。トランスフォーマーアーキテクチャは主に、モデルが入力シーケンスのさまざまな部分に注意を向けることができる自己注意メカニズムに基づいています。

トランスフォーマーは、エンコーダーとデコーダーで構成されています。エンコーダーは入力シーケンスを取り込んで隠れ表現を生成し、デコーダーは隠れ表現を取り込んで出力シーケンスを生成します。エンコーダーとデコーダーの各レイヤーは、マルチヘッドアテンションとフィードフォワードニューラルネットワークで構成されます。マルチヘッドアテンションはトランスフォーマーのコアコンポーネントであり、トークンに異なる重みを割り当てることで、関連性に応じて情報をルーティングします。この情報ルーティング方法により、モデルは長期的な依存関係をより適切に処理できるため、さまざまなNLPタスクのパフォーマンスが向上します。

トランスフォーマーのもう1つの利点は、そのアーキテクチャによって高度に並列化が可能になり、データが誘導性バイアスに勝ることです[40]。このプロパティにより、トランスフォーマーは大規模な事前トレーニングに適したものになり、トランスフォーマーベースのモデルをさまざまなダウンストリームタスクに適応させることができます。

3.1.2 事前トレーニング済みの言語モデル
Transformerアーキテクチャが導入されて以来、その並列処理と学習機能により、自然言語処理における主要な選択肢となっています。一般に、これらの変換器ベースの事前トレーニング済み言語モデルは、トレーニングタスクに基づいて、自己回帰言語モデリングとマスク言語モデリングの2つのタイプに一般的に分類できます[41]。

例えば、BERT[42]やRoBERTa[43]などのマスクされた言語モデリングでは、与えられた文を構成するいくつかのトークンのうち、マスクされたトークンを予測することで、コンテキスト情報を活用することができます。マスクされた言語モデリングの最も顕著な例はBERT[42]であり、これにはマスクされた言語モデリングと次の文予測の2つのタスクが含まれています。

図 4. 事前訓練された LLM のカテゴリ黒い線は双方向モデルの情報の流れを表し、灰色の線は左から右への情報の流れを表します。エンコーダーモデル (BERT など) は、コンテキストを意識した目的でトレーニングされます。 GPT などのデコーダーモデルは、自己回帰目標を使用してトレーニングされます。エンコーダー/デコーダーモデル、例えばT5 と BART はこの 2 つを組み合わせたもので、コンテキスト認識構造をエンコーダとして使用し、左から右への構造をデコーダとして使用します。

予測タスク。BERT と同じアーキテクチャを使用するRoBERTa [43]は、事前トレーニングデータの量を増やし、より挑戦的な事前トレーニング目標を組み込むことによって、そのパフォーマンスを向上させます。同じく BERT に基づくXL-Net [44]は、各トレーニング反復の予測順序を変更する順列操作を組み込み、モデルがトークン全体でより多くの情報を学習できるようにします。

GPT-3 [9]や OPT [45] などの自己回帰言語モデリングは、前のトークンが与えられたときに次のトークンの確率をモデル化するためのものであり、したがって、左から右への言語モデリングです。マスクされた言語モデルとは異なり、自己回帰モデルは生成タスクにより適しています。自己回帰モデルについては、セクション 4.1.1 で詳しく紹介します。

3.2 人間のフィードバックからの強化学習
AIGC は、大規模なデータでトレーニングされているにもかかわらず、有用性と真実性の考慮を含む、ユーザーの意図に沿った出力を常に生成するとは限りません。AIGC の出力を人間の好みによりよく合わせるために、Sparrow、InstructGPT、ChatGPT などのさまざまなアプリケーションでモデルを微調整するために、人間のフィードバックからの強化学習(RLHF) が適用されています[10, 46]。

通常、RLHFの全体的なパイプラインには、次の3つのステップが含まれます。事前トレーニング、報酬学習、および強化学習による微調整です。最初に、言語モデル𝜃0は、初期言語モデルとして大規模なデータセットで事前トレーニングされます。𝜃0によって与えられた（プロンプト - 回答）ペアは、人間の目的と一致しない可能性があるため、2番目のステップでは、報酬モデルをトレーニングして、多様で複雑な人間の好みをエンコードします。具体的には、同じプロンプト𝑥が与えられた場合、異なる生成された回答{𝑦1、𝑦2、...、𝑦3}が人間によってペアワイズ方式で評価されます。ペアごとの比較関係は、後でELO [47]などのアルゴリズムを使用して、ポイントごとの報酬スカラー{𝑟1、𝑟2、...、𝑟3}に転送されます。最後のステップでは、言語モデル𝜃を微調整して、強化学習を使用して学習した報酬関数を最大化します。RLトレーニングを安定させるために、RLアルゴリズムとしてProximal Policy Optimization（PPO）がよく使用されます。RLトレーニングの各エピソードでは、報酬モデルをだますために特有のものを出力することを防ぐために、経験的に推定されたKLペナルティ項が考慮されます。具体的には、各ステップでの総報酬は、𝑟𝑡𝑜𝑡𝑎𝑙（𝑥、𝑦）= 𝑟𝑅𝑀（𝑥、𝑦）− 𝜆KL𝐷KL（𝜋𝜃 |𝜋𝜃0）で与えられます。ここで、𝑟𝑅𝑀は学習した報酬モデル、𝐷KLはKLペナルティ項、𝜋·は訓練されたポリシーです。RLHFの詳細については、[48]を参照してください。

図5. モデルサイズ[52]と、異なるモデルおよび計算デバイスにおけるトレーニング速度1の統計。

RLHFは流暢性を取り入れることで有望な結果を示していますが、この分野の進歩は公開されているベンチマークや実装リソースの不足によって妨げられており、RLはNLPにとって挑戦的なアプローチであるという認識につながっています。この問題に対処するために、RLベースの生成でRLアルゴリズムを微調整および評価するためのビルディングブロックからなるオープンソースライブラリであるRL4LMs [49]が最近導入されました。

最新の対話エージェントであるクロードは、AIフィードバック（RLAIF）からRLを介して報酬モデルを学習する憲法AI [50]を支持しています。批評とAIフィードバックは、「憲法」と呼ばれるものから引き出された一連の小さな原則によって導かれ、人間によって提供される唯一のものです。AIフィードバックは、危険なクエリに対する反対意見を説明することで、出力の害が少なくなるように制御することに重点を置いています。さらに、最近のRLAIFの予備的な理論的分析[51]は、RLHFの経験的な成功を正当化し、言語モデルに特化したRLHFアルゴリズム設計に新しい洞察を提供します。

3.3 コンピューティング
3.3.1 ハードウェア
ハードウェア。近年、大規模なモデルのトレーニングを容易にするための重要なハードウェアの進歩がありました。過去には、CPUを使用して大規模なニューラルネットワークをトレーニングすることは、数日または数週間かかる場合がありました。

しかし、より強力なコンピューティングリソースの登場により、このプロセスは数桁以上高速化されました。たとえば、NVIDIAのA100 GPUは、V100に比べてBERT-large推論時に7倍高速で、T42に比べて11倍高速です。さらに、深層学習に特化したGoogleのTensor Processing Units (TPUs)は、現行世代のA100 GPUよりも高い計算性能を提供しています[3]。このような計算パワーの急速な進歩により、AIモデルのトレーニング効率が大幅に向上し、大規模かつ複雑なモデルの開発に新たな可能性が開かれました。

3.3.2 分散トレーニング
もう 1 つの重要な改善点は、分散トレーニングです。従来の機械学習では、トレーニングは通常、単一のプロセッサを使用して単一のマシンで実行されます。このアプローチは、小規模なデータセットやモデルではうまく機能しますが、次の場合には実用的ではなくなります。

1https://lambdalabs.com/gpu-benchmarks
2https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-nvidia-us-2188504- web.pdf 3https://cloud.google.com/blog/products/ai-machine-learning/google-wins-mlperf-benchmarks-with-tpu-v4

大規模なデータセットと複雑なモデルを扱う。分散トレーニングでは、トレーニングワークロードが複数のプロセッサまたはマシンに分割されるため、モデルのトレーニングを大幅に高速化できます。一部の企業は、ディープラーニングスタックでの分散トレーニングのプロセスを簡素化するフレームワークもリリースしています[53–55]。これらのフレームワークは、開発者が基盤となるインフラストラクチャを管理することなく、トレーニングワークロードを複数のプロセッサまたはマシンに簡単に分散できるようにするツールと API を提供します。

3.3.3 クラウドコンピューティング
クラウドコンピューティングは、大規模なモデルのトレーニングにおいても重要な役割を果たしてきました。

以前は、モデルはローカルでトレーニングされることがよくありました。現在、強力なコンピューティングリソースへのアクセスを提供する AWS や Azure などのクラウドコンピューティングサービスにより、ディープラーニングの研究者や実践者は、大規模なモデルをトレーニングするために、必要に応じて GPU や TPU の大規模なクラスターを起動できます。

全体として、これらの進歩により、より複雑で正確なモデルの開発が可能になり、 AI 研究とアプリケーションのさまざまな分野で新しい可能性が開かれました。

4 ジェネレーティブ AI

4.1　ユニモーダルモデル

【POINT1】ユニモーダル生成モデルは、テキストや画像などの特定の生データを入力し、同じモダリティで予測を生成するモデルです。
【POINT2】生成言語モデルは、公開された入力データのパターンと構造に基づいて人間が読める言語を生成するためのNLPモデルです。
【POINT3】視覚生成モデルは、画像生成研究の分野で人気が高まっており、GANやVAE、正規化フローなどの手法が含まれます。

このセクションでは、最先端の単一モダリティ生成モデルを紹介します。これらのモデルは、テキストや画像など、特定の生データモダリティを入力として受け取り、同じモダリティの予測を生成するように設計されています。我々は、生成言語モデル（GPT-3[9]、BART[34]、T5[56]など）や、生成ビジョンモデル（GAN[29]、VAE[30]、normalizing flow[57]など）など、これらのモデルで使用される最も有望な手法や技術について議論します。

4.1.1 生成言語モデル
生成言語モデル（GLM）は、入力されたデータのパターンと構造を基に、人間が読みやすい言語を生成するNLPモデルの一種です。これらのモデルは、対話システム[58]、翻訳[59]、質問応答[60]など、様々なNLPタスクに使用されます。最近では、事前学習された言語モデルの使用が、NLP分野で一般的な手法として浮上しています。一般的に、最新の事前学習済み言語モデルは、図4に示されるように、マスクされた言語モデル（エンコーダー）、自己回帰言語モデル（デコーダー）、およびエンコーダー/デコーダー言語モデルに分類できます。デコーダーモデルは広く使用されており、エンコーダーモデルは主に分類タスクに適用されますが、テキスト生成にも使われます。

エンコーダー/デコーダーモデルは、両方の構造の長所を組み合わせることで、コンテキスト情報と自己回帰プロパティの両方を活用して、さまざまなタスクのパフォーマンスを向上させることができます。この調査の主な焦点は、生成モデルにあります。以下のセクションでは、デコーダーおよびエンコーダー/デコーダーアーキテクチャの最近の進歩について詳しく説明します。

デコーダーモデルは、自己回帰デコーダーベースの言語モデルの最も顕著な例の1つであるGPT [61]があります。これは、トランスフォーマーベースのモデルで、自己注意メカニズムを利用してシーケンス内のすべての単語を同時に処理します。 GPTは、前の単語に基づいて次の単語を予測するタスクでトレーニングされるため、一貫したテキストを生成できます。

その後、GPT-2 [62]と GPT-3 [9]は、モデルパラメータをスケールアップしつつ、自己回帰の左から右へのトレーニング手法を維持し、多様なデータセットを活用して、最先端の結果を達成しました。 Gopher [39]は、GPTと同じ構造を持ち、LayerNorm [63]をRSNormに置き換えます。RSNormでは、情報を保持するために元のlayernorm構造に残りの接続が追加されます。正規化機能の強化に加えて、注意メカニズムの最適化に焦点を当てた研究もあります。 BLOOM [64]はGPT-3と同じ構造を共有していますが、スパースアテンションを使用する代わりに、完全なアテンションネットワークを使用します。これは、長い依存関係のモデリングに適しています。 [65]は、一般的に使用されるアーキテクチャを拡張するMegatronを提案しています。

図 6. InstructGPT のアーキテクチャ[10]まず、デモンストレーションデータが人間のラベラーによって収集され、GPT-3 の微調整に使用されます。次に、プロンプトと対応する回答が言語モデルからサンプリングされ、人間のラベル付け担当者が回答を最良から最悪にランク付けします。このデータは、報酬モデルのトレーニングに使用されます。最後に、トレーニング済みの報酬モデルを使用して、人間のラベラーの好みに応じて言語モデルを最適化できます。

GPT-3、BERT、およびT5は、分散トレーニング目標を備えた大量のデータを処理するために使用されます。この方法は、MT-NLG [66]とOPT [45]でも後に採用されました。モデルのアーキテクチャと事前トレーニングタスクの進歩に加えて、言語モデルの微調整プロセスの改善にも多大な努力が払われてきました。例えば、InstructGPT [10] は、事前トレーニングされたGPT-3を活用し、RLHFを使用して微調整を行い、人間によってラベル付けされたランキングフィードバックに基づいてモデルが好みを学習できるようにします。

エンコーダー-デコーダーモデル。主要なエンコーダ-デコーダー手法の1つは、Text-to-Text Transfer Transformer（T5）[56]であり、トランスフォーマーベースのエンコーダーとデコーダーを組み合わせて事前トレーニングを行います。 T5は「テキストからテキスト」のアプローチを採用しており、入力データと出力データの両方を標準化されたテキスト形式に変換します。これにより、同じモデルアーキテクチャを使用して、機械翻訳、質問応答、要約などの幅広いNLPタスクでT5をトレーニングできます。 Switch Transformer [67]は、その名前が示すように、「スイッチング」と呼ばれる簡素化されたMoEルーティングアルゴリズムを利用して、T5での並列化トレーニングを行います。このモデルは、ベースモデルと同じ計算リソースでより大きなスケールと優れたパフォーマンスを実現しました。

T5を改善するもう1つの広く使用されている方法は、Googleによって2021年に提案されたExT5 [68]です。 ExT5は、前のT5モデルのスケールを拡張し、C4とExMixで引き続き事前トレーニングされています。ExMixは、多様なドメインにわたる107の教師付きNLPタスクの組み合わせです。もう1つの広く使用されているエンコーダー-デコーダー手法は、BERTの双方向エンコーダーとGPTの自己回帰デコーダーをブレンドしたBART [34]です。これにより、エンコーダーの双方向モデリング能力を活用しながら、生成タスクの自己回帰プロパティを維持できます。 HTLM [69]は、BARTのノイズ除去目的を活用してハイパーテキスト言語をモデル化するために開発されました。このモデルは、ゼロショット学習において、様々な生成タスクで最先端のパフォーマンスを実現しています。

一方、DQ-BART [70] は蒸留と量子化を使用して BART をより小さなモデルに圧縮し、様々な下流タスクにおいて BART の元のパフォーマンスを達成します。

4.1.2 ビジョン生成モデル
GAN
敵対的生成ネットワーク（GAN）は、画像生成の研究分野で人気を博しています。GANは、ジェネレーターとディスクリミネーターの2つの部分から構成されています。ジェネレーターは、実際の例の分布を学習して新しいデータを生成しようとします。一方、ディスクリミネーターは、入力が実際のデータ空間から来たものかどうかを判断します。

構造
ジェネレーターとディスクリミネーターの構造は、GAN のトレーニングの安定性とパフォーマンスに大きく影響します。 LAPGAN [71] は、ラプラシアンピラミッドフレームワーク [72] 内の畳み込みネットワークのカスケードを使用して、粗から細かい方法で高品質の画像を生成します。 A. ラドフォード等。 [73]は、教師なし学習の強力なソリューションとして、DCGAN 構造 (アーキテクチャ上の制約を持つ CNN のクラス) を提案しています。プログレッシブ GAN [74]は、ジェネレーターとディスクリミネーターを徐々に成長させ、低解像度から開始し、レイヤーを追加してモデルの詳細を細かくすることで、より高速で安定したトレーニングを行い、高品質の画像を生成します。従来の畳み込み GAN は、低解像度のフィーチャマップ内の空間的にローカルな点のみに基づいて高解像度の詳細を生成するため、SAGAN [75] は、トレーニングダイナミクスを改善するために、アテンションドリブンの長距離依存関係モデリングとスペクトルの正規化を導入しています。さらに、複雑なデータセットから高解像度で多様なサンプルを生成することは、依然として課題です。これに対処するために、GAN の大規模な TPU 実装として BigGAN [76]が提案されています。 StyleGAN [77]は、高レベルの属性とバリエーションを分離することで GAN を改善し、直感的な制御と、品質メトリクス、補間、および絡み合いの解消に関するパフォーマンスの向上を可能にします。 [78、79 ]逆マッピングに焦点を当てる - データを潜在空間に射影し、補助識別タスクに役立つ特徴表現をもたらします。モードの崩壊に対処し、生成モデルを改善するために、D2GAN [80]とGMAN [81]の両方の方法は、追加の弁別子を組み合わせることで従来の GAN を拡張します。 MGAN [82]と MAD-GAN [83]は、複数のジェネレータと 1 つのディスクリミネータを組み込むことで、モード崩壊の問題に対処しています。 CoGAN [84]は、重み共有制約を持つ GAN のペアで構成され、トレーニングセットに対応する画像を必要とせずに、個別の周辺分布から結合分布を学習できるようにします。

代表的な亜種
ジェネレーターの潜在ベクトルは非常に構造化されていないため、InfoGAN [85]は、実際のデータ空間の重要な構造化機能を抽出するために、別の潜在コードを提案しています。CGAN [86-88]では、ジェネレータとディスクリミネータは、クラスラベルや他のモダリティからのデータなどの追加情報に基づいて調整され、特定の属性に基づいて調整されたサンプルを生成します。f-GAN [89]では、生成モデルをトレーニングするための目的関数として、任意のf-ダイバージェンスを使用できます。fダイバージェンスの選択は、生成されたサンプルの品質とモデルのトレーニングの難しさの間のトレードオフを制御するための柔軟なフレームワークを提供します。

目的関数
生成モデルの目的は、実際のデータ分布に一致させることです。WGAN [90]とLS-GAN [91, 92]は、実際のデータの密度に関するリプシッツの規則性条件で損失関数を正則化し、より一般的で現実的な新しいデータを生成することを目的としています。[93]では、GANの弁別器のトレーニングを安定させるために提案された重みの正規化手法が述べられています。チェ等は[94]で、GANモデルのトレーニングを安定させることができる目標を正則化します。UGAN [95]は、GANのトレーニングを安定させるために、ディスクリミネーターの展開された最適化に関してジェネレーターの目的を定義します。[96]は、弁別器を相対的にすることにより、生成器によって生成されたデータ分布の安定性とカバレッジを改善するために、実データと生成されたデータのペアからサンプリングする手法を提案しています。

VAE
変分ベイズ推論[97] に従って、変分オートエンコーダ (VAE) は、データを確率分布に反映し、元の入力に近い再構成を学習しようとする生成モデルです。

複雑な事前確率。変分オートエンコーダーの変分証拠下限目標 (ELBO) の書き換えは、変分境界の改善に貢献します[98]。真の集約事後分布は扱いにくいため、VampPrior [99]は、学習可能な疑似入力を条件とする事後分布の変分混合を導入します。 [100–102] は、データ分布のさまざまな側面を捉えるために、確率的サンプリングプロセスに関するスキップコネクションを提案しています。

正規化されたオートエンコーダー[1, 103, 104]は、エンコーダの潜在空間に正則化を導入し、任意に選択された事前確率に準拠することなく、滑らかで代表的な潜在空間に導きます。 [105]は、より大きな画像をモデル化するためのマルチスケールの階層構造を提案しています。

フロー
正規化フローは、可逆および微分可能なマッピングのシーケンスによる単純から複雑への分布変換です。

結合フローと自己回帰フロー。データの非線形決定論的変換は、 [57]のカップリング法を介して学習され、変換されたデータが因数分解された分布に適合するようにします。ディンら。 [106] は、生成方向の分布に次元を徐々に導入するためのマルチスケールフローを提案しています。結合層のより柔軟な一般化は、自己回帰フロー [107–109] であり、ユニバーサル近似として並列密度推定を可能にします。

畳み込みフローと残差フロー。鄭ら[110] は1D 畳み込み (ConvFlow) を使用し、 Hoogeboom et al. [111] は、 d×d畳み込みをモデル化するためのより一般的なソリューションを提供しています。彼らは三角形構造を利用して、入力間の相互作用を改善し、行列式を効率的に計算しました。 RevNets [112]と iRevNets [113]は、残りの接続に基づいて可逆的なネットワークアーキテクチャを構築した最初のものであり、勾配消失の問題を軽減します。さらに、パラメータの効率を改善するために、残差結合を一次常微分方程式 (ODE) [114] の離散化と見なすことができます。

Diffusion
Generative Diffusion Model (GDM) は、確率に基づく最先端のクラスの生成モデルであり、コンピュータービジョンの分野で最先端の結果を示しています。複数レベルのノイズ摂動でデータを徐々に破損し、サンプル生成のためにこのプロセスを逆にすることを学習することによって機能します。

モデル処方
拡散モデルは、主に 3 つのカテゴリに定式化されます。 DDPM [115]は、2 つのマルコフチェーンをそれぞれ適用して、ガウスノイズを含むデータを徐々に破損させ、マルコフ遷移カーネルを学習することで前方拡散プロセスを逆転させます。スコアベースの生成モデル (SGM) は、スコア関数とも呼ばれるデータの対数密度の勾配に直接作用します。 NCSN [31]は、マルチスケール強化ノイズでデータを摂動し、すべてのノイズレベルで調整されたニューラルネットワークによって、そのようなすべてのノイズデータ分布のスコア関数を共同で推定します。トレーニングと推論のステップが完全に分離されているため、柔軟なサンプリングが可能です。スコア SDE [116]は、前の 2 つの定式化を連続設定に一般化します。ここで、ノイズ摂動とノイズ除去プロセスは、確率微分方程式の解です。確率フロー ODE を使用して逆プロセスをモデル化できることも証明されています。

トレーニング強化
トレーニングの強化は、別の事前トレーニング済みモデルまたは追加のトレーニング可能なハイパーパラメーターからの事前知識を導入することにより、サンプリングを改善することを目的としています。知識の蒸留のアイデアから着想を得て、Salimans et al. [117]は、事前に訓練された複雑な教師モデルからより高速な生徒モデルに知識を徐々に抽出することを提案しています。これにより、サンプリング手順が半分に削減される可能性があります。 TDPM [118]と ES-DDPM [119]は、早期停止で拡散プロセスを切り捨てることにより、サンプリング速度を向上させます。

非ガウス分布によって初期化されたリバースプロセスからサンプルを生成するには、 VAE や GAN などの別の事前トレーニング済みの生成モデルを導入して、そのような分布を近似します。フランツェーゼ等。 [120]最適なトレードオフを実現するために、トレーニングステップの数を変数として定式化します。改善された DDPM [121]では、最初にノイズスケール項を損失関数に追加することでノイズスケールチューニングを導入しています。一方、San Romans ら[122] はノイズ予測ネットワークを導入して、ノイズスケジュールを段階的に調整できるようにしています。このようなノイズスケジュール学習は、トレーニングと推論中にノイズのランダムウォークを効率的に導くことで、再構成を改善します。

効率的なトレーニング不要のサンプリング
追加のトレーニングの代わりに、トレーニングなしのサンプリングは、離散化エラーを最小限に抑えながら、離散化された時間ステップの数を直接減らします。同じトレーニング目的の下で、DDIM [123]は DDPM を非マルコフ拡散プロセスのクラスに一般化し、ジャンプステップ加速を導入します。これにより、生成マルコフ連鎖が短くなる可能性があります。分析DPM [124]は、最適なモデルの逆分散と KL ダイバージェンスの分析形式をそのスコア関数で推定することにより、より効率的な推論を提供します。動的計画法によって最適なサンプリング軌跡を直接導き出す研究[125, 126]もあります。

ノイズ分布
ノイズ摂動の分布は拡散モデルの重要な部分であり、それらのほとんどはガウス分布です。一方、このような分布をより多くの自由度で適合させると、パフォーマンスが向上する可能性があります。ナフマニ等。 [ 127 ]は、ガンマ分布が画像と音声の生成を改善し、ガウス分布の混合も単一の分布よりも優れていることを証明しています。拡散モデルは、ノイズ分布の選択に強く依存しません。ノイズ摂動とは別に、CCDF [129]は、ガウス分布から初期化する必要がないことを示しており、単純な前方拡散でサンプリングステップを減らすことができますが、より優れたノイズ初期化を行うことができます。

混合モデリング
混合モデリングは、拡散モデルを別のカテゴリの生成モデルと組み合わせて、それらのすべての利点を活用することを目的としています。これにより、より強い表現力またはより高いサンプリング速度が得られます。 DiffuseVAE [130]は、VAE によって生成されたぼやけた画像再構成で拡散サンプリングプロセスを調整することにより、標準 VAE を DDPM パイプラインにマージします。 LSGM [131]は、VAE の潜在空間で SGM をトレーニングします。これは、SGM を非連続データに一般化し、小さな空間でよりスムーズな SGM 学習を可能にします。ノイズ除去拡散 GAN [132]は、条件付きGAN を DDPM パイプラインに導入して、より表現力豊かなマルチモーダル分布でノイズ除去プロセスをパラメーター化し、大きなノイズ除去ステップを提供します。

図 8. ジェネレーティブビジョン言語の一般的な構造図。生成プロセスをエンコーダー部分とデコーダー部分に分けます。エンコーダーモデルは入力を潜在的な表現にエンコードし、デコーダーはこの表現を生成された出力にデコードします。デコードします。

SDE ベースの拡散モデルの軌跡。これにより、フォワードステップもトレーニング可能になります。ノイズ摂動から導入されたランダム性は、トレーニング可能なフォワードプロセスが拡散軌道の長さを大幅に短縮しながら、正規化フローに強力な表現力を与えます。したがって、 DiffFlow は、サンプリング効率が高く、境界がよりシャープな分布を学習できます。

4.2 マルチモーダルモデル

【POINT1】マルチモーダル生成は、複数の情報表現（例：画像、音声、テキスト）の関連性や相互作用をデータから学習し、それぞれの情報表現を生成することを目的としています。
【POINT2】マルチモーダル生成は、視覚言語生成、テキスト音声生成、テキストグラフ生成、テキストコード生成など、さまざまな分野で活用されています。
【POINT3】テキスト音声生成やテキストグラフ生成など、マルチモーダル生成は自然言語処理システムの可能性を大幅に引き出す重要なトピックです。

現代のAI生成技術において、多様なモダリティの生成は重要な役割を果たしています。多様なモダリティの生成の目的は、データから多様なモダリティ間の接続や相互作用を学習して、生のモダリティを生成するモデルを構築することです[7]。モダリティ間のこの接続や相互作用は非常に複雑な場合があり、単一のモダリティに比べて多様なモダリティの表現空間を学習することは困難です。しかし、以前のセクションで述べた強力なモダリティ特有の基盤アーキテクチャの出現により、この課題に対応するための手法が増えています。

このセクションでは、ビジョン言語生成、テキストオーディオ生成、テキストグラフ生成、テキストコード生成の最先端の多様なモダリティ生成モデルを紹介します。ほとんどの多様なモダリティ生成モデルは常に現実世界のアプリケーションと密接に関連しているため、このセクションでは主にダウンストリームタスクの観点から紹介します。

4.2.1 ビジョン・ランゲージの生成
エンコーダ・デコーダアーキテクチャは、コンピュータビジョンや自然言語処理の単一モダリティ生成問題を解決するために広く使用されているフレームワークです。特に、ビジョン・ランゲージ生成においては、この方法が基本的なアーキテクチャとしてしばしば使用されます。エンコーダは、入力データのコンテキストに関する表現を学習する責任があり、デコーダは、表現におけるクロスモーダルな相互作用、構造、一貫性を反映した生のモダリティを生成するために使用されます。以下では、最新のビジョン・ランゲージエンコーダに関する包括的な調査を紹介し、その後にデコーダコンポーネントの説明を行います。

ビジョン・ランゲージエンコーダ
最近、単一モダリティのエンコーダの開発が大きく進歩し、複数のモダリティからコンテキストを学習する方法についての問いが生じています。これを行う一般的な方法は、融合関数を使用してモダリティ固有のエンコーダを組み合わせ、複数の事前学習タスクを活用して表現空間を整列させることです[37、134、135]。一般に、これらのエンコーダモデルは、結合エンコーダとクロスアラインドエンコーダの2つに分けることができます[7]。

結合エンコーダ
この問題に対する直感的な解決策は、単一エンコーダの埋め込みを連結することです。VisualBERT [134] は、BERTを活用しており、元々の論文の中で提案された手法です。

図 9. 2 種類のビジョン言語エンコーダー: 連結エンコーダーと交差整列エンコーダー。連結されたエンコーダーは、さまざまな生のモダリティからの連結された埋め込みを受け入れ、クロスアラインされたエンコーダーは抽象的なモダリティでアラインされます。

テキストエンコーダとしては、CNNを、イメージエンコーダとしてはBERT入力埋め込みに直接組み込む画像エンコーダを使用します。画像エンコーダからの埋め込みは、モデルが整列されたジョイント表現空間を暗黙的に学習できるように、BERT入力埋め込みに直接組み込まれます。VisualBERTはBERTのマルチタスク事前トレーニングを利用し、2つの視覚的に根拠のある言語モデルタスクを使用します。それは、画像と文の画像予測によるマスクされた言語モデリングです。

また、VisualBERTには、いくつかのモダリティ固有の事前トレーニングタスクも組み込まれています。別の例として、VL-BERT [136]はVisualBERTと同様のアーキテクチャを共有していますが、Faster R-CNN [137]を関心領域（ROI）抽出器として使用し、この抽出されたROI情報を画像領域埋め込みとして利用します。VL-BERTには、視覚情報をより適切に組み込むための追加の事前トレーニングタスクである、言語的手がかりを使用したマスクされたROI分類も含まれています。

その後、UNITER [138]がVisualBERTと同じアーキテクチャに基づいて提案されましたが、トレーニングの目的は異なります。UNITERは、マスク言語モデリング、マスク領域モデリング、画像テキストマッチング予測、単語領域アラインメント予測を含む複数の事前トレーニングタスクを使用します。このように、UNITERは有益なコンテキスト化された埋め込みを学習できます。連結されたエンコーダは一般に同じBERTアーキテクチャに基づいており、BERTのようなタスクで事前にトレーニングされていることが多いです。

ただし、これらのモデルには常に非常に複雑な事前トレーニングプロセス、データ収集、損失設計が含まれています。この問題を解決するために、[135]はSimVLMを提案しました。これは、PrefixLMをトレーニング目的として設定し、ViTをテキストエンコーダーとイメージエンコーダーの両方として直接使用することで、ビジョン言語モデルの事前トレーニング手順を簡素化しました。SimVLMは、以前の方法と比較して、複数のビジョン言語タスクで最先端のパフォーマンスを達成するために大幅に簡素化されたアーキテクチャを使用しました。

クロスアラインエンコーダー
エンベディングをエンコーダへの入力として連結することに加えて、コンテキスト化された表現を学習する別の方法は、モダリティ間のペアワイズ相互作用を調べることです[7]。連結エンコーダーとは異なり、クロスアラインエンコーダーは常に2つのタワー構造を使用します。この構造では、モダリティごとに1つのタワーがあり、クロスモダリティエンコーダーを使用して結合表現空間を学習します。

LXMERT [139]は、トランスフォーマーを使用して画像の特徴とテキストの特徴を抽出し、協調学習用のマルチモーダル相互注意モジュールを追加します。結果の出力埋め込みは、視覚埋め込み、言語埋め込み、およびマルチモーダル埋め込みになります。モデルは、いくつかのマルチモーダルタスクで事前トレーニングもされています。同様に、ViLBERT [140]はクロストランスモジュールを活用して2 つのモダリティを調整します。ビジョンと言語の埋め込みを考えると、

図 10. 2 種類の言語デコーダーモデル: 共同トレーニングモデルと凍結モデル。共同トレーニングモデルは通常、エンドツーエンドでトレーニングされますが、凍結モデルは通常、言語デコーダーを凍結したままにし、画像エンコーダーのみをトレーニングします。

ある特定のモダリティのキーと値が別のモダリティの注意モジュールに入力され、両方の情報を組み込んだプールされた注意の埋め込みが生成されます。一般に、これらのモデルはすべてクロスレイヤーを活用して、情報を結合表現空間に融合します。それにもかかわらず、このコンテキストでトランスフォーマーアーキテクチャを採用することは、その多数のパラメーターのために非効率的です。トレーニングプロセスと計算を簡素化するために、CLIP [37] はクロスレイヤーとして内積を使用します。

これは、トランスエンコーダーよりも効率的であり、効率的な大規模なダウンストリームトレーニングを可能にします。さらに、CLIP は大量のペアワイズデータでトレーニングされており、他の多くのモデルよりも優れていることが示されています。

ビジョン・ランゲージデコーダー
特定のモダリティからの表現が与えられると、ビジョン言語デコーダーは主に、それをタスクで指定された特定の生のモダリティに変換することを目的としています。このセクションでは、主に to-text および to-image デコーダーに焦点を当てます。

テキストへのデコーダ
通常、to-text デコーダーは、エンコーダーからコンテキスト化された表現を受け取り、その表現を文にデコードします。大規模な言語モデルの出現と有効性が証明されたことで、現在、多くのアーキテクチャが言語デコーダコンポーネントを選択的に凍結しています。その結果、to-text デコーダーは、共同トレーニングモデルと凍結モデルの 2 つのタイプに大きく分類できます。

共同で訓練されたデコーダー
共同トレーニングデコーダーとは、表現をデコードするときに完全なクロスモーダルトレーニングを必要とするデコーダーを指します。通常、テキストからテキストへの生成の課題は、事前トレーニング中に 2 つのモダリティを調整することにあります。その結果、モデルにはデコーダーではなく強力なエンコーダーが必要になります。この課題に対処するために、多くのモデルは強力なエンコーダーの構築を優先し、それを比較的軽量なデコーダーモデルと組み合わせます。

たとえば、 VLP [138]と ALBEF [141]は、単純な変換デコーダを利用して情報をデコードします。 BLIP [142]は、事前トレーニング中にエンコーダーとデコーダーを組み合わせて、理解と生成の両方の目的のためのマルチモーダル空間アライメントを可能にします。 BLIP は、画像とテキストの特徴を抽出するユニモーダルエンコーダー、画像とテキストの特徴を入力として受け入れる画像に基づくテキストエンコーダー、および画像の特徴を受け入れてテキストを出力する画像に基づくテキストデコーダーの 3 つの部分で構成されます。整列されたエンコーダーとデコーダーの構造を除いて、著者は、モデルがマルチモーダル依存関係をより適切に学習できるように、対応するいくつかの事前トレーニングタスクも設計しました。

フローズンデコーダー
テキスト生成タスクを効率的に実行するもう1つの方法は、大規模な言語モデルを凍結させ、画像エンコーダーのみをトレーニングすることです。これは、マルチモーダルなプロンプトを実行する方法と見なすこともできます。NLPにおけるプロンプト学習とインコンテキスト学習の成功により、このアプローチに対する注目が高まっています。これにより、そのような方法がマルチモーダルな設定でも有効であるかどうかについて人々が疑問を抱くようになりました。

Frozen[143]は、視覚言語タスクにおいて、最初にコンテキスト学習に導入されました。言語モデルを凍結し、画像エンコーダーで生成された画像表現は、言語モデルの入力埋め込みに埋め込まれます。この方法は、様々なゼロショットおよび少数ショットのビジョン言語タスクで最先端のパフォーマンスを発揮します。その後、AlayracらはFlamingo[144]を提案し、マルチモーダルなインコンテキスト学習をさらに調査しました。Flamingoは、凍結されたビジョンエンコーダーと凍結された言語エンコーダーを使用してビジョン言語表現を取得し、ゲーテッドクロスアテンションの密なレイヤーを利用して画像表現をテキスト表現に融合します。

最近、[145]は、凍結された言語モデルでVL対話を実現する方法を提案し、モデルがインターリーブされたマルチモーダルデータを生成できるようにしました。この方法は、入力エンコーダーを凍結させ、テキストから画像へ、および画像からテキストへの線形マップをトレーニングし、生成された埋め込みをさらにエンコードおよびデコードします。しかし、この種のプロンプトベースの方法がマルチモーダルな生成で機能する理由は依然として疑問のままです。この疑問に答えるために、いくつかの研究も提案されています。Merleらは、画像エンコーダーとテキストエンコーダーの間に線形射影を挿入する方法を提案しました[146]。トレーニング中は、線形射影のみが調整されます。実験結果は、同じサイズの凍結された言語モデルは、視覚情報を言語に変換する際に一般的に同等に機能することを示していますが、言語の監視で事前にトレーニングされた画像エンコーダーであるCLIPテキストエンコーダーは、余分な情報をエンコードすることができるため、視覚言語タスクで大幅に優れたパフォーマンスを発揮します。

画像へのデコーダ
テキストから指示を受け、その指示に対応する画像を生成するものを指します。同様に、画像生成で一般的に使用されるモデルもエンコーダー/デコーダーアーキテクチャに従います。エンコーダーは言語情報の学習に重点を置き、デコーダーは学習した情報を活用して画像合成を制限することに重点を置きます。一般的に、最近の研究は、GAN ベースの方法と拡散ベースの方法の 2 つのカテゴリに分けることができます。GAN ベースのテキストから画像への変換においては、テキストエンコーダーが与えられた場合、ディスクリミネーターとジェネレーターを組み合わせます。ジェネレーターは、テキストエンコーダーによって生成されたテキスト埋め込みとノイズベクトルを受け取って画像を生成します。これらは実際のサンプル分布でディスクリミネーターに入力されます[147]。この分野で注目すべきモデルは StackGAN [148] です。StackGAN アーキテクチャは、コンディショニングステージとリファインメントステージの 2 つのステージで構成されます。コンディショニングステージでは、モデルはテキストによる指示を入力として取り込み、低解像度の画像を生成します。次に、この画像はリファインメントステージに送られ、そこでさらに調整されて、テキストの指示に一致する高解像度の画像が生成されます。

AttnGAN [149]は、StackGANアーキテクチャに基づいて構築された別のテキストから画像への合成モデルです。AttnGANは、生成された画像の品質をさらに向上させるために、StackGANアーキテクチャにアテンションメカニズムを追加します。ただし、これらのモデルは主に命令学習中に比較的単純なテキストエンコーダーを使用するため、特定の情報が失われる可能性があります。StyleCLIP [150]は、対照的な学習を使用してテキストと画像の特徴を揃え、テキストから画像への合成の最近のモデルです。これはStyleGAN [77]アーキテクチャに基づいており、StackGANなどの以前のテキストから画像への合成モデルよりも大幅に進歩しています。StyleCLIPはまた、テキストエンコーダーを使用して命令をエンコードし、画像デコーダーを使用して新しい画像を合成するエンコーダーデコーダー構造に従います。StyleCLIPの重要なイノベーションの1つは、対照学習を使用してテキストと画像の特徴を揃えることです。テキストと画像の特徴間の類似性を最大化するようにモデルをトレーニングし、さまざまなテキストと画像のペア間の類似性を最小限に抑えることにより、StyleCLIPはテキストと画像の特徴間のより効果的なマッピングを学習し、より高品質の画像合成を実現できます。

拡散ベースのデコーダ
ジェネレーティブイメージモデリングは、最近、拡散モデルを使用して大きな成功を収めています。これらのモデルは、テキストから画像への生成にも適用されています。例えば、GLIDE [151]はアブレーション拡散モデル (ADM) をテキストから画像への生成に導入しています。以前の拡散ベースの方法と比較して、GLIDE は 3.5B パラメーターとより大きなペアワイズデータセットを備えたより大きなモデルを使用し、多くのベンチマークでより良い結果を達成しました。 GLIDEとは異なり、Imagen [152]は凍結された T5 言語モデルと超解像拡散モデルを組み合わせています。

図 11. DALL-E-2 のモデル構造。点線の上にあるのは、ビジョンと言語モダリティを調整することを目的とした CLIP 事前トレーニングプロセスです。そして、点線の下は画像生成プロセスです。テキストエンコーダーは命令を受け取り、それを表現にエンコードします。次に、前のネットワークと拡散モデルがこの表現をデコードして、最終的な出力を生成します。

凍結されたエンコーダーは、テキスト命令をエンコードし、埋め込みを生成します。次に、最初の拡散モデルがそれに応じて低解像度の画像を生成します。2番目の拡散モデルは、この画像にテキストが埋め込まれたものを受け取り、高解像度の画像を出力します。DALL-E-2 [5]は、CLIPエンコーダーと拡散デコーダーを組み合わせて、画像の生成と編集作業を行います。Imagenと比較して、DALL-E-2は以前のネットワークを利用して、テキスト埋め込みと画像埋め込みの間の変換を行います。これらの拡散ベースのモデルと以前の生成方法とのもう1つの大きな違いは、これらの拡散ベースのモデルは一般に、より多くのパラメータを含む大規模なデータセットでトレーニングされるため、他のモデルよりも優れた表現を学習できることです。モデル設計の進歩を除いて、これらの拡散ベースのモデルは、より多くのパラメータを含む大規模なデータセットでトレーニングされるため、他のモデルよりも優れた表現を学習できることがあります。
これら以外にも、VAEをデコーダーとして使用する手法があります。たとえば、Rameshらが提案したDALL-E [33]は、dVAEを画像エンコーダーおよびデコーダーとして、BPEをテキストエンコーダーとして、事前にトレーニングされたCLIPを推論中に使用するゼロショット画像ジェネレーターです。

4.2.2 テキスト音声の生成
テキストとオーディオのマルチモーダル処理の分野は、近年著しい成長を遂げています。この分野のほとんどのモデルは、音声合成などの合成タスク、または自動音声認識などの認識タスクに焦点を当てています。それらは、書かれたテキストを話し言葉に変換するプロセス、または人間のスピーチを機械可読テキストに正確に転写するプロセスを指します。ただし、テキストオーディオの生成は、マルチモーダルモデルを使用して新しいオーディオまたはテキストを作成することを含む、別個のタスクです。

テキストオーディオの生成、合成、および認識タスクは関連していますが、それぞれの目標と、それらを達成するために使用される手法が異なります。この作業では、合成や認識のタスクではなく、テキストオーディオの生成に焦点を当てています。テキスト音声生成。AdaSpeech [153]は、2つの音響エンコーダーとメルスペクトログラムデコーダーの条件付きレイヤー正規化を利用することにより、限られた音声データを使用して高品質の新しい音声を効率的にカスタマイズするために提案されています。以前の研究ではスタイル変換に限界があるため、Lombard [154]はスペクトル整形とダイナミックレンジ圧縮[155]を利用して、ノイズの存在下で非常にわかりやすい音声を生成します。クロスリンガル生成は、言語間で音声を転送するもう1つの影響力のある作業です。[156]高品質のスピーチを生成できます音素入力表現と敵対的損失用語を使用して音声コンテンツから話者のアイデンティティを解きほぐすことで、複数の言語で音声を変換し、言語間で音声を転送します。

テキストミュージックジェネレーション
[157] は、オーディオと歌詞の深いクロスモーダル相関学習アーキテクチャを提案しています。ここでは、インターモーダル正準相関分析を使用して、オーディオと歌詞の間の時間構造の類似性を計算します。ソーシャルメディアコンテンツをよりよく学習するために、JTAV [158]は、クロスモーダルフュージョンと注意深いプーリング技術を使用して、テキスト、音響、および視覚情報を融合します。 JTAV とは異なり、 [159]は、プレイリストとトラックの相互作用やジャンルメタデータなど、音楽に関連する複数のタイプの情報を組み合わせ、それらの潜在的な表現を調整して、一意の音楽作品をモデル化します。また、音声を入力として説明文やキャプションなどのテキスト情報を生成することに着目した研究もある。 [160]は、オーディオコンテンツの分析と自然言語処理を組み合わせて各トラックの情報を利用することにより、音楽プレイリストの記述を生成することを提案しています。 MusCaps [161]は、マルチモーダルエンコーダーを介してオーディオテキスト入力を処理し、オーディオデータの事前トレーニングを活用して効果的な音楽的特徴表現を取得することにより、音楽オーディオコンテンツの説明を生成する音楽オーディオキャプションモデルです。音楽と言語の事前トレーニングについては、Manco et al。 [162]は、汎用の音楽オーディオ表現を学習するための唯一の監視信号として弱く整列されたテキストを使用するマルチモーダルアーキテクチャを提案しています。 CLAP [163]は、2 つのエンコーダーと対照的な学習を利用して音声とテキストの説明を共同のマルチモーダル空間に持ち込む、自然言語の監督から音声の概念を学習する別の方法です。

4.2.3 テキストグラフの生成
テキストグラフの生成は、NLPシステムの可能性を大幅に拡張できる重要なマルチモーダルトピックです。自然言語のテキストは、さまざまな冗長な情報を含んでおり、本質的にあいまいであり、論理的に整理されていません。一方、構造化され、整理され、圧縮された形式のコンテンツを処理することは、機械にとって有利です。ナレッジグラフ（KG）は、言語処理システムにおけるグラフ構造として、意味内部状態間の関係を反映する構造的意味表現です。また、文章からKGを抽出し、複数の文章にまたがる複雑な考えを統合した文章生成を支援する研究も増えています。

セマンティック解析は、テキストからグラフの生成の問題に定式化することもできます。自然言語テキストを論理形式、主に抽象的な意味表現（AMR）[164]に変換することを目的としています。これは、広範な範囲の文レベルの意味表現です。テキストからKGへの生成と比較すると、セマンティックネットワークを構築するよりも、機械が解釈可能な表現を提供することに重点が置かれています。逆に、KG-to-text生成は、既に構築されたKGに基づいて、流暢で論理的に一貫したテキストを生成することを目的としています。

NLPの領域とは別に、テキストグラフ生成は、コンピューター支援による創薬設計の境界を押し進める可能性もあります。高度に構造化された分子グラフと言語記述を橋渡しする新しい研究があり、深い分子知識と新しい分子探索の人間の理解を促進します。以下では、これら4つのトピックの代表的な作品を簡単に紹介します。

テキストからナレッジグラフの生成
李ら [165]テキストから KG への構築をナレッジグラフ補完 (KGC) のプロセスとして扱い、欠落している用語は推論によって徐々にカバーされます。双線形モデルと別の DNN ベースのモデルを採用して、用語を埋め込み、加法演算用の任意のタプルのスコアを計算します。 KG-BERT [166]は、事前にトレーニングされた言語モデルの力を利用して、KGC 中により文脈化された情報を取得します。アイデアは、トリプレットをテキストシーケンスとして表現し、微調整された BERT モデルによるシーケンス分類問題としてグラフの完成をモデル化することです。マラビヤ等。 [167] は、より構造的および意味的なコンテキストを抽出するために、グラフ畳み込みネットワーク (GCN) を組み込んだアプローチを提案しています。また、グラフ拡張とプログレッシブマスキング戦略を導入することで、グラフのスパース性とスケーラビリティの問題にも取り組みます。あるいは、別の一連の研究[168–170]は、事前に訓練された言語モデルを直接クエリして取得します。

セマンティック知識ネットワークに関する研究では、言語モデルが閉じた文のマスクされた用語を予測することで関連知識を取得します。CycleGT [171]は教師なしの方法で、テキストとKGの両方向の翻訳を可能にする手法です。自己教師を提供する教師なしサイクルトレーニング戦略を採用し、非並列テキストおよびグラフデータを使用してトレーニングを行います。同様の戦略を利用したDualTKB [172]では、モデルのパフォーマンスが監視が弱い設定でも大幅に改善されることを証明しています。ルーら。 [173]は、ほとんどの情報抽出タスクを含む統一されたテキストからグラフへのフレームワークを提案していますが、事前定義されたスキーマを使用することで、その一般化がノードとエッジのさまざまなテキスト形式に制限される場合があります。Grapher [174]は、エンドツーエンドのテキストからKGへの構築を効率的に実行するために、ノードとエッジを2つの別々の段階で生成する手法を提案しています。具体的には、事前にトレーニングされた言語モデルは、最初にノード生成用のエンティティ抽出タスクで微調整されます。そして、エッジ中の歪んだエッジ分布の問題に対処するために、焦点損失とスパース隣接行列が導入されます。

図 12. DUALENC [175]:デュアルエンコーディングによってKG とグラフの間の構造上のギャップを埋める KG-to-text 生成モデル。

ナレッジグラフからテキスト生成へ
GTR-LSTM [176]は、線形化されたKGトリプルからテキストを生成する、sequence-to-sequenceエンコーダー・デコーダーフレームワークです。KG単位でサイクルを処理することでグローバルな情報を取得することができますが、線形化されたグラフの性質は、特に大きなグラフの場合、構造的情報損失をもたらす可能性があります。

この問題に対処するために、ソングら[177]はグラフ状態LSTMを使用し、一連の状態遷移中にノード間の情報伝播を可能にするグラフセマンティクスをエンコードします。これにより、ノード間の非局所的な相互作用をモデル化できると同時に、高度な並列化により効率的であることが証明されています。また、趙ら。[175]は、DUALENCと呼ばれるデュアルエンコーディングモデルを提案しており、GCNベースのグラフエンコーダーを利用して構造情報を抽出し、ニューラルプランナーも採用して、線形出力テキストを生成するためのグラフのシーケンシャルコンテンツプランを作成します。

Koncel-Kedziorskiら[178]は、GATから拡張されたトランスフォーマーベースのアーキテクチャを使用し、テキスト生成用のグラフ構造をエンコードします。アイデアは、自己注意メカニズムを使用してローカル近傍をトラバースすることにより、KGのノード表現を計算することです。リベイロら。[180]は、グラフコンテキストから補足情報を取得するために、ローカルおよびグローバルノードエンコーディング戦略を共同で利用することに焦点を当てています。また、変圧器から適応したHetGT [181]は、さまざまな関係をモデル化することを目的としており、単に混合することによる情報の損失を避けるために、独立してグラフに表示されます。入力グラフは、最初に異種リバイグラフに変換され、次に、将来の情報集約のために各部分の異種性に基づいてサブグラフに分割されます。

セマンティック解析において、初期の研究[182, 183]は、意味解析をシーケンスからシーケンスへの生成問題として定式化しました。ただし、AMRは、その性質上、構造化されたオブジェクトであるため、Sequence-to-sequenceの問題の設定では、豊富な構文および意味情報を無視する可能性があります。リュウら。[184]は、AMRをルートラベル付きの有向非巡回グラフ（DAG）として表現することにより、グラフ予測問題としてセマンティック解析をモデル化しました。また、結合確率モデルの潜在変数としてアラインメントを扱うニューラルパーサーが、AMR解析中のノードアラインメントとエッジ予測のために提案されています[184]。

チェンら[185]は、ニューラルシーケンスからアクションへのRNNモデルを介して設定されたアクションでセマンティックグラフを構築する方法を提案しました。デコード中に構造的制約と意味的制約の両方を統合することにより、解析プロセスが強化されます。張ら[186]は、アライナーフリーのアテンションベースのモデルを介して、シーケンスからグラフへの変換を問題として定式化し、AMR解析の再現性に起因する問題に対処しました。

また、ポインター生成ネットワークを利用して、限られたラベル付きAMRデータでモデルを効果的にトレーニングできることが示されました[186]。ファンセルら。[187]は、AMRグラフ予測のための線形化されたグラフを構築するためのグラフ認識シーケンシャルモデルを提案しました。潜在変数がなければ、グラフを意識した新しい文字列書き換え戦略によって、整形式の各文字列が厳密に1つの派生のみとペアになることが保証されます。

テキストから分子の生成
Text2Mol [189]は、クロスモーダル情報検索システムであり、言語表現に基づいて分子グラフを探索します。BERTベースのテキストエンコーダーと、分子エンコーダーにはMLP-GCNが使用され、マルチモーダルな埋め込みを生成することができます。これは、コントラスト学習によって対となるデータを使用して調整されます。MolT5 [190]は、de-novo分子生成と分子キャプションのための自己教師あり学習フレームワークを提案しています。事前トレーニングと微調整戦略により、クロスモーダルデータペアの不足に対処します。具体的には、対になっていないテキストと分子文字列でモデルを事前にトレーニングし、その後、限られた対のデータで微調整することでノイズ除去を行います。ただし、線形化されたグラフの性質により、分子の文字列表現は一意ではなく、構造情報が失われる可能性があります。MoMu [188]は、この問題に対処するために、グラフベースのマルチモーダルフレームワークを導入しました。

弱く対になったクロスモーダルデータとのセマンティックスペースの整合性。また、de-novo分子グラフの生成とは別に、様々なダウンストリームタスクにも適応させることができます。

4.2.4 テキストコードの生成
テキストコード生成は、自然言語記述から有効なプログラムコードを自動生成するか、コーディング支援を提供することを目的としています。最近、LLMは自然言語(NL)記述からプログラミング言語(PL)コードの生成において大きな可能性を示しています。

初期の研究では、テキストコード生成を純粋な言語生成タスクとして直接定式化していましたが、NLとPLは本質的に異なるモダリティを持つため、NLとPLの間の相互依存関係を取得するには、アライメントのための追加戦略が必要です。PLデータは豊富な構造情報と様々なシンタックスもカプセル化するため、PLコンテキストからセマンティック情報を理解することがより困難になります。また、テキストコードモデルはより優れた一般化を提供できるため、多言語対応も期待されます。

以下では、主にNL記述を条件としたコード生成モデルを紹介し、言語に基づく他のコーディング支援モデルも検討します。テキスト条件付きプログラミングコードの生成に関する、CodeBERT[191]は、NLとPLの間のセマンティックなつながりを捉えることができるバイモーダルTransformerベースの事前トレーニング済みテキストコードモデルです。モデルトレーニングには、二項NL-PLペアデータを使用し、意味空間でNLとPLを整列させることにより、より良いジェネレーターを学習するためにユニモーダルPLコードデータも利用しています。

このモデルは、6つの多言語PLでさらに事前トレーニングされ、より一般化することができます。CuBERT [192]は、CodeBERT と同様のモデルアーキテクチャを共有していますが、関数の自然言語記述と文ペア表現の本体との間で文分離を実行する必要はありません。 CodeT5 [193]は、コードからコンテキスト化されたセマンティック情報をより適切にキャプチャする、事前トレーニング済みのエンコーダー/デコーダートランスフォーマーモデルを提案しています。具体的には、新しい識別子認識事前トレーニングタスクを導入して、コードトークンから識別子を識別することで重要なトークンタイプ情報を保持し、マスクされたときにそれらを回復します。 PLBART [194]は、統合されたフレームワークの下で、バイモーダルテキストコードモデルを生成タスクから、クローンや脆弱なコード検出などの識別タスクのより広いカテゴリに拡張します。

別の研究[195, 196]では、プログラムグラフ[197]の概念を導入して、生成を支援するために PL コードの基礎となる構造を明示的にモデル化しています。プログラムグラフは、プログラム固有のセマンティックおよび構文からの知識をカプセル化するために、抽象構文ツリー (AST) とし
て構築されます。

対話型プログラミングシステム
テキストコード生成は、プログラムコード生成の扱いにくい検索スペースと、NLの固有のあいまいさによるユーザーの意図の不適切な指定によって共同で挑戦されます。CODEGEN [198]は、単一の複雑なNL仕様に条件付けられたプログラム合成を、一連のユーザーインテントによって制御されるプログレッシブ生成に因数分解するマルチターンプログラム合成アプローチを提案しています。これは、前のトークンが与えられたときに次のトークンの条件付き分布を学習する自己回帰変換の形で構築され、PLデータとNLデータの両方でトレーニングされます。TDUIF [199]は、ユーザーの意図を形式化し、よりわかりやすいユーザーフィードバックを提供することで、対話型プログラミングフレームワークを拡張します。さらに、忠実度の高いユーザーインタラクションモデリングにより、ユーザーループを必要としないスケーラブルな自動アルゴリズム評価を実現します。

5 アプリケーション

【POINT1】Chatbotは、言語モデルを利用して人との会話をシミュレーションし、カスタマーサポートやFAQへの回答などのタスクを実行できます。
【POINT2】AIアート生成は、DALL-EやDreamStudioなどの注目すべき製品を用いて、機械学習を利用してオリジナルのアートワークを作成する技術です。
【POINT3】ディープミュージックジェネレーションは、AIVAやJukeboxなどの例を挙げて、AIアルゴリズムを使用してオリジナルの音楽を生成する技術であり、CodeGPTやCodexなどのAIベースのプログラミングシステムはコードの補完や修復の支援に役立ちます。AIGCは個人に合わせた教育体験を向上させることもできます。

5.1 チャットボット
チャットボットは、テキストベースのインターフェースを介して人間のユーザーとの会話をシミュレートするように設計されたコンピュータープログラムです。チャットボットは通常、言語モデルを使用して、ユーザーのクエリと入力を理解し、会話形式で応答します。たとえば、顧客サポートの提供やよくある質問への回答など、さまざまなタスクを実行するようにプログラムできます。

図 14. 現在の研究分野、アプリケーション、および関連企業の関係グラフ。濃い青の丸は研究分野、水色の丸はアプリケーション、緑の丸は企業を表します。

最も顕著な例は、Xiaoice [200]です。Xiaoiceは、Microsoftの研究者とエンジニアのチームによって、自然言語処理、機械学習、知識表現の最先端技術を使用して開発されました。Xiaoiceの重要な機能は、感情分析手法を使用して共感を表現することで、人間のように動作することができます。Googleは2020年に、ソーシャルメディアの会話でトレーニングされたマルチターンオープンドメインのチャットボットであるMeena [201]を提案しました。Meenaは、最先端のインタラクティブなSSAスコアを達成しています。

最近、Microsoftは最新バージョンのBingにChatGPTを組み込んでリリースしました。これにより、ユーザーはオープンドメインまたは条件付きの質問をして、会話を通じて結果を得ることができます。これは、将来のチャットボットの開発に新たな可能性をもたらします。

5.2 アート
AIアート生成とは、コンピューターアルゴリズムを使用してオリジナルのアート作品を作成することを指します。これらのアルゴリズムは、既存のアートワークの大規模なデータセットでトレーニングされ、機械学習技術を使用して、有名なアーティストのスタイルとテクニックを模倣したり、新しい芸術的スタイルを探求したりする新しい作品を生成します。拡散ベースのモデルの急速な発展に伴い、ますます多くの企業がアート生成製品を発売しています。この分野で最も注目すべき進歩の1つは、OpenAIによって導入されたDALL-Eシリーズです。

現在のCraiyonであるDALL-E [1]は、最初にVQ-VAEとCLIPで構築され、その後、この製品にも拡散が適用され、DALL-E 2 [5]になりました。Stability.aiによって作成されたDreamStudio [13]は、テキストから画像への生成サービスであり、安定した拡散を利用して、指定されたフレーズまたは文に基づいて画像を生成します。このテクノロジーは、DALL-E-2と同等のパフォーマンスを提供しますが、処理速度がさらに速いため、多くのユーザーに人気があります。Googleが開発したImagen [152]は、画像編集および生成サービスで、拡散を使用しています。Googleはブログ投稿で、AIが生成した画像の品質を評価するために人間の評価者を対象に調査を実施したと報告しました。結果は、Imagenが他のモデルに比べて優れていることを示しており、サンプルの品質と画像とテキストの配置の評価が人間の評価者に好まれていました。

5.3 音楽
ディープミュージックジェネレーションとは、ディープラーニング技術と人工知能アルゴリズムを使用して、斬新で独創的な音楽を生成することを指します。著名なアプローチは、ピアノロールの形で音楽を象徴的に表現することです。このアプローチでは、演奏する各ノートのタイミング、ピッチ、速度、および楽器を指定する必要があります。AIVA は最も注目すべき例の 1 つで、2016 年に Aiva Technologies によって開発されました。エレクトロニック、ポップ、ジャズなどを含む複数のスタイルの音楽クリップを生成でき、さまざまなコンテキストで使用できます。交響楽団によって認められた世界初の人工知能作曲家として、AIVAはSACEM音楽協会で作曲家の世界的地位を獲得しました。OpenAI は 2020 年に Jukebox [203] を開発し、生のオーディオドメインで、さまざまなジャンルや芸術的なスタイルで歌うことで音楽を生成します。Jukebox は、音楽の品質、一貫性、オーディオサンプルの長さ、およびアーティスト、ジャンル、および歌詞によって条件付けられる容量の点で飛躍的な進歩を遂げていると考えられています。

5.4 コード
AIベースのプログラミングシステムは、通常、コード補完、ソースコードから擬似コードへのマッピング、プログラムの修復、APIシーケンスの予測、ユーザーフィードバック、自然言語からコードへの生成などのタスクを目的としています。最近、強力なLLMが登場したことにより、AIベースのプログラミングの境界が大きく前進しました。CodeGPT[204]は、OpenAIによって開発されたオープンソースのコード生成モデルであり、GPTの他の多くのモデルと同様にトランスフォーマーアーキテクチャに従います。膨大な量のソースコードデータに基づいて、コード補完、要約、翻訳など、さまざまなコード生成タスクに合わせて微調整できます。

CodeParrot[205]は、コーディング中にパーソナライズされたフィードバックと支援をユーザーに提供するプログラミング学習プラットフォームです。さまざまなインタラクティブな演習とプログラミング課題は、進歩的な人間と機械の相互作用の方法で設計されています。ユニークな機能の1つは、複雑なタスクを小さくて管理しやすいステップに分割する足場戦略で、学生が徐々にコーディングスキルを構築できるようにします。

Codex[206]は、はるかに大規模で多様なデータコーパスでトレーニングされており、以前のほとんどのモデルと比較して大きな進歩を遂げています。具体的には、完全なコーディングプログラムをゼロから生成するように設計されていますが、CodeGPTは特定のプロンプトを完了するコードフラグメントしか生成できません。また、複数のプログラミング言語に適応できるという利点もあり、柔軟性と汎用性が向上します。

5.5 教育
AIGCを活用することで、チュートリアルビデオ、学術論文、およびその他の高品質の情報など、マルチモーダルデータを使用して、教育を大幅に改善することができ、より個別化された教育体験が可能になります。学術的な面では、Google Researchは、Minerva [207]を導入しました。これは、PaLM一般言語モデル [209]と、追加の科学と数学に焦点を当てたデータセットに基づいて構築され、代数、確率、物理学、数論、前計算、幾何学、生物学、電気工学、化学、天文学、および機械学習など、大学レベルの複数段階の定量的タスクを解決します。

たとえば、任意の x について不等式≥ 2を証明するための詳細な手順を提供できます。また、ナトリウム、クロム、およびアルミニウムを含む他の3つの選択肢から、放射性元素としてアメリシウムを正しく識別することもできます。ブログ5によると、Minervaは、数ショットプロンプト、一連の思考またはスクラッチパッドプロンプト、多数決などの方法を組み合わせることで、推論タスクで最先端のパフォーマンスを達成しています。Minervaのパフォーマンスは依然として人間のパフォーマンスを下回っていますが、継続的な改善が行われています。商業面では、Skillful Craftsman Education Technologyは、AIGCを搭載したクラスボット製品を開発し、自動カリキュラム、AIチューター、およびオンライン教育用の自己適応型学習を特徴としています。2023年第4四半期までに出荷される予定です。

6 AIGC の効率性

【POINT1】効率性は、AIモデルの実世界での展開において重要であり、推論効率と学習効率の2つの側面があります。
【POINT2】プロンプト学習は、事前学習された大規模言語モデルの文脈で提案された新しい概念で、タスクを指定するプロンプトを提供することで予測を行います。
【POINT3】PFM（大規模事前学習基盤モデル）は、多くのNLPタスクで最先端の結果を達成する一方で、効率性の問題があり、コスト効果的な事前学習方法が求められています。

ニューラルネットワークを使用したディープジェネレーティブ AI モデルは、過去 10 年間、機械学習の分野を支配してきました。その台頭は、2012 年の ImageNet 競争[210] に起因し、より深く、より複雑なモデルを作成するための競争につながりました。この傾向は、BERT や GPT-3 などのモデルが多数のパラメーターで開発されている自然言語理解にも見られます。ただし、モデルのフットプリントと複雑さの増加、およびトレーニングと展開に必要なコストとリソースにより、現実の世界での実際の展開には課題が生じます。中心的な課題は効率性であり、次のように分類できます。

推論効率:これは、推論のためにモデルを展開する際の実際的な考慮事項、つまり、特定の入力に対するモデルの出力を計算することに関するものです。推論効率は、推論中のモデルのサイズ、速度、リソース消費 (ディスクや RAM の使用量など) に大きく関係しています。

トレーニングの効率:これは、モデルのトレーニングの速度とリソース要件に影響を与える要因 (トレーニング時間、メモリフットプリント、複数にわたるスケーラビリティなど) をカバーしています。

５https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

図 15. 感情検出例のプロンプト学習の一般的な手順。まず、ユーザーは問題に適したプロンプトを作成する必要があります。ユーザーは、コンテキスト内学習と思考連鎖 (CoT) を使用してパフォーマンスを向上させることもできます。次に、LLM がプロンプトの空白に適した単語を生成します。最後に、バーバライザーが生成された単語を特定の分類カテゴリに投影します。

デバイス。また、特定のタスクで最適なパフォーマンスを達成するために必要なデータ量に関する考慮事項も含まれる場合があります。

6.1 プロンプト学習
プロンプト学習とは、事前にトレーニングされた大規模な言語モデルの文脈で最近提案された比較的新しい概念です。従来の教師あり学習では、入力 𝑥 が与えられた場合に予測 𝑦 を行う言語モデルが確率 𝑃 (𝑦 |𝑥 ) を予測することが目的でした。プロンプト学習では、目的は直接確率 𝑃 (𝑦 |𝑥 ′) を予測するテンプレート 𝑥 ′ を見つけることになります[211]。したがって、言語モデルを使用する目的は、実行するタスクを指定するプロンプトを提供することにより、事前にトレーニングされたモデルが予測を行うことを奨励することになります。

通常、プロンプト学習では、言語モデルを凍結して、数ショットまたはゼロショット学習を直接実行します。これにより、言語モデルを大量の生のテキストデータで事前にトレーニングし、再度調整することなく新しいドメインに適応させることができます。したがって、プロンプト学習は、多くの時間と労力を節約するのに役立つことができます。

6.1.1 従来の迅速な学習
言語モデルでプロンプト学習を利用するプロセスは、プロンプトエンジニアリングとアンサーエンジニアリングの 2 つの主要な段階に分けることができます。

プロンプトエンジニアリングには、通常、2つの一般的に使用される形式、離散プロンプトと連続プロンプトがあります。離散プロンプトは通常、特定のタスクのために人間によって手動で設計されますが、連続プロンプトはタスク固有の情報を伝えるために入力に追加されます。

アンサーエンジニアリングタスクは、タスクが再定式化された後、提供されたプロンプトに基づいて言語モデルによって生成された回答をグラウンドトゥルーススペースにマッピングする必要があります。工学に答えるためのさまざまなパラダイムがあり、離散検索空間や連続検索空間などがあります。このトピックは分類タスクに密接に関連しているため、関心のある読者に詳細情報を提供します。

シングルプロンプト学習方法に加えて、マルチプロンプト方法があります。これらのアプローチは、主に、単一のプロンプトに依存するよりも効果的な予測の堅牢性を向上させるために、推論中に入力として複数のプロンプトをアンサンブルすることに焦点を当てています。マルチプロンプト学習のもう1つのアプローチは、プロンプト拡張です。これは、既に回答された追加のプロンプトを提供することにより、モデルが質問に回答するのを支援することを目的としています。

6.1.2 インコンテキスト学習
最近、言語モデルのパフォーマンスを向上させるための効果的な方法として、インコンテキスト学習が大きな注目を集めています。このアプローチはプロンプトのサブセットです。

インコンテキスト学習では、学習し、事前にトレーニングされた言語モデルをバックボーンとして使用し、いくつかの入力ラベルのデモンストレーションペアと指示をプロンプトに追加します。コンテキスト内学習は、言語モデルを導き、与えられたプロンプトにより近い、より良い回答を生成するのに非常に効果的であることが示されています。最近のいくつかの研究では、インコンテキスト学習は、モデルが入力プロンプトに基づいてより正確に回答を生成する方法を学習できるため、暗黙的な微調整の形式と見なすことができることも示唆されています。

6.2 事前トレーニング済みの基礎モデルの効率
AIGCフレームワークのコンテキスト内で、提案された各方法の基本コンポーネントには、大規模な事前トレーニング済み基礎モデル (PFM) の利用が含まれます [212]。BERT [42]、GPT-2 [62]、RoBERTa [43]などのPFMは、自然言語処理の分野に革命をもたらし、幅広いNLPタスクで最先端の結果を達成することにより、高い評価を受けています。ただし、これらのモデルは非常に大きく、計算コストが高いため、効率の問題が発生する可能性があります。

特に、計算リソースが限られているクラウド環境やパソコンなど、処理能力が限られている場合に当てはまります。これらの効率の問題に対処するために、最近の多数の研究は、大規模なPFMをより費用対効果の高い事前トレーニング方法でトレーニングすることに専念しています。学習アルゴリズムの有効性は、トレーニング方法とモデルアーキテクチャの効率の両方に左右されます。

たとえば、ELECTRA [213]は、各入力トークンが他のトークンに置き換えられるかどうかを予測するRTDタスクを導入し、これによりELECTRAがすべての入力トークンに対してトレーニングできるようになりました。効果的なトレーニング方法に加えて、モデルアーキテクチャの効率もPFMの効率の向上に貢献できます。Transformerアルゴリズムに基づくほとんどのPFMは、Transformerアルゴリズムの複雑さを軽減することにより、より効率的なモデルアーキテクチャの恩恵を受けることができます。

6.3 モデルの圧縮
モデルの圧縮は、モデルのサイズを縮小し、計算効率を向上させるための効果的なアプローチです。必要な計算リソースとメモリを削減し、元のモデルよりも様々なアプリケーションのニーズに合わせることができます。元のモデルでは、圧縮の戦略をパラメーター圧縮と構造圧縮の2つのカテゴリに分けることができます。パラメーターの圧縮方法には、パラメーターの枝刈り、パラメーターの量子化、低ランク分解、およびパラメーターの共有が含まれます。

パラメーターの枝刈りは、大きなPFMに基づく冗長なパラメーターを取り除きます。パラメーターの量子化は、モデルのパフォーマンスに大きな影響を与えることなく、モデルパラメータを低次元に減らします。低ランク分解は高次元パラメーターの次元を削減し、パラメーターの共有はモデルパラメーターをマッピングしてその数を削減します。構造圧縮は、新しいコンパクトなネットワーク構造を設計し、知識蒸留を採用することを指します。そこでは、より大きな教師モデルから学んだ知識が、特にソフトラベルを介してより小さな生徒モデルに転送されます。例えば、DistilBERTは、知識の蒸留を使用してBERTを圧縮し、言語理解の97%を維持しながらサイズを40%縮小します。ALBERTは、分解埋め込みパラメーター化とクロスレイヤーパラメーター共有を使用して、モデルパラメーターの数を減らします。

7 信頼できる責任ある AIGC

【POINT1】AIGCは便利ですが、セキュリティとプライバシーの懸念があります。
【POINT2】AIGCの事実の正確さを向上させる研究や手法が開発されています。
【POINT3】AIGCのプライバシー問題を解決するために、新しいプライバシー保護技術が必要です。

AIGC は、さまざまなアプリケーションで非常に役立つ可能性を秘めていますが、セキュリティとプライバシーに関する重大な懸念も引き起こしています。このセクションでは、 AIGC の「暗い」側面を明らかにする研究と、 AIGC を安全かつ責任ある方法で使用できるようにするために提案された対策について説明します。

7.1 セキュリティ
ChatGPT [4] のようなツールは、通常合理的に見える、または合理的に聞こえるコンテンツを生成できますが、実際には信頼できないことがよくあります [215]。場合によっては、モデルが反事実や不合理な回答を出力することもあり、インターネット上の情報の真実性に深刻な脅威をもたらすことがあります。

最近、NewsGuardの Misinformation Monitor [216] は、AI によって生成されたコンテンツツールが前例のない規模で偽情報を広めるために兵器化されている可能性を示しました。NewsGuard 独自の誤報データベースから 100 のサンプルが提示され、テストされたモデルである ChatGPT は、以前に特定された 100 の誤った議論のうち 80 に対して誤った物語を生成しました。これは、トピックに不慣れな人にとっては正当で信頼できるものとして簡単に見つけられる可能性があることを示唆しています [216]。さらに、Alex [217] は、ChatGPT [4] を活用して新聞を作成する方法を示すことで、より具体的な例を提供しています。自然言語処理に加えて、コンピュータービジョンの分野にも事実に関する懸念が存在します。

たとえば、stable diffusion [13] は、正しい指の数 [218] でリアルな人間の手を描くのに問題があることが実証された強力な視覚生成モデルです。インターネット上での誤った情報の拡散を防ぐために、Stack Overflow [219] のようなウェブサイトは、不正確で偏ったコンテンツに圧倒されるリスクを減らすために、ユーザーが AI によって生成されたコンテンツを回答として使用することを禁止するポリシーを提案しています。

以前の研究では、AI モデルが事実の不正確さと知識の幻覚に苦しんでいることが示されている[220]。 AIによって生成されたコンテンツの事実の正確性を評価および改善するために、 [221]は、生成されたテキストの事実性を測定するモデルベースのメトリクスを提案し、 ROUGE (Gisting EvaluationのためのRecall-Oriented Understudy) [222]やBLEU (バイリンガル評価研究) [223]。具体的には、 [221] は、事実性評価のための関係タプルの構造化された予測を可能にする、 Transformer ベースのエンドツーエンドの事実抽出モデルを提案しました。 AIによって生成されたコンテンツを管理するための真実性の基準とアプローチのより体系的な定義は、後にTruthful AI [224]で提案されました。 Truthful AI によって提案された標準は、「過失による虚偽」を回避し、精選されたデータセットと人間の相互作用を通じて AI システムが真実であるように明示的にトレーニングすることを目的としています。 WebGPT [225]は、GPT-3 に基づいて、 AI 応答プロセスを Web 検索と証拠作成フレーズにモデル化するヒューマノイドプロトタイプを提案しました。モデルはソースを引用するようにトレーニングされているため、AI によって生成されたコンテンツの事実の正確性は、複数のベンチマークデータセットで大幅に改善されています[226, 227]。

具体的には、モデルは、人間のフィードバックを活用して回答の品質を最適化する模倣学習を使用して GPT-3 を微調整することによって取得されます。さらに、 [228] は、オープンエンドのテキスト生成のための大規模な言語モデルの事実上の正確性を測定し、改善しています。 [228]は、ランダム性を動的に適応させて、AIによって生成されたコンテンツの事実と品質のバランスをとる事実核サンプリングアルゴリズムを提案しました。事実の認識と文の完成を向上させるために TOPICPREFIX を使用する事実強化トレーニング方法は、トレーニングの目的として設計されており、事実の誤りを大幅に削減します。より真実の AI を開発するためのこれらの予備的な進歩にもかかわらず、課題は依然として残っています。

例えば、AIによって生成されたコンテンツは、未知の種類の質問や矛盾があるコンテキストで問題になる可能性があります[215]。AI生成コンテンツ（AIGC）が有用であり、無害であり、偏りがなく、毒性がないことは、重要な課題です。偏った出力[232, 233]、ステレオタイプ[234]、誤った情報[235]を含む可能性がある展開されたモデル[229–231]によって引き起こされる潜在的な害について、幅広い研究が行われています。この言語ドメインの毒性の問題に対処するために、OpenAIはInstructGPT [10]を提案しています。InstructGPTは、人間のフィードバックを報酬シグナルとして使用してモデルを微調整し、言語モデルを人間の好みに合わせ、より適切で安全な応答を保証します。同時に、GoogleはLaMDA [236]を提案しています。LaMDAは、微調整と外部の知識ソースを活用することにより、安全で事実に基づく対話に特化したニューラル言語モデルのファミリーです。モデルの安全性を向上させるために、LaMDA [236]は、モデルの安全性を定量化する一連の測定基準（元の論文の付録A.1）を設計しています。

GoogleのAI Principlesから導き出された人間の価値観についても説明します。さらに、ガングリー[237]は、言語モデルの安全性を研究し、改善するための敵対的手法を探求しました。具体的には、異なるサイズ（2.7B、13B、および52Bパラメーター）のモデルとトレーニングスキーム（プレーンLM、微調整LM、拒否サンプリングによるLM、およびRLHFでトレーニングされたLM）を使用して、レッドチームのスケーリング動作を調査しました。彼らは、RLHFでトレーニングされたモデルがより適切にスケーリングされ、レッドチームにとってますます困難になることを発見しました。

7.2 プライバシー
メンバーシップの推論
メンバーシップ推論攻撃（MIA）の目的は、画像が一連のトレーニングデータに属しているかどうかを判断することです。吳ら[238]は、現実的なブラックボックス設定の下で、テキストから画像への（拡散ベースおよびシーケンスからシーケンスベースの）生成モデルにおけるメンバーシップの漏れを調査しました。具体的には、品質、復元誤差、忠実度の3つの直感を考慮して、攻撃アルゴリズムを設計しました。しかし、吳ら[238]は、メンバーセットとホールドアウトセットが異なるディストリビューションに由来すると仮定したため、MIAがはるかに簡単になることを指摘しています。より実用的な設定[239]の下で、メンバーセットとホールドアウトセットが同じ分布にある場合、段ら[240]は、ブラックボックスMIAであるステップワイズエラー比較メンバーシップ推論（SecMI）を提案しました。

これは、各タイムステップでのフォワードプロセス事後推定のマッチングを評価することによってメンバーシップを推測するものです。同時に、胡と彭[241]は、損失ベースと尤度ベースのMIAを含む2つの攻撃アプローチを提案しています。さらに、松本ら[242]は、GANsとのより多くの比較を紹介しています。

データ抽出
データ抽出攻撃の目的は、トレーニングデータセットから画像を取得することです。これはεで表されます。攻撃者が画像を取得できれば、攻撃は成功したと見なすことができます。メンバーシップ推論攻撃と比較して、データ抽出攻撃は、モデルにより強いプライバシーリスクをもたらします。このような攻撃の実現可能性は、大規模モデルの記憶特性[243]に起因する可能性があります。これは、トレーニングデータの一部を記憶することに変わります。適切なプロンプトが表示されると、機密情報を含む可能性のある記憶されたトレーニングデータが逐語的に出力されます。以前、言語ドメインでは、Carlini et al.[244]は、大規模な言語モデル（具体的には、GPT-2[245]）が個々のトレーニング例を記憶し、リークすることを実証しました。

具体的には、ブラックボックスクエリアクセスのみを使用して、言語モデルのトレーニングセットから逐語シーケンスを抽出するためのシンプルで効率的な方法を提案しました。最近、ビジョンドメインでは、Somepalli et al.[246]は、データ複製の問題が拡散モデルに存在することを示しました。この場合、生成された画像は、意味的類似性の点でトレーニングデータに近くなります。最悪の場合のプライバシーリスクを開示するために、Carliniらは[247]、モデルから千を超えるトレーニング例を抽出するために、生成とフィルターのパイプラインを活用して、最先端の拡散モデルのプライバシーの脆弱性をさらに調査しました。具体的には、抽出アプローチは、最初に、選択されたプロンプトを使用してブラックボックス方式で生成関数をクエリすることにより、500の候補画像をサンプリングします。記憶されたデータの世代がほぼ同一であるという直感に基づいて、類似度グラフが作成され、画像がトレーニングセットに属しているかどうか判断されます。 [247]の結果は、Stable Diffusion [13]や Imagen [152] を含む拡散モデルが、 GAN などの初期の生成モデル[29]と比較してプライバシー侵害の影響を受けやすいことを示しています。これらの結果は、これらの脆弱性に対処するために、トレーニング中にプライバシーを保護するための新しい技術を開発する必要性を強調しています。

8 未解決の問題と今後の方向性

【POINT1】高リスクな分野では、AIGCモデルは正確で信頼性が高く、透明性が求められます。
【POINT2】AIGCは専門性と汎用性のバランスが重要で、学習データセットの設計に影響します。
【POINT3】AIGCの普及に伴い、バイアスや倫理、プライバシーなどの社会的懸念が重要になります。

このセクションでは、AIGC のいくつかの課題と、それらに対処するための潜在的な方法について説明します。

ハイステークアプリケーション
コミュニティは、画像、テキスト、および音声の生成におけるAIGCの大成功を目の当たりにしてきましたが、これらの領域はよりフォールトトレラントであることが間違いありません。しかしながら、ヘルスケア[248]、金融サービス[249]、自動運転車[250]、科学的発見[251]など、リスクの高いアプリケーション向けのAIGCは依然として困難です。これらのドメインでは、タスクはミッションクリティカルであり、高度な精度、信頼性、透明性、およびフォールトトレラントが必要です。たとえば、科学を自動的に整理するために作成された大規模な言語モデルGalactica [252]は、知識集約型の科学タスクを実行でき、いくつかのベンチマークタスクで有望なパフォーマンスを発揮しています。

しかし、その公開デモは、最初のリリースからわずか3日後にサービスから削除されました。これは、権威ある口調で生成された偏った不正確な結果に対する集中的な批判のためです。これらのリスクの高いアプリケーションの生成モデルでは、生成された結果とともに信頼スコア、推論、およびソース情報を提供することが重要です。これらのツールを自信を持ってタスクに使用できるようにするためには、専門家がこれらの結果がどのように、どこから得られたかを理解する必要があります。

専門化と一般化
AIGCは、様々なデータセットでトレーニングされる基盤モデルの選択に依存しています。その選択には、クロールベースの[37]ものや慎重にキュレーションされた[252]ものが含まれます。[230]によると、「より多様なデータセットでのトレーニングが、より専門的な基盤モデルよりも下流のパフォーマンスにとって常に優れているとは限らない」と主張されています。クロスドメイン表現と、それらがテスト時の分布シフトにどのように回復するかをよりよく理解することは、専門化と一般化のバランスをとるトレーニングデータセットの設計を導く可能性があります。

継続的な学習と再訓練
人間の知識ベースは拡大し続け、新しいタスクが出現し続けています。最新の情報を含むコンテンツを生成するには、モデルが学習した知識を「記憶」するだけでなく、新たに取得した情報から学習して推論できる必要があります。一部のシナリオ[253]では、事前訓練された基礎モデルを変更せずに下流のタスクで継続学習を実行することができます。必要に応じて[254]、基礎モデルで継続学習を実行することもできます。ただし、継続学習が常に再訓練されたモデルよりも優れているとは限りません[255]。このため、いつ継続学習戦略を選択すべきか、いつ再訓練戦略を選択すべきかを理解する必要があります。また、基盤モデルをゼロからトレーニングするのは非現実的な場合があるため、AIGCの次世代基盤モデルは、モデルのどの部分を再トレーニングする必要があるかを明らかにするためにモジュール化された設計が求められます。

推論
推論は、人間の知性にとって重要な要素であり、意思決定や複雑な問題の解決を可能にします。しかし、大規模なデータセットでトレーニングしても、GAIモデルは常識的な推論タスクに失敗することがあります[256, 257]。最近、この問題に注目する研究者が増えています。思考連鎖（CoT）プロンプト[256]は、生成AIモデルの推論課題に対する有望な解決策です。これは、大規模な言語モデルが質問応答のコンテキストで論理的推論について学習する能力を強化するように設計されています。人間がモデルへの回答に到達するために使用する論理的推論プロセスを説明することにより、人間は推論を処理する際にたどるのと同じ道をたどることができます。このアプローチを組み込むことにより、大規模な言語モデルは、論理的な推論を必要とするタスクにおいて、より高い精度とパフォーマンスを実現できます。CoTは、ビジョン言語の質問応答[257]やコード生成[258]などの他の分野でも適用されています。ただし、特定のタスクに応じてこれらのCoTプロンプトをどのように構築するかという問題は依然として残っています。

スケールアップ
スケールアップは、大規模な事前トレーニングにおいてよくある問題です。モデルのトレーニングは、コンピューティングの予算、利用可能なデータセット、およびモデルのサイズによって常に制限されます。事前トレーニングモデルのサイズが大きくなるにつれて、トレーニングに必要な時間とリソースも大幅に増加します。これは、自然言語理解、コンピュータービジョン、音声認識などのさまざまなタスクに大規模な事前トレーニングを利用しようとする研究者や組織にとって課題となります。

もう1つの問題は、大規模なデータセットを使用した事前トレーニングの有効性に関するもので、モデルサイズやデータボリュームなどの実験的なハイパーパラメータが慎重に設計されていない場合、最適な結果が得られない可能性があります。そのため、最適化されていないハイパーパラメータは、無駄なリソースの消費につながり、さらなるトレーニングを通じて望ましい結果を達成できなくなる可能性があります。これらの問題を解決するために、いくつかの研究によって提案された作品があります。たとえば、ホフマンらは[259]、パラメータの数とデータセットのサイズに基づいてモデルのパフォーマンスを予測するための正式なスケーリング則を導入しました。この作業は、スケールアップ時にこれらの主要な要因間の関係を理解するための有用なフレームワークを提供します。また、アガジャニャンらは[260]、ホフマンのスケーリング則を検証し、マルチモーダルモデルトレーニング設定における異なるトレーニングタスク間の関係を調査する追加の式を提案しました。これらの調査結果は、大規模なモデルトレーニングの複雑さと、さまざまなトレーニングドメインにわたるパフォーマンスの最適化のニュアンスに関する貴重な洞察を提供します。

社会問題
AIGCが多様な領域で広がるにつれて、その使用に関する社会的な懸念がますます顕著になっています。これらの懸念は、AIが生成するコンテンツに偏りが生じる可能性、バイアス、倫理、およびさまざまな利害関係者に対する影響などの問題に関連しています。主要な懸念事項の1つは、特に自然言語処理やコンピュータービジョンの分野で、AIによって生成されたコンテンツに偏りが生じる可能性があることです。

AIモデルは、トレーニングデータ自体に偏りがある場合、既存の社会的な偏見を永続化または増幅する可能性があるため、重大な悪影響をもたらす可能性があります。雇用、ローンの承認、刑事司法などの分野での差別や不公平などです。AIによって生成されたコンテンツを使用すると、特に技術がディープフェイクやその他の形式の操作されたメディアを生成するために使用される場合に、倫理的な懸念も生じます。このようなコンテンツは、虚偽の情報を広めたり、暴力を扇動したり、個人や組織に危害を加えたりするために使用される可能性があります。

さらに、AIによって生成されたコンテンツが著作権や知的財産権を侵害する可能性や、プライバシーやデータセキュリティに関する問題が懸念されています。全体的に、AIによって生成されたコンテンツは、多くの可能性を秘めていますが、これらの社会的懸念に対処するために、その使用が社会全体にとって責任があることを確認し、有益であることを確認することが重要です。

9 結論

この調査では、AIGCの歴史と最近の進歩の包括的な概要を提供し、特にユニモダリティとマルチモダリティの両方の生成モデルに焦点を当てています。さらに、AIGCで一般的に使用される手法である生成AIモデルの最近のアプリケーションについて説明し、現場での信頼性と責任を取り巻く懸念に対処します。

最後に、AIGCの未解決の問題と将来の方向性を探り、イノベーションと進歩の潜在的な道筋を強調します。この調査の主な目的は、読者にジェネレーティブAIの最近の開発と将来の課題について包括的な理解を提供することです。私たちの分析は、現代の生成AIモデルをその前任者から区別することを目的として、AI生成の一般的なフレームワークに関するものです。最終的には、この調査が、読者がこの分野についてより深い洞察を得るのに役立つことを願っています。今後、このトピックをさらに調査し、AIGCのより包括的な分析を提供します。

※参考文献、レビューについては原文をご覧ください。