Generative AI For Everyoneの受講メモ 1

2023年11月26日 21:18

Andrew Ng先生のGenerative AI For Everyoneの講義メモをまとめる。先に講義の全体の感想を述べると、相変わらず素晴らしいクオリティ。これをちゃんと受講しておけば、なんちゃってAIマスターの発言に右往左往しなくてすむ。英語字幕しかないので、誰かの役に立てばと思い、日本語の要約メモを記す。気になった人は、講義を通しで受講すべき。無料でうけれる。
https://www.coursera.org/learn/generative-ai-for-everyone

生成AIとは何か?

生成AIは教師あり技術を基にしており、ある入力から対応する出力を生成する技術。大規模な言語モデル(LLM)を使用して、与えられたプロンプトに基づいて続きの文章を生成する。
LLMは文章のリライトや物語の作成など、クリエイティブな作業のパートナーとして機能するが、医療アドバイス等具体的な知識が必要な場合、正確な情報を提供することはできず、ウェブ検索の利用が推奨される。
本講義では生成AIのアプリケーションは以下の三つの種類に分けて深掘りしている。
- 書くタスク (Writing Tasks)
- 読むタスク (Reading Tasks)
- チャットするタスク (Chatting Tasks)
さらに、生成AIベースのアプリケーションは以下の２種類に分けられる。
- インターフェースベースのアプリケーション(ChatGPT,BingChat)
- ソフトウェアベースのLLMアプリケーション(メールの自動振り分け、ドキュメント検索)

アプリケーションの分類については、ユーザーのタッチポイントとなる部分を担うか、バックエンド的に処理され既存のソフトウェアにビルトインされるかの差である理解した。
ユーザーのタッチポイントの取り合いは激化していて、こちらの記事も参考になる。

生成AIを用いたアプリケーション

Writing(書く)

ブレインストーミング: 生成AIを使用して創造的なアイデアを生み出すことができる。
コピーライティング: 具体的で洞察に満ちたコンテンツを作成するには、より詳細な背景情報やコンテキストをプロンプトとして与えることが重要。
翻訳: 特にインターネット上に多くのテキストが存在する言語において、翻訳タスクで優れたパフォーマンスを発揮する。テキスト量が少ない言語(etc:ヒンディー語)ではパフォーマンスが低下することがある。

Reading(読む)

校正 (Proofreading):スペルや文法のエラー、不自然な文章を見つけて修正する。
記事の要約 (Summarization):長い記事を読む時間がない場合、LLMに要約を依頼して重要なポイントを把握する。
カスタマーサービスコールの分析 :カスタマーサービスの通話内容を要約して、問題点やトレンドを迅速に把握する。
顧客メール分析 :顧客からのメールを分析して、苦情かどうか、またどの部署にエスカレーションすべきかを判断する。
評判モニタリング):レストランの顧客レビューを分析して、ポジティブまたはネガティブな感情を識別する。

Chatting(チャット)

チャットボットを用いたカスタマーサービスは４段階ある。ボットのみで行う場合と人間のみで行う場合の他、以下二つがある。

ボットと人間の協働:人間のエージェントがボットによって生成されたメッセージを確認し、承認または編集する「ヒューマン・イン・ザ・ループ」モデル。ボットが間違った情報を提供するリスクを軽減するためのアプローチ。
メッセージのトリアージ:ボットが簡単な問い合わせを処理し、より複雑な問題を人間にエスカレーションする設計。例として、返金リクエストの自動検出と処理を行うボットなど。

２つの違いは、前者においてはあくまで人間はシステムの一部であり、ボットでタスクを完結することに重きが置かれているのに対し、後者は初めから人間が対応する前提でボットが組み込まれている。人とボットどちらに重きを置くかの違い。

LLMができることと、できないこと

LLMを使いこなすための良いメンタルモデル
- インターネット等の情報源にアクセスできない
- 特定のビジネスや専門知識をもたない
- 前回のタスクの記憶が引き継がれない(毎回新しい人に指示しているがごとく)
「新卒大学生」に指示を与えるのと同様に考えると良い

そのように考えるとLLMで解くべきか課題かどうかを簡易的にチェックできる

etc
- メールを読んで苦情かどうか判断する　->　一般常識内で判断可能なため、LLMでもできる
- レストランレビューからポジネガを判断する -> 上記同様にできる
- 新しいCOOのプレスリリースを書く -> できない(深い洞察を伴わない単純な文章な羅列は出力できるが、それは利用者の望む回答ではない)。

基本的にLLM周りのサービスやツールの進化は上記の制限を解消するよう進化していると考えると見通しが良くなる。

他にはLLMは以下のような制限がある。ほとんどの企業において、LLMをスクラッチで構築する機会はそうそうないので、利用するサービスやLLMに依存する部分(自社で解決するにはコストがかかりすぎる領域のため下記の制限が存在する前提で利用する)。

知識のカットオフ: LLMの知識はトレーニング時点で凍結されており、それ以降の情報は含まれない。
ハルシネーション: LLMは時に虚偽の情報を生成することがある。
入力と出力の長さの制限: LLMは限られた長さの入力と出力しか処理できない。
構造化データとの互換性: LLMは構造化データ（スプレッドシートのデータ等）をうまく扱えません。構造化データは従来の教師あり学習で担う領域。LLMが真価を見出すのは非構造化データ(テキスト・画像・オーディオ)
バイアスと有害な発話: LLMはインターネットのテキストから学習するため、社会的なバイアスや有害な発話を反映することがある。

プロンプト作成のテクニック

詳細かつ具体的に:プロンプトには十分な背景情報やコンテキストを含めることが重要。
モデルに思考を促す: 段階的な指示を与えると効果的。
実験と反復:完璧なプロンプトは存在しない。改善を繰り返し完璧に近づける。
機密情報の取り扱いには留意すること。
LLMによって生成された結果を信頼して行動する前に、その情報を確認し判断すること。

メモその２に続く

サポートいただいたお金は、サーバー代や書籍購入代として利用させていただきます。