見出し画像

AudioCraft, RAGと著作権, etc - Generative AI 情報共有会 #3

今週、8月8日(火)にZENKIGEN社内で実施の「Generative AI最新情報共有会」でピックアップした生成AI関連の情報を共有します。

この連載の背景や方向性に関しては 第一回の記事 をご覧ください。


Microsoft、Azure OpenAIを利用したエンタープライズ向けのPrivate ChatGPTを公開

https://github.com/microsoft/azurechatgpt

※ 2023/08/16 更新
2023/08/16 現在、上記リンクからはアクセスできなくなっており、以下の個人アカウント下に移行した模様。


プライベートに閉じたChatGPTの構築を容易にするリポジトリ公開。

記載されているメリット

  • ユーザーのデータのプライバシーを保証し、OpenAIから完全に切り離すことができる。

  • ネットワークトラフィックがユーザーのネットワークに完全に隔離される。その他エンタープライズ向けセキュリティコントロールが組み込まれる。

  • 独自の内部データやプラグインを使用して内部サービスと統合し、付加的なビジネス価値を提供できる。

ローカルで動かしてみた日本語記事もすでにいくつか。(参考
現状は、動作させるまではなかなか大変であるとか、文字変換確定のためにEnterを押すと送信されてしまうといった声が散見。
Chat Reporting機能で誰がどのように利用しているか確認が可能とのこと。

世の中の社内版ChatGPT作成支援ツール・サービスなどはこれに置き換わるか。

Meta、テキスト入力から音声や音楽を作成できる「AudioCraft」を公開

テキスト入力から音楽を生成するMusicGen(6月に単体で公開)、テキスト入力から音声を生成するAudioGen、オーディオ圧縮のEnCodec(昨年11月に公開済みだが、より高品質な音楽生成が可能に)の3モデルからなるAudioCraftを公開。
コードはMITライセンス(商用利用可能)、モデルの重みはCC-BY-NC 4.0(商用利用不可)。

実際にテキスト入力から音声、音楽を生成したサンプルが公開されている。

AudioGenのサンプル(”風が吹く中で口笛を吹く”音、”サイレンとエンジン音が近づき通り過ぎる”音、”アヒルとハトの鳴き声"音、など)↓

MusicGenのサンプル
特定のメロディに沿ってテキストで指示された音楽を生成する「Melody-guided music generation」が面白い。↓

MusicGenの学習には、Metaが所有するものとこの目的のために特別にライセンスされた2万時間の音楽データ(40万の録音データ)で学習。
Metaとして、音楽データは洋楽に偏っており、テキストは英語データしかなく、データセットに多様性が欠けていることを認識。
コード、モデルを公開することで、新たなアプローチやデータセットの多様性が生まれることを期待。

LLMを利用したRAG(Retrieval Augmented Generation)と著作権侵害の解説記事

RAG(Retrieval Augmented Generation) : ユーザからの質問に対して、事前に蓄積しておいた文書DBからドキュメント検索を行い、その結果を踏まえてLLMが回答を生成するもの。

RAGのシステム構成例(LLMを利用したRAG(Retrieval Augmented Generation)と著作権侵害 より引用)

このRAGと著作権侵害の問題(どのような場合に著作権侵害になりうるか)について検討した記事。

  • 第三者の著作物をベクトルDBに蓄積する行為

    • 「LLMによる回答生成」のための解析行為は「情報解析」(著作権法30条の4第2号)に該当し、適法。

  • 検索でマッチした著作物をLLMへプロンプトとして入力する行為

    • 同じく、「LLMによる回答生成」のための解析行為は「情報解析」(著作権法30条の4第2号)に該当し、適法。

  • 第三者著作物の入力行為に享受目的がある場合は著作権侵害になりうる

    • が、LLMを利用したRAGでは「享受目的」が認められるケースはほぼないのでは

      • 「享受目的」が認められるには、入力対象著作物の「表現上の本質的な特徴」を感じ取れるAI生成物の生成目的が必要だが、「事実」「ノウハウ」「アイデア」「知識」を利用することが目的である場合(LLMを利用したRAGは通常これ)は著作権侵害にはなり得ない

      • LLMを利用したRAGにおいては入力対象著作物(通常複数文書)をLLMに通して回答を得る際、個々の著作物の「表現上の本質的特徴」部分がそぎ落とされ、一般的な表現になることが多いため、著作権侵害となる可能性は小さい。

    • ただ、ゼロではない(入力対象著作物の「表現上の本質的な特徴」を有する回答が絶対に生成されないとは言えない)ため、システム上の工夫(生成された場合の検知と回答内容修正など)が必要。

  • その他以下のケースは適法。

    • 「入力対象著作物がウェブページ上の著作物の場合に、当該ウェブページのリンクだけを出力・回答する」

    • 「入力対象著作物が書籍の場合に、当該書籍の書誌情報及び頁番号だけ出力する」

    • 「LLMによる回答(AI生成物)に入力対象著作物の本質的特徴が含まれている場合」であっても、その利用が「軽微利用」にとどまれば適法(著作権法47条の5第1項)。

      • 入力対象著作物の冒頭数行だけを出力する場合など

    • 「LLMによる回答(AI生成物)に入力対象著作物の本質的特徴が含まれている場合」であっても、その利用が「引用」(著作権法32条)に該当すれば適法。

(ビジネス事例)サムネイル画像自動生成

MENTA : ランサーズ株式会社のグループである、いろんなプロに直接相談できるメンターマッチングサービス。

メンター(教える側)がプランを出品する際、サムネイル画像を自身で作成する必要があった。画像作成は時間を要することに加え、複数のツールを併用することもある等、出品に至るまでの負担が大きい。

生成AIの技術を活用し、メンター(教える側)がプラン内容として入力した情報をもとに、簡易的に必要な情報が詰まったサムネイル画像を生成。生成された3種類の画像から選択し、サムネイル画像に指定することが可能。

(ビジネス事例)議事録の作成自動化

スマート書記 : 音声とAIを活用した議事録作成支援サービス

議事録の作成作業は文字起こしを清書したり、文章の要約や重要な発言の抽出など多くの時間を要する。

AIアシスト : OpenAI社の「ChatGPT API」を活用し、議事録の作成を自動化する機能。文字起こし結果の要約や、会話を書き言葉に変換、文章中から重要事項を抽出することが可能。

(ビジネス事例)求人自動生成

非エンジニアの採用担当者にとって、エンジニアの採用活動は専門知識やスキルが求められる。

ダイレクトリクルーティングはエンジニア採用に有効である一方で、候補者の探索やパーソナライズしたスカウトなど多くの作業工数を要し、採用担当者や採用に関わるエンジニアの負荷が高い。

公開済みの求人や会社ホームページ、テックブログなどのURLやフリーテキスト情報を入力するだけで、AIが情報を集約し、エンジニアが知りたい点を網羅した求人のドラフトを自動作成。

お知らせ

(来週お休みします。)


少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。

この記事が気に入ったらサポートをしてみませんか?