見出し画像

dbts2023セッションレポート#2 H8「生成系AIに欠かせないベクトル検索を Amazon OpenSearch Service や Amazon Aurora/RDS で実現する方法」

こんにちは。株式会社インサイトテクノロジー マーケティング本部です。

インサイトテクノロジー社員がdb tech showcase2023のセッションを受講した感想レポートの第2弾をお届けします。

db tech showcaseについてはこちらの記事をご覧ください。


H8セッションの様子

報告者

株式会社インサイトテクノロジー
開発本部
小浦方

セッション情報

  • セッションID:H8

  • タイトル:生成系AIに欠かせないベクトル検索を Amazon OpenSearch Service や Amazon Aurora/RDS で実現する方法

  • 登壇者:Amazon Web Services Japan G.K.
    プロトタイプエンジニアリング本部
    Prototyping Engineer
    後藤 駿介 氏

セッション概要

近年注目を集める生成系 AI のアプリケーションで用いられるベクトル検索では、ベクトルを保存し、検索するためのベクトル DB の利用が欠かせません。本セッションでは、Amazon OpenSearch Service や Amazon Aurora/RDS のベクトル DB としての機能や、どのようなユースケースでベクトル DB を活用できるかについてご紹介いたします。

db tech showcase 2023 セッションスケジュールより抜粋

内容

「ベクトル検索」とは、テキストや画像、音声などのメディア情報をベクトルとして表現して、類似したデータを返す検索手法です。

ベクトル検索は、生成系AIのアプリケーションでも用いられ、近年注目を集めており、それに伴いベクトルの保存及び検索に特化した「ベクトルDB」の利用も増加しています。

このセッションでは、Amazon OpenSearch Serviceや Amazon Aurora/RDSのベクトルDBとしての機能や、どのようなユースケースでベクトル DBを活用できるかについての紹介がありました。

まとめ

セッションの序盤では、ベクトル検索とは何か、そしてユースケースにはどういったものがあるかが述べられました。

ベクトル検索とは、テキストや画像、音声などのメディアの情報をベクトル(N 次元の数値列)として表現し、ベクトルが類似したメディアを見つける技術です。ベクトル検索により、従来のキーワード検索では不可能だった画像検索なども可能となり、また近年はキーワード検索とベクトル検索を組み合わせた「ハイブリッド検索」も使われるようになってきました。

ベクトル検索の代表的なユースケースは、画像検索の他、商品情報をベクトル化することによる「レコメンド」、生成AIアプリケーションと組み合わせる「RAG (RetrievalAugmented Generation)」が挙げられます。

次に、ベクトル検索のアルゴリズムについての説明がありました。近似k-NN (k-最近傍)アルゴリズムとして、HSNW (Hierarchical Navigable Small Worlds) とIVF (Inverted File)、及び両者の比較について述べられました。

HNSWの方がクエリの精度が高く、また学習も不要である一方で、IVFはメモリ消費やベクトルインデキシングのレイテンシーが抑えられる利点があるとのことでした。また、実際の検索においては、パフォーマンスや精度のために、k-NN検索を行う対象をメタデータ属性など用いて「フィルタリング」することもしばしば必要であることも述べられました。

セッションの後半は、AWSで提供されているベクトル検索、ベクトル生成の各種サービス及び新機能についての紹介があり、OpenSearchを使用したベクトル検索やフィルタリングの実際の例などにも触れられました。構築したいサービスの要件によって、利用する検索アルゴリズムやベクトルDBを適切に選択することが重要であることも述べられました。

聴講した感想

ベクトル検索の中身のアルゴリズムについての説明もあり、利用するサービスやモジュールについてはアルゴリズムレベルで理解しておきたいエンジニアとしては有難かったです。

また筆者は機械学習エンジニアでもあるので、ベクトル検索のアルゴリズムやベクトルDBの適切な選択はもちろん、ベクトル生成(変換)のアルゴリズムについても、データや課題、その他要件に応じた適切な選択をする必要があると感じました。

db tech showcaseについて

db tech showcaseは、データに関わるすべての技術者に「学び」「気づき」「変化」を提供する、国内最大規模のデータ技術カンファレンスです。

国内外の有名テック企業が一堂に会し、国内外の革新的な技術や最新の事例などの多数のセッションを提供しています。

12年目となった2023年は12/6~12/8の3日間、ベルサール六本木グランドコンファレンスセンターにて開催され、データに関わるたくさんの方にご来場いただき大盛況のうちに閉幕しました。

2024年は7月に開催予定ですので、ぜひお見逃しなく!
https://www.db-tech-showcase.com/

アーカイブ配信のご案内

db tech showcaseは、期間限定でアーカイブ動画を配信中です。
このレポートでご紹介したH8セッションをはじめとする約100セッションをオンラインでご視聴いただけるほか、講演資料のダウンロードも可能です。
※一部をのぞく

ご視聴には会員登録(無料)が必要となります。
皆さまのご登録・ご視聴をお待ちしております!
https://www.db-tech-showcase.com/2023/

この記事が気に入ったらサポートをしてみませんか?