G検定 リコメンデーションシステム

株式会社リュディアです。G検定対策としてリコメンデーションシステムをまとめます。リコメンデーションシステムは正誤問題で1問は出るのでは、と思います。

リコメンデーションシステム、要は「あなたへのお勧めはこれ!」と表示するものです。リコメンデーション = 推薦、提言です。あるいは単に検索した結果でどれを上位に表示するか、というレベルのものも含みます。そのリコメンデーションシステムの核になるアルゴリズムは、対象者に対して膨大な情報の中からどの情報を推薦するか、というフィルタリングです。以下フィルタリングについてまとめていきます。

まず協調ベースフィルタリングについてです。Aさんがある商品を購入するためにチェックをしたとしましょう。このとき別の Bさんが過去に同じ商品を購入またはチェックしていたとしましょう。A さんの今後の行動は Bさんのそれに似ている可能性が高いと判断して A さんに B さんが購入したものやチェックしたものをお勧め、つまりリコメンドします。同じような嗜好を持っている人は同じような商品を好む、という前提でなりたっているフィルタリングを協調ベースフィルタリングと呼びます。Amazon が有名です。もちろん実際の Amazon のリコメンデーションシステムはもっと複雑なのですが基本は協調ベースフィルタリングに基づくものです。 他人の購入パタン、行動パタンを利用するので「他人のデータと協調している」という意味で協調ベースフィルタリングと呼ばれます。

次は内容ベースフィルタリングコンテンツベースフィルタリングと呼ばれる方法です。こちらは対象物にあらかじめ特徴量を定義し、購入やチェックなどの行動履歴を元に特徴量ベクトルを計算します。その特徴量ベクトルと類似度の高い対象物を選び出すフィルタリング手法です。レストランの検索サイトやレシピサイトはこれを使っている場合が多いです。たとえばレシピサイトであれば「夕食、ムネ肉」と検索した場合に、それぞれの特徴量で特徴ベクトルを計算し、類似度が高く人気のあるものから順に表示するといった動作です。過去の利用歴がなくてもそれなりにお勧めを表示できるのがポイントです。

協調ベースフィルタリング、内容ベースフィルタリングともに利点、欠点があるので、双方をうまく混ぜ合わせたフィルタリング技術も使われています。ハイブリッドフィルタリングと呼びます。Netflix が有名だそうです。

これらフィルタリングシステムを過度に利用しすぎると領域を絞り込みすぎる問題が発生しそうですよね。これをフィルターバブルと呼びます。自分好みの情報に泡のように包まれる状態を意味します。

またG検定公式テキストにも記載されているように、リコメンデーションシステムではさまざまなトレードオフがあります。個別性と社会性のトレードオフであったり、透明性とセキュリティのトレードオフプライバシーと使いやすさのトレードオフなどがあります。

今回はリコメンデーションシステムとその実現手法についてまとめました。

では、ごきげんよう。


この記事が気に入ったらサポートをしてみませんか?