Bingの語る「機械学習の検索エンジンへの活用」

2019年10月9日 06:08

世界最大のSEOイベント、Pubconに来ています。ここではPubconで語られた講座内容を書き起こしつつ日本語に翻訳する形で記事にしています。日本人参加者はかなり少ないようなので、日本語で閲覧できる記事としては、最新情報と言い切っても過言ではないでしょう。

ウェブ解析士協会の江尻代表のお陰で参加できたので、改めて感謝させていただきます。では、見ていきましょう。

----------

検索意図とディープラーニング

昔、私はaltavistaの検索エンジンを使ったりしていました。この時はキーワードがSEOには重要だとされていました。しかし、Googleが登場してからリンクが検索エンジンに使われるようになり、リンクビルディングが重要になってきました。そこから、今はキーワードは減らし、インテント（ユーザーの検索意図）を増やしましょうという流れになると感じています。

まずは、AIと機械学習、ディープラーニングの3つを区別させてください。1950年代はAIの時代の第一次ブームでした。1980年代は機械学習、2012年以降はディープラーニングが出てきました。

機械学習の活用例：SPAMの判定

機械学習について見ていきましょう。スパムフィルタリングの例ですね。INPUTの中にはSPAMのものとSPAMじゃないものがあります。通常、マニュアルでどういうものはSPAMでどういうものがSPAMじゃないかを考えます。

例えば、多くのリンクがあるとか、特徴的なメールアドレスだとか…。それをコンピューターに渡し、そのあと、SPAMを見つけます。これをトレーニングサイクルと呼びます。

機械学習の活用例：猫判別

猫の画像かどうかを判別するケースを考えてみましょう。この場合はどうでしょうか。目が2つあって・・・、と考えたとします。でも、その場合、目を閉じている猫がいたら判別できないですよね。ディープラーニングの場合、マニュアルを作らずに、コンピューターがいきなり分類問題を解くというアプローチを取ります。ディープラーニングは魔法ではなく、数学のアルゴリズムです。

ニューラルネットワークで猫らしさを判別していきます。より複雑なモデルの場合はこのニューラルネットワークのレイヤーは深くなっていき、より複雑な関数になっていきます。

事例：地図への活用

では、機械学習を検索エンジンに使うためにはどうすればいいでしょうか。これはどこでしょうか。

会場：ラスベガス・・・！

そうですね。ラスベガスです。ですが、これを回帰問題であると考えてみましょう。そうすると、画像から緯度経度まで当てることができるわけです。この回帰問題の裏には、ディープニューラルネットワーキングが使われています。

回帰問題だけではなく単語の分類問題としての活用

また、回帰問題だけではなく、単語の分類やベクトル空間上の位置把握問題としてもディープラーニングは使えます。例えばこんな風に。

例えば、tf-idfは、文書中に含まれる単語の重要度を評価する手法の1つで、これを使えば、tf（Term Frequency、単語の出現頻度）とidf（Inverse Document Frequency、逆文書頻度）の二つの指標に基づいて計算をすることができます。

これを応用すると、検索エンジンが質問に答えてくれたという体験を提供できます。

これはインデックスしたものをディープラーニングが学習し、その中の段落や文章の構造を理解します。

これにより、検索エンジンへの質問に対して適切な答えを返せるようになります。

賛否両論を扱うものもあります。例えばコーヒーは体に良いかどうか、を聞いた場合が以下のようになります。

世界に存在するバイアス

manからfemaleを足すとwomanになるとかっていうのがベクトル空間上では実現することができます。では、doctorはどうでしょう。manにmedical professionになります。しかし、womanにmedical professionを足すとnurceになるというとどうでしょうか。これはバイアスですよね。実際にはdoctorになるべきです。

画像認識ディープラーニングへのハッキング攻撃

Spamについても同様です。ディープラーニングではデータの学習が重要です。STOPサインがあったとして、そこで自動運転車には止まって欲しいですよね。でも、例えば、ステッカーが4つ貼られていたら？SPEED LIMIT45だと自動運転車は認識してしまったんですね。こういうAIへのハッキング攻撃が懸念されています。

また、口コミ解析を考えたとして、terrible acting, terrible plot, and terrible choice of actorsと書いていたら、それだけで、negativeになってしまいました。文字単体でポジネガが大きく変わってしまうわけですね。ここから参考情報です。

7つの自然言語解析のためのオープンソース

インテントの分類にディープラーニングをどう使うか

参考）As search needs evolve, Microsoft makes AI tools for better search available to researchers and developers

どうもありがとうございました。

サポートされた費用は、また別のカンファレンス参加費などに当てようと思います。