見出し画像

プロダクトカタログと楽天技術研究所ボストン

 楽天技術研究所ですが、世界5カ国 複数都市に研究拠点があります。主に、東京、ボストン、シリコンバレー、パリ、シンガポール、ベンガルール、等です。

 以前、シンガポールとインド、そしてデザイン思考(パリ)に関する記事を書いた時に、それぞれの拠点については簡単に言及させていただきました。


 今回は、楽天技術研究所ボストン拠点とプロダクトカタログの記事になります。

 楽天技術研究所ボストンですが、研究開発としてプロダクトのカタログ構築を長く手掛けています。手掛けていますといっても手作業でのデータ整理ではなく、BERT 等のAI / Deep Learning の最新技術をふんだんに活用し、大量のプロダクトデータを自動的に整理・分類し、カタログを整備していくという、AI によるデータ整理の分野で最先端の研究を行っています。

 プロダクトカタログと書きましたが、これはあまり聞き慣れない言葉かもしれません。小売において取り扱う商品(プロダクト)の情報をきちんと整理・分類し、業務での活用をスムーズに行えるようにしたデータセットのことをプロダクトカタログと表現します。プロダクトのカタログ構築は、特にECビジネスにおいて不可欠なものとなります。

 ECにおいては、例えば商品検索はユーザーエクスペリエンスの典型的な最初のステップとして欠かせません。欠かせないものですが、適切な情報整理があってこそ実現されるものです。単に検索だけでなく、きちんとしたカテゴリ階層に基づいたWebページのナビゲーションや、情報提供の枠組みも、プロダクトカタログがきちんと整備されてこそ提示できるものであり、これらはサービス品質の向上に大いに貢献します。

 それゆえ、Amazonも Ebay も、そしてECだけでなく、Walmart 等のリアル店舗を中心としたリテールビジネスにおいても、すべての商品の情報を整理し、タグをつけ、カテゴリー分けを厳密に行うことに相応の投資をしており、重要施策と位置づけています。(Amazonは2010年のIRにおけるAnnual Report 冒頭のジェフペゾス氏の言葉において、Product Categorization 等のデータ整備が非常に重要で、データマイニングや機械学習の様々な手法を適用していることに触れています。具体的に Random Forest という語句も出てきていて、この言及の背景を慮ると興味深いです。)

 そして情報検索や提示をするためにきちんと整理しておきましょうというレベルを超えて、詳細なカタログを整備しておくことは現代において大きな意味を持ちます。背景としては、以下の記事で触れております消費者の個別化現象というのが大きく関係しています。

インターネットによっていつでもどこでも商品を買うことができる。時間的・空間的に自由になって、ユーザーが様々な制約から解き放たれたことによって、これまでの「消費者はこういうものが好きだろう」というマーケティングが通用しなくなりました。これにどう対処するかというと、今のデータをとらえ、100万人の100万通りのニーズをとらえるようなマーケティングの基盤を作る、ということです。そのために、大量のビッグデータを処理すべくAI技術の活用が進みつつあります。

 消費者のニーズは技術的な後押しにより消費者自身が知らないうちに細分化されています。この現象の例として、楽天の過去の経験をあげます。

 商品価格ナビ ランキングというサービスがあります。各商品のジャンル別の売上げランキング、注目度ランキング、満足度ランキングを表示していくサービスです。

 以前このサービスは「楽天プロダクトランキング」と呼ばれていました。2008年頃においては、週に一回程度、最大数百種類のランキングを更新するようなサービスでしたが、当時からアクセス数は相応にある人気コンテンツで、ランキングをチェックして商品を実際に購買されるユーザーも多かったです。それゆえ、担当しているビジネス側がこのランキングの情報をより充実していきたいと考えるのは自然なことでした。
 ビジネス側から当時のサービス開発側に相談のあったリクエストは二つありました。
 1つ目は、更新頻度を週次から日次にしてほしい、ジャンルの人気によってはできれば毎時間や毎分、究極的にはリアルタイムの更新にしてほしいというものです。これは直観的にも納得がいきます。例えば、SF小説好きなユーザーがいて、SFジャンルの本の売上ランキングが気になって、数日に一回チェックしてしまうのであれば、週次の更新より日次の更新の方がランキングの動きをより把握することができます。またそれで気になった本を見つけたら読んでみたくなります。最新の情報をいかにはやいサイクルで更新していくかというのはそのままビジネスにつながります。実際にこの更新頻度の変更は売上を押し上げました。
 ビジネス側からあった2つ目のリクエストは、商品のジャンルの数を当時は数百あったのですが、それを細分化して数倍に増やしてほしいというもので、当初意見が分かれました。直観的には、ジャンルが細かく分かれているとユーザーが適切な商品ジャンルのランキングを見つけられずに、アクセス数が下がり、結果としてランキング経由の商品の購入も下がるのではないかと思われたわけです。ですが、細分化を実行したところ、他の要因による影響を排除した上での分析でも、全体の売上合計が非常に大きく伸びたのです。これはどういうことなのでしょうか。

 ジャンルが細かく分かれている功罪というのは色々あるでしょう。実際にナビゲーションではジャンルが細かい場合、選択に悩むケースもありえます。ただ、Webの検索からダイレクトに目的のジャンルへ飛んでくることを想定した場合は、細分化されていることはデメリットにはならず、むしろユーザーの多様化しているニーズに適合するジャンルの粒度が達成されているかどうかが重要になります。

 前述した通り、インターネットによってユーザーは時間的・空間的な制約から自由になっており、自分のニーズにあうものを見つけるという体験の機会が昔より増えました。ここにおける製品ジャンルの細分化は、直観に反しますものの、その体験機会の向上に寄与していると捉えられます。情報検索や提示をするためにきちんと整理しておきましょうという範疇にとどまらず、詳細なカタログを整備しておくことは、多様化しているユーザーの可能性に答えるというような意味を持つわけです。
 またここには興味深いポイントがあります。しばしばデータ活用の話になると、「ユーザーのデータ」整備とその活用の話をどうしてもしてしまいがちです。そして、ユーザーからデータ活用の同意をどのようにとるかを議論し、また同意をとっていたとしても、プライバシーに配慮し、活用の範囲を自制していくこともあわせて議論しています。しかし、それに対して、「プロダクトのデータ」を活用していく、そのために整備していくということはあまり論じられることがありません。ですが、上記の例に見るように、詳細なプロダクトカタログを整備するというだけのことで、ユーザーのプライバシーに影響をあたえることなくとも、売上の向上はもたらされるケースがあるのです。

 プロダクトカタログの整備は、商品データをキレイにしていくというところに留まらず、マーケティングの基礎になります。例えば、どの商品や関連商品がどれぐらい売れているのか、いつ売れているのかの正確な理解やより突っ込んだ分析、より対象を拡張した分析も、プロダクトカタログの整備により容易になります。
 更に述べると、データを用いた需要の予測や、各マーケットの動向やマクロ経済の予測をも可能にします。どの商品がどれだけ売れているのかを細かく把握することで、関連インデックスの予測や、金利の利率や景気の予測等にまで発展させることも不可能ではありません。そういう高度なマーケットの理解や更に投資にまでつながっていくものとして、プロダクトカタログは非常に重要な基礎データの構築に位置づけられるのです。
 実際に、楽天投信投資顧問は楽天技術研究所の技術を用いながら、「楽天・ビッグデータ日本株ファンド(愛称:楽天AIファンド)」をリリースしています。この中ではプロダクトカタログを精緻なものに仕上げていく様々なAI技術も活用されています。


 と、ここまでプロダクトカタログの大切さ、その可能性について書きましたが、実際のところ、その整備はとてつもなく大変です。
 機械学習の観点から見ても、プロダクトのデータを綺麗なものにしていったり、正しいジャンルに分類したり、タグを付与していくのには、様々な問題が存在しています。まず、インターネットでのECにおいては、データセットは基本的に大きなものになります。機械学習の古典的・典型的な分類問題は、いくつかの限られた数の区分けをするものです。例えば、メールのスパム判定では、大きくはスパムかスパムでないかの二種を判定することになります。ですが、プロダクト情報のカタログ化は異なります。判定しなければならないそのジャンル数は通常のECでも数百はあり、楽天では扱っている商品が2億5000万に達しているため、ジャンル数も数千に及びます。食料から衣料、電化製品やデジタルコンテンツ、スポーツ用品やカー用品、家とか甲冑(!)とか仏壇とか船とかヘリコプターとかに至るまで多彩です。
 このようなケースに置いてロバストなモデルを訓練するためには、特に大規模なトレーニングデータを必要とします。プロダクトデータというのは多彩であり、またバランスがあまり良くありません。すべてのジャンルに均等にデータが存在するということはありません。ある商品ジャンルには詳細な属性データがあるけれど、違うジャンルには様々な欠損が存在するというのはよくあることです。色やサイズ、素材の情報などが欠損しているジャンル等はよくあり、偏りはとても大きいです。つまりそれはどの分野も均等に学習するということは難しいということを意味します。更には、そもそも商品を製造しているメーカーや卸のデータが間違っているということも普通にあります。プロダクトカタログへの機械学習の適用は、このようなデータのありようとの戦いになるのです。

 楽天技術研究所では昔、この難題に対して、半教師あり学習を大規模に適用したことがありました。取り扱っているジャンルがいっぱるあるということは前述しました。ここで通常の教師あり学習の適用を考えた場合、商品の全種類に対応した教師情報を与えることは困難です。そもそも甲冑の適切なサンプルデータって作れるのかという話もあろうかと思います。普通にやっても過学習に悩まされる気がします。そこで教師あり学習だけを用いず、ブートストラップ法的なリサンプリングを繰り返す、半教師あり学習のアプローチを採用したという話になります。

※参考文献がないのですが、このスライドの31ページに言及があります。

 半教師あり学習とは例えば、少数のサンプルデータ(教師情報)を用いてまずは学習を行ない、その後、ある程度の実データを分類して、その結果のうち確度の高いものをサンプルデータと捉え直して再度学習をします。それを繰り返すことで、教師情報を多く与えることが困難でも、教師あり学習で期待できるような効果を得ることができる。半教師あり学習は、楽天のようなECサイトにおける大量かつ多様な商品データに対しては有効に作用する面があるアプローチであり、なかなか技巧的な手法です。

 他にも、楽天技術研究所ボストンで、プロダクトカタログへのEnsemble Learningたる GBT(勾配決定木: Gradient Boosted Tree)とDeep Learning たるCNN (畳み込みニューラルネット)の適用について比較して論じた論文を出しています。

Web-Scale Language-Independent Cataloging of Noisy Product Listings for E-Commerce

 データのありようとの戦いと書きましたが、ですが、逆にこのように見れば、半教師あり学習や Ensemble Learning を大規模に用いたり、最近話題のBERTを駆使したり、常に様々な手法・アプローチを試す価値のある領域とも言えます。

 それゆえ、楽天技術研究所では様々な大学との共同研究も行っています。以下は、MIT のNLP研究者 レジーナ・バージレイ教授の講演ですが、10:00 あたりで、楽天技術研究所ボストンとの共同研究である、プロダクトカタログ構築のための Attribute Extraction に触れています。


 以下の記事では、プロダクトカタログにおける読むべき論文が5つ紹介されています。そのうちの2本は、楽天技術研究所の論文です。

 2本目が楽天技術研究所ボストンの論文で、ニューラルアテンションモデルを用いています。

 また、去年、楽天技術研究所ボストン主催で SIGIR eCom にてプロダクトカタログのデータチャレンジという内容の Workshop も行いました。


 今月には、SIGIR ICTIR カンファレンスにおいて、このWorkshop を総括する “A Dataset and Baselines for e-Commerce Product Categorization” という発表も行い、プロダクトカタログへのいくつかの興味深いアプローチを紹介しています。


 今後も、新しいアプローチを積極的に試していき、ECビジネスの基礎を強化していくとともに、顧客がほしい商品の情報にいつでも的確に出会えるよう引き続き精進をしていきたいと思います。


 最後に、楽天ボストンオフィスを紹介するビデオを貼って終わりたいと思います。

 拠点シリーズは、次は、楽天技術研究所シリコンバレー拠点(サンマテオ)に続きます。


■おまけ
 実際にプロダクトカタログへの機械学習の適用に関して学んでみたいという方は、上記に紹介した論文以外では、以下の記事が作業ステップを整理しており、とっかかりとしてわかりやすいかなと思います。ご参考までに。



この記事が気に入ったらサポートをしてみませんか?