見出し画像

KDD 2023 参加報告②(Finance Day編)

三菱UFJフィナンシャル・グループ(以下MUFG)の戦略子会社であるJapan Digital Design(以下JDD)でMUFG AI Studio(以下M-AIS)に所属する平山です。
ロサンゼルスのロングビーチで開催されたデータマイニングの国際学会「KDD 2023」に参加しました。
前回「KDD 2023 参加報告①(JPMC編)」として、銀行業界のAI研究をリードするJPMC AI Researchの取り組みを紹介させて頂きました。

今回は、KDD 参加報告の第2回として、Finance Dayで発表された金融・経済分野の研究をいくつか紹介したいと思います。


Foundation Models for Economic Data

Susan Athey(スタンフォード大学)

特にディープラーニングなどのパラメータ数が膨大な機械学習モデルの手法が多くの分野で過去の手法を上回る成果を挙げていますが、実際に金融業務の分野でそれらの手法を活用する場合に直面する課題の一つが膨大なパラメータの学習に必要なだけの十分なデータ件数の確保ではないでしょうか。
例えば、銀行の業務データでは、日々大量に生成されている口座の入出金データは量の確保が比較的容易な一方、融資先がデフォルトしたかどうかの情報は年間で限られた件数しか発生しないという状況があります。教師データが少ない与信判断のタスクにおいて、大量に保有している入出金データを活用して高精度なモデルを得られるアプローチがあれば非常に有益なことでしょう。

本研究は、画像や自然言語の分野で成功を収めている基盤モデルのアプローチを経済分野でも応用することで、多くのデータを準備することが難しいタスクでも成果を得ようとする試みです。
ここでの基盤モデルとは、比較的容易に量を確保できる自己学習可能なデータで事前学習させたディープラーニングのモデルを想定しています。基盤モデルは、それ自体で与信判断など特定のタスクをすぐに解くことはできませんが、それぞれのタスクを学習するための教師データでファインチューニングすることで、従来十分な学習が難しかった少数の教師データでも高い精度を達成することが知られています。
講演では、職務経歴データで学習した基盤モデルCAREER(Keyon Vafa, et al. 2022)を男女賃金格差の分析に応用した事例と、スーパーマーケット等での購買データで学習したSHOPPER(Francisco J. R. Ruiz, et al. 2019)を改良して価格弾力性などの研究に応用する構想が共有されました。

男女賃金格差の分析には、職業や役職による賃金の情報が必要です。一方で、どんな職業や役職を経験してきたかによって次に得られる待遇(役職や賃金)に違いが生じますが、特定の人のキャリアにおける賃金を追跡調査した利用可能なパネルデータは限定的です。
そこで、講演者らは、まず、2,370万件の履歴書データを用いて、過去の職歴から次の職業を予測するディープラーニングモデル(構造はTransformer)CAREERを学習させました。CAREERは、まさに大規模言語モデル(LLM)が入力された単語列に続く単語の出現確率を予測するのと同じ仕組みで、過去の職歴から次の職業を予測する基盤モデルです。
次に、賃金の変化を追跡調したパネルデータを用いて、職業履歴から賃金を予測するようにCAREERをチューニングします。こうすることで、CARRERが職業履歴に対して賃金を従来手法に比べて高い精度で予測できたと報告しています。

履歴書データで事前学習した後、給与を推計できるようファインチューニングする
(Decomposing Changes in the Gender Wage Gap over Worker Careers より)


賃金パネルデータに対するperplexity(数値が低いほど予測精度が良い)
CAREER: Transfer Learning for Economic Prediction of Labor Sequence Data
より)

このモデルを使って男女の賃金差の発生要因を分析した結果として、①男性の方が女性に比べて同じ初期キャリアでもその後より高い賃金が得られるキャリアパスに遷移しやすいこと、一方で、②女性の方が男性に比べてより高い賃金が得られるキャリアパスに遷移しやすい初期キャリアに就いていること、を講演者らは報告しています。
また、上記①と②の影響は年齢層によって異なり、20〜30代の若い世代では①の効果が②の効果を上回っている反面40代以上の世代では②の効果が①の効果を上回っていると推計しています。

Generative AI and Firm Values

Gregor Schubert (UCLA)

ChatGPTは2022年11月30日に公開され、それまでのどんなサービスよりも早いわずか2ヶ月という短期間でアクティブユーザー1億人を達成するなど、経済面でも非常に強いインパクトを与えました。本講演では、ChatGPTなどの生成AIがどのような職業を効率化するか推計し、生成AIが経済面にどのような影響を与えているか、表題の論文(Andrea L. Eisfeldt, et al. 2023)について報告されました。

アメリカでは、減少傾向にあったAI関連の求人がChatGPTのリリース以降増加に転じるなど、すぐに経済界への影響があった模様です。企業評価でもそのような影響があるかを株式市場の評価で計測したのが本研究です。企業の業務がChatGPTなどの生成AIで効率化できる割合が高い企業と低い企業の株価のパフォーマンスを比較したところ、ChatGPTのリリース以降、生成AIによって効率化できる割合が高い企業群が株式市場では評価されていたとの報告がなされました。

ChatGPT登場以後、生成AIによって効率化される企業の株式のパフォーマンスが向上
Generative AI and Firm Values より)

本研究では、米国労働省が支援して整備している職業データベースO*NETに登録されている職業とその職業に紐つけられたタスクのペア19,265とおりに対して生成AIがどの程度効率化できるかをスコア化し職業毎、企業毎に集計しています。

O*NETに登録されている職業とタスクの例

各職業のスコアは、紐つく各タスクを下記3つのカテゴリに分け、E1を1点、E2を0.5点、E0を0点としてカウントした平均得点率で計算されます。本研究の面白い点は、このカテゴリ分けをChatGPTに行わせている点です。ChatGPTには、カテゴリだけでなく、そう考える根拠と自信度も回答させることで、ChatGPTが課題を正しく理解できているかチェックでき、分類精度を担保できたとのことです。また、各企業のスコアは、職業スコアを各職業に従事する従業員の数で加重平均したもので計算されます。

  • E1:ChatGPTなどのLLMだけで50%以上の効率化が実現できる

  • E2:追加のデータや、訓練、アプリケーションがあれば、効率化が実現できる

  • E0:効率化が実現できない、役に立たない

このスコアの上位企業の株価のパフォーマンスがChatGPTの公開後の期間で優れていたことの他にも、講演では、Finance Day参加者にとって刺激的だったと思われる下記の傾向が紹介されていました。

  • 職業単位で、賃金の高さと生成AIによる効率化スコアの高さに正の相関が見られる

  • 生成AIによる効率化スコアの最も高い産業カテゴリは「金融・保険」

Agent based models of financial platforms for machine learning development

Isaac Tamblyn (Cash App)

人工的に作成したデータ(合成データ)を機械学習モデルの学習に活用する事例が増えています。本講演では、個人や法人が直接相手に送金できるサービスを提供しているCash Appで研究されているシンプルな合成データ作成方法について共有されました。
合成データの作成は、より本物らしいデータ生成を期待してディープラーニング系の複雑な生成モデルを使うことが多いと思いますが、本講演では、Kinetic Monte Carlo法を使ったシンプルなfintech-kMC(Isaac Tamblyn, et al. 2023)を提案しています。
講演者によると、学習データの不足を補う以外にも、合成データのメリットとして以下のようなものが挙げられていました。また、複雑な生成モデルを使用するとモデルの構築だけでなく実装や運用でもミスが起きやすい上にミスに気づきにくいとのデメリットから、シンプルな生成手法の必要性が語られました。

  • 生のログデータの取得には、多くのチームの関与や手続きが必要

  • 扱いやすい形式で生成できるので前処理に手間をかけなくて良い

  • データが貯まるのを待たなくて良い

  • 特に不正利用のように正確な教師ラベルが把握できない事例でも教師ラベルを仮設定できる

さらに、Cash Appでは、合成データを機械学習モデルの構築だけでなく、手数料の最適化や顧客行動に関する仮説検証、KPIの将来予測など様々な分析に役立てる狙いがあるとのことです。

さて、今回提案された手法のベースとなるKinetic Monte Carlo法は、行動とその行動が発生する時間間隔を乱数によって(サイコロを振って)決める手法です。行動は、Cash App上でユーザーが取ることのできる行動を予めリスト化しておき、それぞれの行動がどのような確率で起こるかを決めておきます。時間間隔についても、予めどれくらいの発生間隔(頻度)で行動が発生するか決めておきます。これらのパラメータに基づいて、確率的にユーザーの行動ログが生成される仕組みです。

シンプルなkinetic Monte Carlo法のアルゴリズム
fintech-kMC: Agent based simulations of financial platforms for design and testing of machine learning systems より)

fintech-kMCでは、各行動ごとに時間間隔のパラメータを変えたり、前に起こった行動によって次の行動の選択確率を動的に変化させることが提案されています。さらに、ユーザーを想定したエージェントを複数用意し、エージェント毎の想定ペルソナに合わせて異なるパラメータを設定することで、多様性に富んだログデータを生成させています。
デモンストレーションとして、通常ユーザーと犯罪ユーザーのエージェントをそれぞれ500セットずつ設定して生成したログデータから、犯罪者検知の分類モデルを作成した結果が示されました。


fintech-kMCで生成した合成モデルを使用してクラス分類モデルを作成した例
fintech-kMC: Agent based simulations of financial platforms for design and testing of machine learning systems より)

非常に高精度なモデルが作成されていますが、合成データからモデルを作成する場合、通常ユーザーと犯罪ユーザーの生成パラメータの違いを反映するような特徴量を使用することができるため、高精度なモデルを作り易いことに注意が必要でしょう。
とはいえ、どのような特徴量が有効かを検証するなど、合成データの特徴を把握した上で適切な用途に使用すれば、有効な仮説や知見の獲得に役立つと思われます。また、比較的シンプルな仕組みなため、既存のドメイン知識を活用し易いこともメリットと思われます。

最後に

今回は、Finance Dayでの発表をいくつか紹介しました。個人的には、どれも経済や金融分野ならではの視点や課題への取り組み方を感じられるユニークな研究だと思いました。
異なる発想に刺激を受けたり、同じ課題に取り組む存在に勇気をもらえたりするのが、このような大規模な学会やカンファレンスに参加するメリットだと実感しました。
また、近年、経済・金融分野の研究発表が増えていると感じており、心強く思います。

関連記事

一緒に働きませんか

M-AISでは、AI技術を軸に、顧客&データ起点で金融体験をアップデートすることに挑戦してくださる仲間を募集しております。
ご興味ございましたら、ぜひ採用情報をご覧ください。

Japan Digital Design 株式会社
M-AIS
VP of Data Science
Motokiyo Hirayama