野球データ分析ハッカソンで準優勝しました!

はじめに 

こんにちは。日本経済新聞社 デジタル事業 広告・ID ユニットの酒井です。

今回は10月6、7日に行われた「ベースボール×データハッカソン」に、デジタル事業 BtoB ユニットの石原、共通の知人の3人で参加してきたことについて一筆書かせていただきます。 

サマリー

・パリーグにおけるデータを使ったデータ分析ハッカソンに参加
・ データから予測精度を競う「エンジニアリング部門」で準優勝
・データから新しい発見を導き出す「コンサルティング部門」では、別途加した弊社の記者チームが優勝

ハッカソン概要 

開催日:2018年10月6、7日
場所:TECH PLAY SHIBUYA
参加者:抽選で20名が当選(チーム参加も可能なので当日は32名が参加) 
企画協力:株式会社DELTA
共催:パシフィックリーグマーケティング株式会社、DataShip

ハッカソン内容 

 このハッカソンでは日本プロ野球のパシフィックリーグの2018年のペナントレースの一部におけるデータを利用しました。データは次の2種類が提供されました。

1.マーケティングデータ(ある球団のファンクラブ会員の年代、性別、EC購入金額、ポイント情報、ホーム試合ごとの来場情報)
2. オペレーショナルデータ(試合のプレーを記録したデータ)

配布されたデータの詳細はこちらです。

上記のデータを使い、球団に対してマーケティング施策を提案する「コンサルティング部門」とファンクラブ会員の来場予測精度を競う「エンジニアリング部門」に分けてハッカソンが行われました。
エントリーできる部門は各チームどちらかの一方で、1日目の作業終了時に部門を選択するというルールでした。

エンジニアリング部門:ファンクラブ会員がGame43、44、45に来るかどうかを予測し、RMSEという予測誤差(スライド参照)を基準に順位を競う。

コンサルティング部門:上記のデータからマーケティングに繋がる施策を提案する。審査員による採点に基づいて順位を競う。

我がチームの取り組み

1日目の方針
当初はコンサルティング部門にエントリーを考えていました。しかし、分析を進めるうちに分析結果をマーケティング施策に上手く落とし込めなさそうという壁に直面し、石原が進めてくれていた予測モデルの方に注力した方が戦えそうと判断しエンジニアリング部門でのエントリーとしました。

1日目の結果
チームの特徴としては「ファンクラブ会員がシーズンで最初に来た試合に着目した」ことが挙げられます。 具体的には、データにある期間内に一定回数以上来ている会員を「リピーター」と定義した上で、

シーズン最初の試合の印象が、リピーターになるかどうかに大きく影響する

という仮説を立てました。この仮説を検証する為にデータを可視化したり、簡単なモデルに突っ込んで変数の影響を見たりしていました。

すると、

応援するチームの得点が多いとリピーターになる割合が下がる 
対戦チームの得点が多くなるとリピーターになる割合が上がる

という直感とは異なる傾向が見えてきました。そこから分析を深掘りしつつマーケティングの施策に落とし込むのは時間的にも難しそうという結論に達し、エントリーはエンジニアリング部門にしようと決断しました。

この傾向については、試合会場や来場者の属性で分布を見れば、何か別の知見や傾向が出てきたかもしれないと感じています。

2日目、方針変更
2日目からはエンジニアリング部門に的を絞っていたので、石原がkaggleで鍛えた腕でモデルの鍛錬をしつつ、他の2人で予測に効く特徴量を探すという役割分担をしながら2日目の作業を終了しました。

そして、結果・・・


エンジニアリング部門で準優勝でした!(26名中:チーム参加もいくつかあったので厳密に何チーム中かはわからず)

惜しくも優勝はならず。。。

もう一方のコンサルティング部門は、弊社の記者がプレゼンテーションを華麗に決めて優勝しました。

参加して得られた気づき

イベントを振り返ってみて、2日間という短い時間の中で必要となったのは 

技術面

 ・データの前処理 
 ・モデルの作成 
 ・結果の解釈

分析面

・背景知識の収集 
・データへの理解 
・業界や市場への理解

という点だったなと感じています。

最後の「業界や市場への理解」については今回であればスポーツビジネスであったり、野球ファンが試合に行くモチベーションだったり、各球団のチームとしての特徴などが考えられます。
もっとも、上記の点は今回のテーマに限らずどんなデータ分析にも共通すると思います。

また、全体の感想としては次のようなことを強く感じました。

データ分析は楽しい
データに対して分析テーマを考え、方針/結果に対して議論をして結論を出していくのはやはり楽しかったです。チームを組むと同じ可視化結果を見ても印象や考察が違って刺激が多い。


スポーツデータの分析は面白い
今回チームを組んだ3人はそれぞれ過去にスポーツのデータ分析をした経験がありましたが、改めて、分析結果をフィードバックして貢献していくという場としてスポーツ業界は面白いなと思いました。


やっぱり難しい
今回は配布されたデータ以外は利用禁止という制約がありました。データ分析は得てして与えられたデータだけでは不十分な場合が多く、その中で施策まで落とし込めるテーマを選ぶというのはかなり難しく感じました。データに対する理解を深める時間もそれなりにかかりますし、さらにビジネスに活かしていくためには分析知識だけではなくドメイン知識の獲得も必須だと改めて痛感しました。

おわりに


イベント参加を通して、データを分析し、マーケティング施策やサービスの機能の一部に落とし込むことの難しさをひしひしと感じました。
優勝こそ逃しましたが、今回のイベントはとても良い経験になりました。この経験を日々の業務で活かしていきたいと思っています。

エンジニア積極採用中

日経は、エンジニア採用のイメージが少ないかもしれませんが、実は積極的にエンジニア採用を行っており、今回の様なイベントに参加・活躍しているエンジニアも多数在籍しております。


ありがとうございます!
49

HACK THE NIKKEI

日本経済新聞社のエンジニアによる開発系/開発系イベントレポ記事のマガジンになります。 日本経済新聞社は、テクノロジーを駆使したメディア企業として、日本および世界経済への貢献を目指しています。 1972年に世界初のコンピューターによる一貫新聞製作システムANNECSを開発、1...
2つのマガジンに含まれています
コメントを投稿するには、 ログイン または 会員登録 をする必要があります。