データ分析チームの運用の仕方

以前の記事でデータ分析チームの作り方について書きました。
作り方の方に興味がある方はこちらにお願いします。
https://note.com/paradise_lost/n/n6b3f9093dd92


今回は作ったチーム運営について書きたいと思います。

規模別の分析チーム特徴 

規模により特徴や強みが違うため、それをまず知る必要があります。

①大企業
すでに様々なデータが生成されている点が大きな特徴です。
エクセル、CSV形式データ、スキャンデータ、データベースのデータなど、すでに大量のデータがあります。
もちろんデータの質の高さにより結果が大きく変わってしまうのですが、データがないことには分析をすることができません。

②中小・スタートアップ
大企業に比べるとデータ解析で使えるほどのデータを保有していないケースが多いです。逆にこれはデータを設計するところをゼロからすることができる点が大きな特徴です。
業務をよく理解して課題を洗い出した後、データを最短経路で収集に向かうことができます。
またデータを収集したら運用、保護が必要になるので、ランニングコストを低く抑えることができます。

それぞれの裏返しがもう片方の悪い点になります。
良いポイント、悪いポイントに留意しながら、実際の運用方法を見ていきましょう。

データ分析チームの短・中・長期戦略

①短期はバリューの発揮をする
初期であればあるほど、他部署にデータ解析の有用性を示さないといけません。事業インパクトはそこまで大きくなくても、成果の出る確度が高い解析課題から取り組む必要があります。

データの活用はまだ始まったばかりなので、社内での活用イメージが漠然としています。中・長期的に他部署の人に協力してもらうためにはプレゼンスを高める必要があり、それには小さくても実績が必要になります。
ポイントは「成功確率」と「利益貢献」のバランスを考えます。
成功確率の観点では、Eコマースの離反モデルやリコメンドエンジン、不良品予測や決済企業での不正検知などすでに前例が豊富にある解析課題を見つけることが素早く成果を出すことにつながるかもしれません。

利益貢献には売上増加か費用削減のアプローチがあります。
すでにある業務をデータ解析を用いて自動化し、業務を効率化することによる費用削減の方が成果をあげやすい傾向にあります。

とにかく社内でデータ解析が役に立っているという実感を作ることが大事なタイミングになります。

②中期は会社によって変わる
元も子もないのですが、短期はどの会社も同じになるのですが、中期は会社によって変わります。それでも大きく分けると2つ戦略があります。

データの収集戦略

初期から中長期的な新たなデータ収集戦略を考え、徐々に利用可能なデータを増やしていくのはどの分析チームいでも解析をより精度を上げるために必要なことです。データ収集戦略に対してはアグレッシブでなければならないと言われます。

データ解析技術の改善
短期的にはどうしても成果が急がれるので、オープンソース、サードパーティの利用をすることになりますが、分析チームが成熟するにつれ時間もでき、より会社にあった解析技術を研究する時間を作ることができるようになります。AirbnbやUberなどでは様々なオープンソースを公開しています。このような取り組みはリクルーティングにも繋がり、業界での競争優位性の獲得にも繋がります。

長期はAIにより高度に自動化されます
データの収集に改善がなされて、方法にも改善ができる体制が中期的にできました。長期的にはAIにより一部サイエンスの部分で不要になるところが出てくる一方で、AIに対して高度な問題設定をしていくことになります。
 

データチームを定量でマネジメントする

NLS(学びの共有回数)
NLSはNumber of learning shippedの略称になります。
変数にはk, wがあり、それぞれ掛け合わせたものをプロジェクトごとに足していきます。
k = knowledgeです。
slackなどのチャットツールでの展開のみか、会議でプレゼンスするか、グラフを出力して口頭で共有など、共有した内容と共有方法によって数値をあらかじめ決めておきます。

w = workです。
knowledgeができるまでにかかった工数補正値が入ります。

NLSがデータチームを運用していくので優れる理由は、多くの場合データチームのパフォーマンスはデータに大きく依存するため、実際に解析をはじめてみるまで利益に貢献することのできるデータを弾くことができるかわからない点にあります。
しかし利益に直接貢献できなかったとしても社内の知識として展開・蓄積をすることができます。これを無視した場合にデータチームの雰囲気や長期的にデータサイエンティストの離職に繋がります。NLSはかなり主要な指標なので、ぜひ導入を検討してみてください。

一方で問題点は、NLSが高まればどんな解析をしても良いかと言われたらそんなことはありません。優先度づけが必要になります。
また共有したらそれで終わりで良いかと言われたら、それを元に社内で改善が行われないといけません。実績を測っていくことが必要になります。

優先度
①モデルの性能向上によってもたらされる利益貢献
②解析課題の成熟度
の2つで測っていきます。
利益貢献を数値化するのが難しければ、3段階の高・中・低などで評価してしまっても良いと思います。
②の解析課題の成熟度についてです。
初期の解析課題はフローが複雑化していたり、自動化かまだだったり、最低限のアプローチでも改善される幅が広いです。
一方何回も改善を重ねたものは、利益貢献に紐づいている領域でもそれ以上改善するのが難しかったりします。
したがって①の利益貢献が大きく、②の成熟度が低いものから順に取り組みます。

実績 
ROI = 利益貢献/(開発費+運用費)で測ります。
数式にするとシンプルなのですが、短期的にバリューが全てリターンに変換されないプロジェクトも多くあります。また企業の規模によって同じ内容のプロジェクトでも大きくリターンが変わってくるのでそこは注意が必要です。
難しい点も多いのですが、データサイエンスの領域が比較的新しいものです。しかし、「やりたいことはわかった、結局それでいくら儲かるんだ?」の質問に答えないといけないタイミングがあります。

人件費、システム利用費、設備投資費など出ていくのはお金です。そのお金に対していくら返ってくるのかを投資する側は気になります。

直接的なアプローチが難しかったら、キャッシュ化されるまでのバリューチェーンを書き出し、そのフローのうちのどこにデータサイエンスは貢献しているのかを計算します。

まとめ
一番最後のROIの項目は個人的にも苦労しているところがあるので、またまとまったら記事を書いていきたいと思います。
今回も記事を読んでいただきありがとうございました!



この記事が気に入ったらサポートをしてみませんか?