西岡賢一郎

学生時代は、位置情報用いた予測モデルの研究をして博士 (学術) を取得。 博士在籍中に…

西岡賢一郎

学生時代は、位置情報用いた予測モデルの研究をして博士 (学術) を取得。 博士在籍中にデータサイエンスをサービスとして提供する会社を起業し、別の会社に売却。 現在は株式会社DataInformedのCEO、株式会社D-statsCTO、CDPの会社のSr. PdMに従事。

最近の記事

スプリント中の差し込みタスクの対応

スクラムを導入したが、スプリントの中に想定外のタスクが差し込まれてしまうことが多いという話をよく聞く。 想定外のタスクが入った結果、スプリントゴールをなかなか達成することができないという話だ。 そして、差し込みタスクはサービス運用上避けられないので、スプリントゴールが守れなくなることを許容してもいいのではないかという考えが出てくる。 このスプリントゴール達成の優先度が下げられてしまうことに対して、スプリントゴールの達成を阻害する差し込みタスクをスプリントの途中からいれるべきで

    • 目標を形骸化させないために

      多くの人が1年の抱負を年始に立てる。 「英語を頑張りTOEICで高得点取る」とか「新しい技術を学んで転職する」とか「旅行のために貯金する」などさまざまだ。 そして、2021年も半年たった今、その抱負はいまどうなっているだろうか。 立てた抱負すら忘れている人が多いのではないだろうか。 1年の抱負は大きな目標であり、実際にどのようなことをやっていくかというアクションと紐付いていないことが多い。 そして、アクションが紐付いていないと、定期的な振り返りで目標がどのくらい達成できている

      • スタートアップで外国人エンジニア採用を採用するということ

        10年ほど前、某大手IT企業が社内を英語化すると発表し、大きな話題となった。日本企業がグローバリゼーションを推進するためにやった大きな決断だ。 その会社の発表を皮切りに続々といろいろな会社で英語化が発表されるようになり、「英語 = 外資系」という固定観念がなくなってきた。 今まで日本語だけで生活してきた人にとって、英語化という言葉の意味は重く、その状況を風刺するかのごとく日本人が奮闘する姿のCMが出されるぐらいだ。 この当時は、英語化ないしはグローバリゼーションなんてまだま

        • Spotifyのここ数年の成長を調べてみた

          2021年4月にユニコーン企業の秘密という本がO'Reillyから発売されて、私も最近購入した。 この本は周りでも読んでいる人が多くかなり評判がよい。 スウェーデン発のスタートアップがどのようにしてユニコーン企業になったのか、その背景を知って自らのビジネスに活かそうと思っている人が多いのだろう。 今回は、この本の内容ではなく、過去に話題となったSpotifyのエンジニアリング文化の動画が公開以降のSpotifyの成長について簡単に調べた内容を書く。 Spotifyのエンジ

        スプリント中の差し込みタスクの対応

          ステークホルダーとの間に不要な摩擦をうまないために知ること

          不確実性の高いプロダクト開発をしていくとき、スクラムを始めとしたアジャイル開発で短いイテレーションを繰り返し、学びながら不確実性に対処していくことが重要であることを多くの人が認識している。 しかし、いざスクラムを導入するとなったとき、プロジェクトの進行をスクラムチームに任せ、外部から進捗の管理をしないという話になると、「チームの生産性はそれで落ちないのか」と聞かれることがある。 確かに、従来の管理者視点では、いつまでに何を作るかが重要であり、リリース期限を守るためにいかにチー

          ステークホルダーとの間に不要な摩擦をうまないために知ること

          機械学習のリーケージについて考える

          こんにちは、西岡 (@ken_nishi) です 今回は、機械学習だけでなくデータを扱うときに大きな問題一つとなっているリーケージについてお話します。 リーケージに関しては、「Leakage in data mining: Formulation, detection, and avoidance」(Kaufman, Shachar, et al., " ACM Transactions on Knowledge Discovery from Data (TKDD) 6.4

          機械学習のリーケージについて考える

          大量データを扱うときに出てくる問題を知る - 高次元データと次元の呪い

          こんにちは、西岡 (@ken_nishi) です。 今回は「大量のデータがあればよいわけではない」という話を、高次元データを取り扱うという視点で解説します。 データを大量に所持していると、多くの人がそのデータの中に解決したい課題の何かしらの解があると期待します。 もちろん大量のデータを保持していると、様々な切り口でデータ解析したり、AIに学習をさせることで色んな課題を課題解決できることもあります。 しかし、多くの場合は、データが増えた分と比例するような形で課題がどんどん解決

          大量データを扱うときに出てくる問題を知る - 高次元データと次元の呪い

          目的達成のためにブラックボックスを許容する - 説明しないAI

          以前、機械学習を使うとき、説明可能性が重要になることがあるという話を「AIを意思決定に使うために必要な説明可能性」という記事で書きました。 今回はビジネス目的によって、AIのブラックボックスを許容する、つまり説明しないことを受け入れることについて話します。 この話をするにあたって、Random Forestという機械学習の有名手法の生みの親であるLeo Breimanが2001年に書いた論文「Statistical modeling: The two cultures」 (

          目的達成のためにブラックボックスを許容する - 説明しないAI

          AIを意思決定に使うために必要な説明可能性

          営業報告などのプレゼンテーションをする場合、売上や顧客数の推移などをプレゼンテーションに含めると思います。 このプレゼンテーションに、伝えたい情報が10個も20個も含まれていたらどうでしょうか。 多くの場合、 「結局、要点はなんですか?」 とプレゼンの聴講者に言われてしまいます。 聴講者からこのような質問が出る原因は、プレゼンテーションに多くの情報を詰め込みすぎているの一言につきます。 人間が認知できる情報量には限界があるため、人に何かを伝えるときは、重要な点を2, 3個

          AIを意思決定に使うために必要な説明可能性

          自動価格調整が独占禁止法違反になる時代に備えて知っておくべきこと - 強化学習の報酬の仕組み

          3/31に公正取引委員会が、アルゴリズムや人工知能 (この記事手では2つをまとめてAI技術と呼びます) を通じた複数の企業による価格調整が、独占禁止法違反になる恐れがあるという報告書をまとめたという記事が出ていました。 下記が関連する記事の引用となります。 公正取引委員会は31日、アルゴリズム(計算手法)や人工知能(AI)を通じた複数の企業による価格調整がカルテルとなり、独占禁止法違反になる恐れがあるとの見解を盛り込んだ報告書をまとめた。人間が直接かかわらない最先端のデジタ

          自動価格調整が独占禁止法違反になる時代に備えて知っておくべきこと - 強化学習の報酬の仕組み

          工数見積もりが難しいデータパイプライン構築

          データパイプラインとは、既存のデータをデータ分析など特定の目的に適した形式などに変更する仕組みのことです。 データ分析の需要が高まっている現在、データパイプラインの必要性が高まってきています。 しかし、実際にデータパイプライン構築のプロジェクトをすると多くの場合、スケジュール通りにはいきません。 そこには、データパイプラインであつかうデータに内在する不確実性の影響が大きいです。 今回は、データパイプラインに含まれる不確実性とその不確実性にどのように対応していくかをについて解説

          工数見積もりが難しいデータパイプライン構築

          ビジネス課題に合わせた機械学習の評価指標選択

          先日、岐阜大学が「化合物のデータ約 14000 件の機械学習により化合物の毒性予測ソフトウェアの予測精度を 95%に向上」というプレスリリースを出していました。 今回発表されたプレスリリースの中にある精度比較を見ると、開発されたソフトウェアが他のソフトウェアに比べて優位であることを示す試験結果のグラフ載っていました。 参照: https://www.gifu-u.ac.jp/about/publication/press/20210311.pdf この試験では「農薬 72

          ビジネス課題に合わせた機械学習の評価指標選択

          「サービスを提供するためのデータ」と「解析に適したデータ」の違い

          過去の記事で何度か「サービスを提供するためのデータ」が「解析に適したデータ」と違うという話をしました。 今回は、実際に解析するとき困ったことがある上書きされたデータ・圧縮されたデータ・曖昧なデータという3つの事例を紹介しようと思います。 上書きされたデータ: 過去の商品価格のデータが残ってない 商品価格などのマスターデータを上書きしてしまっているサービスをよく見かけます。 サービス運用上、紛らわしいデータを残しておくとデータを引っ張る時に無意味に複雑なクエリを書く必要が出

          「サービスを提供するためのデータ」と「解析に適したデータ」の違い

          正解率が高すぎる?AIを間違って導入しないために最低限知っておきたい知識

          最近、AI技術を売りの機能として取り入れているプロダクトが増えてきています。むしろ、AI関連の技術を利用していないと、顧客が予算を割いてくれないという話すら聞くようになってきていることもあり、どのプロダクトもなんとかAIを入れようと躍起になっています。 そのため、自社が保有しているAIの優位性を語れることもセールスとしての能力の一つとなってきているのではないでしょうか。 ただ実際の現場では、AIの話を聞いても、そのAIがどのくらいすごいのか実はよく分かっていないという人が多い

          正解率が高すぎる?AIを間違って導入しないために最低限知っておきたい知識

          欠損値について知っておきたいこと

          欠損値とは、観測している特定の変数が何かしらの理由で欠落していることを言います。欠損値は適切に処理をしないと、データ解析や機械学習の結果に影響を与えます。 普段データに触れていない方だと欠損値に馴染みが少ないかもしれませんが、欠損値について理解することは、開発者やビジネスサイドの人にとってもサービスを設計する上で役に立ちます。 そのため今回は、欠損値について知っておきたいことについて簡単に紹介します。 欠損値はどのように生まれるのかECサイトのように顧客データの登録が必要な

          欠損値について知っておきたいこと

          レコメンドシステム3つの基本課題

          最近、レコメンドを題材にしたSpotifyの論文「Algorithmic Effects on the Diversity of Consumption on Spotify」を解析者仲間から紹介してもらい、読んでみました。 内容は、新しいレコメンドのアルゴリズムの提案ではなく、「視聴するコンテンツの多様性と解約率や有償化などの指標の関係性」と、「長期的な視点でレコメンドにおける多様性の重要性を喚起」しているものでした。 細かい内容は論文を読んで頂いたほうが良いと思いますが、

          レコメンドシステム3つの基本課題