jinya nakamura

データ分析の会社(ゴーガ解析コンサルティング)でコンサルタントをやってます。 このノー…

jinya nakamura

データ分析の会社(ゴーガ解析コンサルティング)でコンサルタントをやってます。 このノートには、今取り組んでいる「データエンジニアリング」のことや、データ分析のノウハウなんかを細々と書いていこうと思っています。 https://www.jinyanakamura.com/

マガジン

  • データサイエンティストのExcelテクニック

    データを分析したいとき、誰もがもっている Excel が、非常に便利なツールになります。このマガジンでは、データサイエンティストがExcelを使って、実際にデータをどうやって観察しているかをお伝えします。

  • データエンジニアリングを始めよう

    企業がデータを活用するための「データエンジニアリング」を考えます。考え方、活用方法、人材育成など。

最近の記事

ARC174-Eメモ

ARC174-Eが面白かったので備忘録。https://atcoder.jp/contests/arc174/tasks/arc174_e 問題は、$${1 \le K \le N \le 3\times 10^5}$$ と 数列 $${P = \{P_1, …, P_N\}, 1 \le P_i \le N, P_i \ne P_j \text{ if } i \ne j}$$ が与えられ、また $${t = 1,…,N}$$ の全てについて、辞書式順序で$${P}$$

    • ABC333-Fが難しかったのでメモ

      ABC333-F Bomb Game 2 https://atcoder.jp/contests/abc333/tasks/abc333_f 全ての人が消える確率が同じなので、自分の手番になったときに、そこから自分が最後の一人になる確率は、自分以外にあと何人残っているかだけで決まる。そこで、自分以外の残り人数を$${n}$$として、そこから自分が勝つ確率を $${V_n}$$ とする。 $${V_0}$$ は、「自分の手番になったときに、自分以外の残り人数が$${0}$$

      • ABC321-FをFPSで考えると、結局どうなる?(冗長版)

        ABC321-FはFPSで考えればいい、ということはわかって、その結果が配ったDPを逆に戻してあげればいいということもわかったのだけれど、いまいち理解が不足していたので、ちゃんと行間を埋めてみました。備忘録です。 なお、基本的なことは全て maspy さんの記事「[多項式・形式的べき級数](2)式変形による解法の導出」に書いてあって、こちらで勉強しました。ありがとうございます。 + d FPSで考えれば、「+ d」は形式的べき級数 $${f(x)}$$ に $${1 +

        • ガンベル分布の離散選択モデルからsoftmaxの導出

          昔よくやっていた変形を久しぶりに使おうとしたら忘れていたので、備忘録。 ガンベル分布ガンベル分布($${G}$$とする)は次の形: 累積確率分布 $$ F_G(x)=\exp \left(-\exp \left(-\frac{x-\mu}{\eta} \right) \right) $$ 確率密度関数 $$ f_G(x) = \frac{1}{\eta} \exp \left(-\frac{x-\mu}{\eta} \right) F_G(x) $$ 期待値、分散

        マガジン

        • データサイエンティストのExcelテクニック
          10本
        • データエンジニアリングを始めよう
          5本

        記事

          進めないコストがある場合の期待値の計算(ABC314-E)

          テンパって落としたので、期待値問題の復習。 問題 https://atcoder.jp/contests/abc314/tasks/abc314_e 部分問題: 確率 $${p}$$ で成功:コスト $${a}$$ を払って終了 確率 $${q = 1-p}$$ で失敗:コスト $${b}$$ を払って継続 この遷移のコスト期待値は? 1回目で成功、2回目で成功、3回目で成功、・・・のコスト×確率をすべて足し合わせる。 $$ \begin{aligned} E

          進めないコストがある場合の期待値の計算(ABC314-E)

          noteのつぶやき機能とは? どんな感じかテストしてみよう。

          noteのつぶやき機能とは? どんな感じかテストしてみよう。

          vscode+markdownで競プロマイライブラリを作る(メモ)

          競プロで使っているマイライブラリを整理するためのメモ。 現状 jupyter notebook で作成している。 解説を markdown ブロックで、コードをコードブロックで書いており、解説→コード→解説→コード・・・のような構造。 markdownで数式を記入できる 画像は draw.io を使って作成し、ドキュメントに埋め込む。 いいところ 前後を視認しながら作成、修正できる。 ファイルを通してプレビューするのではなく、markdownをセル毎に表示/修

          vscode+markdownで競プロマイライブラリを作る(メモ)

          リモートワークと新卒社員(メモ)

          問題意識会社に新卒社員が入社した際、最初のうちは会社に慣れたり、仕事に慣れたりする期間が必要。しかし、完全リモートワークをしている会社において、新卒社員を最初からひとりのリモートワークにしてしまうと、うまくいかないんじゃないか? アイデア「研修期間」を設定し、その間は「担当社員」と物理的に同じ空間で働く。 研修期間は3ヶ月~6ヶ月程度。 担当社員は1週間~2週間で交代制、いろんな社員とのコミュニケーションをとれるように。 研修場所は、担当社員の指定する場所を転々とする

          リモートワークと新卒社員(メモ)

          キャリアセミナー向けメモ

          某キャリアセミナー向けに作成したメモです。多少私見も織り交ぜながら、データ分析者、データエンジニア、データサイエンティストなどの仕事の様子と、それらの仕事に就くために必要なことなどをメモします。 データサイエンティストとは?定義いろいろ IPAの定義によれば、データサイエンティストとは「DXの推進において、データを活用した業務改革や新規ビジネスの実現に向けて、データを収集・解析する仕組みの設計・実装・運用を担う人材」とのこと。 しかし一方で、(一社)データサイエンティスト

          キャリアセミナー向けメモ

          GCE の docker で jupyter notebook を動かしてローカルブラウザで使うには

          今回、わけあって GCE の docker で jupyter notebook を動かして、それを手元のマシンのブラウザから使う機会があり、その設定にちょっと、いやかなり手こずったので、備忘録を残します。2023/2/28の情報です。 なお、下に記しますが、ある方が残してくださった情報で非常に助かったので、その恩返しも込めて、冗長ではありますがGCEのインスタンスを立てるところからすべて記録しておきます。 ということで、まずはGCEでまっさらのインスタンスを立てます。名

          GCE の docker で jupyter notebook を動かしてローカルブラウザで使うには

          K!が2で割れる回数=K-popcount(K)であること

          $${K!}$$が2で割れる回数を$${f(K)}$$とすると、$${f(K)=K-\text{popcount}(K)}$$ となることの証明。ARC156のD問題で使って、忘れそうなので備忘メモ。 まず、$${K!}$$が素数$${p}$$で割れる回数$${f(K)}$$は中学受験の頻出問題で、$${K}$$を$${p}$$で割った商、$${K}$$を$${p^2}$$で割った商、…を全てたせばよい。これは、$${1}$$から$${K}$$まで全て並べて、$${p}$$

          K!が2で割れる回数=K-popcount(K)であること

          メモ:遅延評価セグメントツリーのモノイド表現

          遅延評価セグメントツリーを一般化すると、モノイドとその作用で書ける、とのことで、自分ライブラリを整理がてら勉強したメモ。 セグメントツリーは、長い配列に格納したデータに対し、その区間を値を走査して値を返す「クエリ」を効率的に実施するためのアルゴリズム。例えば区間和や区間XOR、区間最小など。また、それらのクエリの間にデータの一部を書き換える操作が入ることもある。1つの値を書き換えたり、加算したり、ある区間の値を書き換えたり、加算したり。 クエリ値のモノイド A 長さNの

          メモ:遅延評価セグメントツリーのモノイド表現

          Excelで任意の相関係数をもつ二つの標準正規分布乱数を作る

          いろんなところで書かれている内容ですが、いつも忘れて検索するので、備忘録的に書いておきます。 Excelで標準正規乱数を作るには、NORM.S.INV関数を使います。これは標準正規分布の累積密度関数の逆関数ですので、この中に(0,1)の一様乱数 RAND() を入れれば標準正規乱数になります。 =NORM.S.INV(RAND()) この乱数が1000個ほしければ、同じ関数を1000個のセルに入れればOK。 これらの平均および標準偏差をとれば、それぞれおよそ0, 1と

          Excelで任意の相関係数をもつ二つの標準正規分布乱数を作る

          祝!noteで数式

          noteで数式を書けるようになったとのことで、さっそくお試し。 まずはインライン数式。 (1) 関数$${f(x)=x^2-2x+1}$$を$${x}$$で微分した関数$${f’(x)}$$を書き、またそれを使って$${x=2}$$での$${f(x)}$$の傾き$${f’(2)}$$を答えよ。 次にディスプレイ数式。 (2) 次の行列の行列式を求めよ。 $$ \begin{vmatrix} \sqrt{3}/2 & -1/2 \\1/2 & \sqrt{3}/2 \

          祝!noteで数式

          第5回データ整備人を前向きに考える会、感想

          7/14(2020)に開催された、「第5回データアーキテクト(データ整備人)を"前向きに"考える会」の感想です。 なお、私自身はデータ整備人と言うよりは、整備人の方に様々な整備抽出をお願いする分析者の立場なので、そちら方面から見た感想になると思いますが、とはいえ分析者も、現状は手間の8割がデータ整備なので、内側の視点もあるかもしれません。 あと、私はデータアーキテクト、データ整備人のことを「データエンジニア」と呼んでいますので、以下、そのように記します。 なお、当日の資

          第5回データ整備人を前向きに考える会、感想

          AI-Yes/Noチャート(ベータ)~誰に相談したらいい?

          「AIを導入したい」と思ったとき、誰に相談したらよいかをYes/Noチャートにしてみました。ひとまずベータ版で。 実際には、サービスベンダー、データサイエンティスト、コンサルタント、データエンジニアってそれぞれ独立しているものではなくて、混ざっている部分が多いので、きっちり分けて書くのには違和感あるのですが、ユーザー側から見たら役割がきっちり別れて見える方がいいかなと思ったので、むりくり分けています。実際には濃淡こそあれ、すべての機能はもっています。

          AI-Yes/Noチャート(ベータ)~誰に相談したらいい?