jinya nakamura

データ分析の会社(ゴーガ解析コンサルティング)でコンサルタントをやってます。 このノー…

jinya nakamura

データ分析の会社(ゴーガ解析コンサルティング)でコンサルタントをやってます。 このノートには、今取り組んでいる「データエンジニアリング」のことや、データ分析のノウハウなんかを細々と書いていこうと思っています。 https://www.jinyanakamura.com/

マガジン

  • データサイエンティストのExcelテクニック

    データを分析したいとき、誰もがもっている Excel が、非常に便利なツールになります。このマガジンでは、データサイエンティストがExcelを使って、実際にデータをどうやって観察しているかをお伝えします。

  • データエンジニアリングを始めよう

    企業がデータを活用するための「データエンジニアリング」を考えます。考え方、活用方法、人材育成など。

記事一覧

ARC174-Eメモ

ARC174-Eが面白かったので備忘録。https://atcoder.jp/contests/arc174/tasks/arc174_e 問題は、$${1 \le K \le N \le 3\times 10^5}$$ と 数列 $${P = \{P_1, …, P_N\},…

jinya nakamura
1か月前

ABC333-Fが難しかったのでメモ

ABC333-F Bomb Game 2 https://atcoder.jp/contests/abc333/tasks/abc333_f 全ての人が消える確率が同じなので、自分の手番になったときに、そこから自分が最後の一人にな…

jinya nakamura
4か月前

ABC321-FをFPSで考えると、結局どうなる?(冗長版)

ABC321-FはFPSで考えればいい、ということはわかって、その結果が配ったDPを逆に戻してあげればいいということもわかったのだけれど、いまいち理解が不足していたので、ち…

jinya nakamura
7か月前

ガンベル分布の離散選択モデルからsoftmaxの導出

昔よくやっていた変形を久しぶりに使おうとしたら忘れていたので、備忘録。 ガンベル分布ガンベル分布($${G}$$とする)は次の形: 累積確率分布 $$ F_G(x)=\exp \left(…

jinya nakamura
7か月前
1

進めないコストがある場合の期待値の計算(ABC314-E)

テンパって落としたので、期待値問題の復習。 問題 https://atcoder.jp/contests/abc314/tasks/abc314_e 部分問題: 確率 $${p}$$ で成功:コスト $${a}$$ を払って終…

jinya nakamura
8か月前

noteのつぶやき機能とは?
どんな感じかテストしてみよう。

jinya nakamura
10か月前

vscode+markdownで競プロマイライブラリを作る(メモ)

競プロで使っているマイライブラリを整理するためのメモ。 現状 jupyter notebook で作成している。 解説を markdown ブロックで、コードをコードブロックで書いており…

jinya nakamura
10か月前
1

リモートワークと新卒社員(メモ)

問題意識会社に新卒社員が入社した際、最初のうちは会社に慣れたり、仕事に慣れたりする期間が必要。しかし、完全リモートワークをしている会社において、新卒社員を最初か…

2

キャリアセミナー向けメモ

某キャリアセミナー向けに作成したメモです。多少私見も織り交ぜながら、データ分析者、データエンジニア、データサイエンティストなどの仕事の様子と、それらの仕事に就く…

4

GCE の docker で jupyter notebook を動かしてローカルブラウザで使うには

今回、わけあって GCE の docker で jupyter notebook を動かして、それを手元のマシンのブラウザから使う機会があり、その設定にちょっと、いやかなり手こずったので、備…

4

K!が2で割れる回数=K-popcount(K)であること

$${K!}$$が2で割れる回数を$${f(K)}$$とすると、$${f(K)=K-\text{popcount}(K)}$$ となることの証明。ARC156のD問題で使って、忘れそうなので備忘メモ。 まず、$${K!}$$が…

メモ:遅延評価セグメントツリーのモノイド表現

遅延評価セグメントツリーを一般化すると、モノイドとその作用で書ける、とのことで、自分ライブラリを整理がてら勉強したメモ。 セグメントツリーは、長い配列に格納した…

1

Excelで任意の相関係数をもつ二つの標準正規分布乱数を作る

いろんなところで書かれている内容ですが、いつも忘れて検索するので、備忘録的に書いておきます。 Excelで標準正規乱数を作るには、NORM.S.INV関数を使います。これは標…

2

祝!noteで数式

noteで数式を書けるようになったとのことで、さっそくお試し。 まずはインライン数式。 (1) 関数$${f(x)=x^2-2x+1}$$を$${x}$$で微分した関数$${f’(x)}$$を書き、またそ…

第5回データ整備人を前向きに考える会、感想

7/14(2020)に開催された、「第5回データアーキテクト(データ整備人)を"前向きに"考える会」の感想です。 なお、私自身はデータ整備人と言うよりは、整備人の方に様々な…

17

AI-Yes/Noチャート(ベータ)~誰に相談したらいい?

「AIを導入したい」と思ったとき、誰に相談したらよいかをYes/Noチャートにしてみました。ひとまずベータ版で。 実際には、サービスベンダー、データサイエンティスト、コ…

1

ARC174-Eメモ

ARC174-Eが面白かったので備忘録。https://atcoder.jp/contests/arc174/tasks/arc174_e

問題は、$${1 \le K \le N \le 3\times 10^5}$$ と 数列 $${P = \{P_1, …, P_N\}, 1 \le P_i \le N, P_i \ne P_j \text{ if } i \ne j}$$ が与えられ、ま

もっとみる

ABC333-Fが難しかったのでメモ

ABC333-F Bomb Game 2 https://atcoder.jp/contests/abc333/tasks/abc333_f

全ての人が消える確率が同じなので、自分の手番になったときに、そこから自分が最後の一人になる確率は、自分以外にあと何人残っているかだけで決まる。そこで、自分以外の残り人数を$${n}$$として、そこから自分が勝つ確率を $${V_n}$$ とする。

$${

もっとみる

ABC321-FをFPSで考えると、結局どうなる?(冗長版)

ABC321-FはFPSで考えればいい、ということはわかって、その結果が配ったDPを逆に戻してあげればいいということもわかったのだけれど、いまいち理解が不足していたので、ちゃんと行間を埋めてみました。備忘録です。
なお、基本的なことは全て maspy さんの記事「[多項式・形式的べき級数](2)式変形による解法の導出」に書いてあって、こちらで勉強しました。ありがとうございます。

+ d

FPS

もっとみる

ガンベル分布の離散選択モデルからsoftmaxの導出

昔よくやっていた変形を久しぶりに使おうとしたら忘れていたので、備忘録。

ガンベル分布ガンベル分布($${G}$$とする)は次の形:

累積確率分布

$$
F_G(x)=\exp \left(-\exp \left(-\frac{x-\mu}{\eta} \right) \right)
$$

確率密度関数

$$
f_G(x) = \frac{1}{\eta} \exp \left(-\fra

もっとみる

進めないコストがある場合の期待値の計算(ABC314-E)

テンパって落としたので、期待値問題の復習。

問題

https://atcoder.jp/contests/abc314/tasks/abc314_e

部分問題:

確率 $${p}$$ で成功:コスト $${a}$$ を払って終了

確率 $${q = 1-p}$$ で失敗:コスト $${b}$$ を払って継続

この遷移のコスト期待値は?

1回目で成功、2回目で成功、3回目で成功、・・・

もっとみる

noteのつぶやき機能とは?
どんな感じかテストしてみよう。

vscode+markdownで競プロマイライブラリを作る(メモ)

競プロで使っているマイライブラリを整理するためのメモ。

現状

jupyter notebook で作成している。

解説を markdown ブロックで、コードをコードブロックで書いており、解説→コード→解説→コード・・・のような構造。

markdownで数式を記入できる

画像は draw.io を使って作成し、ドキュメントに埋め込む。

いいところ

前後を視認しながら作成、修正できる。

もっとみる

リモートワークと新卒社員(メモ)

問題意識会社に新卒社員が入社した際、最初のうちは会社に慣れたり、仕事に慣れたりする期間が必要。しかし、完全リモートワークをしている会社において、新卒社員を最初からひとりのリモートワークにしてしまうと、うまくいかないんじゃないか?

アイデア「研修期間」を設定し、その間は「担当社員」と物理的に同じ空間で働く。

研修期間は3ヶ月~6ヶ月程度。

担当社員は1週間~2週間で交代制、いろんな社員とのコミ

もっとみる

キャリアセミナー向けメモ

某キャリアセミナー向けに作成したメモです。多少私見も織り交ぜながら、データ分析者、データエンジニア、データサイエンティストなどの仕事の様子と、それらの仕事に就くために必要なことなどをメモします。

データサイエンティストとは?定義いろいろ

IPAの定義によれば、データサイエンティストとは「DXの推進において、データを活用した業務改革や新規ビジネスの実現に向けて、データを収集・解析する仕組みの設計

もっとみる

GCE の docker で jupyter notebook を動かしてローカルブラウザで使うには

今回、わけあって GCE の docker で jupyter notebook を動かして、それを手元のマシンのブラウザから使う機会があり、その設定にちょっと、いやかなり手こずったので、備忘録を残します。2023/2/28の情報です。

なお、下に記しますが、ある方が残してくださった情報で非常に助かったので、その恩返しも込めて、冗長ではありますがGCEのインスタンスを立てるところからすべて記録し

もっとみる

K!が2で割れる回数=K-popcount(K)であること

$${K!}$$が2で割れる回数を$${f(K)}$$とすると、$${f(K)=K-\text{popcount}(K)}$$ となることの証明。ARC156のD問題で使って、忘れそうなので備忘メモ。

まず、$${K!}$$が素数$${p}$$で割れる回数$${f(K)}$$は中学受験の頻出問題で、$${K}$$を$${p}$$で割った商、$${K}$$を$${p^2}$$で割った商、…を全てた

もっとみる

メモ:遅延評価セグメントツリーのモノイド表現

遅延評価セグメントツリーを一般化すると、モノイドとその作用で書ける、とのことで、自分ライブラリを整理がてら勉強したメモ。

セグメントツリーは、長い配列に格納したデータに対し、その区間を値を走査して値を返す「クエリ」を効率的に実施するためのアルゴリズム。例えば区間和や区間XOR、区間最小など。また、それらのクエリの間にデータの一部を書き換える操作が入ることもある。1つの値を書き換えたり、加算したり

もっとみる

Excelで任意の相関係数をもつ二つの標準正規分布乱数を作る

いろんなところで書かれている内容ですが、いつも忘れて検索するので、備忘録的に書いておきます。

Excelで標準正規乱数を作るには、NORM.S.INV関数を使います。これは標準正規分布の累積密度関数の逆関数ですので、この中に(0,1)の一様乱数 RAND() を入れれば標準正規乱数になります。

=NORM.S.INV(RAND())

この乱数が1000個ほしければ、同じ関数を1000個のセル

もっとみる

祝!noteで数式

noteで数式を書けるようになったとのことで、さっそくお試し。

まずはインライン数式。

(1) 関数$${f(x)=x^2-2x+1}$$を$${x}$$で微分した関数$${f’(x)}$$を書き、またそれを使って$${x=2}$$での$${f(x)}$$の傾き$${f’(2)}$$を答えよ。

次にディスプレイ数式。

(2) 次の行列の行列式を求めよ。

$$
\begin{vmatrix

もっとみる

第5回データ整備人を前向きに考える会、感想

7/14(2020)に開催された、「第5回データアーキテクト(データ整備人)を"前向きに"考える会」の感想です。

なお、私自身はデータ整備人と言うよりは、整備人の方に様々な整備抽出をお願いする分析者の立場なので、そちら方面から見た感想になると思いますが、とはいえ分析者も、現状は手間の8割がデータ整備なので、内側の視点もあるかもしれません。

あと、私はデータアーキテクト、データ整備人のことを「デ

もっとみる

AI-Yes/Noチャート(ベータ)~誰に相談したらいい?

「AIを導入したい」と思ったとき、誰に相談したらよいかをYes/Noチャートにしてみました。ひとまずベータ版で。

実際には、サービスベンダー、データサイエンティスト、コンサルタント、データエンジニアってそれぞれ独立しているものではなくて、混ざっている部分が多いので、きっちり分けて書くのには違和感あるのですが、ユーザー側から見たら役割がきっちり別れて見える方がいいかなと思ったので、むりくり分けてい

もっとみる