rimi

データ分析とSQL、統計学などの勉強記録です。インプット3割アウトプット7割。

データ分析が自由自在に【SQL入門】

rimi

25本

SQL初学者がSQLを学ぶための、基礎的な説明をまとめました。

一元配置分散分析の公式と手順まとめ

一元配置分散分析(ANOVA)は、3つ以上の群の平均の間に統計学的に有意な差が存在するかどうかを判断するための統計手法です。この手法においては、分散のことを平均平方と呼びます。以下の分散分析表を作成する手順をまとめます。 1. 全平方和ST（合計）の計算全体のデータとグループ全体の平均の差の平方の合計を求めます。 $${ST = \sum_{j=1}^{a}\sum_{i=1}^{n_j}(y_{ji} - \bar{y}..)^2}$$ データ集合の全値と全体平均

Pythonでデータ分析③: Pandasの「サマリー」と「マップ」

1. データのサマリー(Summary)Pandasでは、データフレームやシリーズから統計的なサマリー（要約）を取得するための多くの関数を提供しています。以下に一例を挙げます。 describe()関数: 数値型の列について、カウント、平均、標準偏差、最小値、最大値、四分位数などの統計量を返します。 df.describe() value_counts()関数: ユニークな要素の数をカウントします（シリーズオブジェクトのみ）。 df['column'].value_c

rimi

6か月前

6
Pythonでデータ分析②: Pandasのインデクシング・選択・割り当て

1. インデクシング (Indexing)Indexingとは、特定のデータを素早く参照や操作するための手法を指します。Pandasでは、３つの主要なメソッドで、行と列の両方に対してインデクシングを使用できます。 ① []：列名または列名のリストを使用して列にアクセス df['column_name'] # 単一列の選択df[['col_name1', 'col_name2']] # 複数列の選択 ② .loc[]: ラベルまたはラベルのリストに基づいてデータを

rimi

6か月前

1
Pythonでデータ分析①: Pandasの基本的な使い方とデータ操作

pandasとは、python用データ分析ライブラリです。"Panel Data"（パネルデータ）から由来していて、特に数値表や時間系列データの操作に向いています。以下のコードでPandasをインポートすることができます。 import pandas as pd データの作成pandasにはDataFrameとSeriesという2つのコアオブジェクトがあります。 ① DataFrame（データフレーム）データフレームは、二次元のラベル付きデータ構造（テーブル）です。

rimi

6か月前

3

一元配置分散分析の公式と手順まとめ

rimi

5か月前

Pythonでデータ分析③: Pandasの「サマリー」と「マップ」

6

rimi

6か月前
Pythonでデータ分析②: Pandasのインデクシング・選択・割り当て

1

rimi

6か月前
Pythonでデータ分析①: Pandasの基本的な使い方とデータ操作

3

rimi

6か月前

マガジン

データ分析が自由自在に【SQL入門】

25本

記事

回帰分析とは（使用例・公式・注意点）

お互いに影響を与え合う値の関係性を調べる相関分析とは異なり、回帰分析では「影響を与える値」と「影響を与えられる値」の一方向の関係性を調べます。説明変数が目的変数を説明する要因である xが1乗の直線の場合、線形回帰分析非線形の場合は、対数（log）をとると直線になることがある使用例：追加の広告費用が売上にどれぐらいの影響を及ぼすか？体重と身長の間には関連性があるか？気温の変化によってどれくらいアイスの売上が変わるか？他にも、顧客の購買行動の予測、病

rimi

6か月前

1
回帰分析とは（使用例・公式・注意点）

1

rimi

6か月前
確率分布８種まとめ

確率関数の期待値と分散の公式はこちら。離散型ベルヌーイ分布結果が２つだけの分布。Be(p) $${f(x)=p^k(1-p)^{1-k}}$$ 期待値：p 分散：p(1-p) 二項分布ベルヌーイの試行をn回続けた結果の分布 B(n,p) $${f(x)=_nC_k*p^k(1-p)^{n-k}}$$ 期待値：np 分散：np(1-p) ポアソン分布 np=λとして、一定期間での成功回数Xの分布　Po(λ) $${P(X=x)= \frac{e^{-λ

rimi

7か月前
確率分布８種まとめ

rimi

7か月前
適合度の検定と独立性の検定

適合度の検定と独立性の検定は、共にカイ二乗検定の一種です。適合度の検定（１変数）特定の理論的分布への「当てはまりの良さ」を判断するために、観測頻度と期待頻度の一致度を調べる。ばらつき（分散）を調べることでもあるので、カイ二乗分布を使用する。例：毎日同じ個数の卵を産むと想定されるうずらが、曜日によって産卵数に違いはあるか例：1日の死亡者数がポアソン分布にそっているか（パラメータλを推定した場合、自由度はn-2） $${\chi^2 = \sum \frac{(O_i

rimi

7か月前
適合度の検定と独立性の検定

rimi

7か月前
統計用語いろいろメモ

確率独立：Aの確率がBの確率に影響を与えない。AとBが同時に起こる確率は、AとBの積。　P(A ∩ B) = P(A) * P(B) 　P(A ∪ B) = P(A) + P(B) - P(A ∩ B) 排反：AとBは同時に起こらない。独立かつ排反の事象はない。　P(A ∪ B) = P(A) + P(B) 　P(A ∩ B) = 0 一致推定量と不偏推定量統計学における推定量の性質を表す概念。一致性があれば不偏性があるとは限らない。一致推定量（Consistent

rimi

7か月前
統計用語いろいろメモ

rimi

7か月前
仮説検定に関する７つの用語＋１

帰無仮説 (Null Hypothesis, H0): 一般的には、特定の効果や差が存在「しない」という状態を指します。棄却されなかった場合でも、帰無仮説が正しいとは言えません（帰無仮説を棄却する証拠が足りなかっただけと解釈）。棄却された場合、対立仮説がより有力であると解釈します。対立仮説 (Alternative Hypothesis, H1): 実験者が証明しようとする主張または理論を表す仮説です。帰無仮説が棄却された場合でも、対立仮説が間違いなく真実であるとは言えま

rimi

7か月前

2
仮説検定に関する７つの用語＋１

2

rimi

7か月前
標本誤差と非標本誤差

1. 標本誤差：母集団の一部しか抽出しないことで生じる誤差。一部のデータ（標本）を選び、全体（母集団）を推定する際、生じる誤差を標本誤差と呼ぶ。例えば、製品の認知度の調査で、標本と母集団で一致しない場合。 2. 非標本誤差：標本抽出の過程「以外」から生じる誤差すべて。データの測定ミス、調査設計の不適切さ、回答者の誤解、未回答、データ入力の間違いなど。インターネット調査によってインターネットを使っていない人を排除してしまうことによる偏りや、調査に協力してくれやすい人を

rimi

7か月前
標本誤差と非標本誤差

rimi

7か月前
フィッシャーの3原則 - 無作為化・反復・局所管理

統計的な実験設計の基礎をなす、サー・ロナルド・フィッシャーによって提唱された3つの原則です。 1.無作為化（ランダム化）実験の順序や場所などが複数ある場合に、対象群をランダムに割り振ること。系統誤差（偏り、バイアス）を偶然誤差に取り込む。例：新薬のテストをする際、被験者をランダムに薬のグループと偽薬のグループに分ける。（年齢や健康状態などの因子が結果に影響を与えるのを防ぐ）２.反復同じ試験を２回以上繰り返し、その結果の平均をとることで、結果が正確で信頼できることを確

rimi

7か月前
フィッシャーの3原則 - 無作為化・反復・局所管理

rimi

7か月前
期待値・分散・共分散の性質 - 公式まとめ

期待値期待値は、確率変数が取る値の「期待される」値を表す。平均は「観測された」値の中心傾向を反映する。（値は同じ）定数の期待値は定数自体： $${E(c) = c}$$ 期待値の定数倍 : $${E(cX) = cE(X)}$$ 期待値の和（加法性）: $${E(X + Y) = E(X) + E(Y)}$$。確率変数が独立または相関している場合でも成り立つ期待値の線型性: $${E(aX+bY) = aE(X) + bE(Y)}$$ 分散分散は、データが

rimi

7か月前

4
期待値・分散・共分散の性質 - 公式まとめ

4

rimi

7か月前
統計学基礎公式メモ（随時更新予定）

確率関数の期待値確率変数がとり得る各価にその確率を掛けたものを全て合計した値 $${離散型… E[X] = \sum_{i=1}^{n} x_i f(x_i)}$$ $${連続型… E[X] = \int_{-\infty}^{\infty} x f(x) dx}$$ 確率密度関数連続型において、積分すると答えが１になる（離散型においては、質量関数。すべての値の確率を足すと１になる）累積分布関数を微分したもの（確率密度関数を積分すると分布関数になる）確率

rimi

7か月前
統計学基礎公式メモ（随時更新予定）

rimi

7か月前
単回帰モデル　メモ

用語誤差項観測値から（真の）予測値を引いたもの。直接知ることはできない。誤差の普遍分散 $${{\sigma}^2}$$　誤差項の分散。直接知ることはできない。説明変数の平方和 $${T_x{_x} = \sum_{i=1}^{n} (X_i - \overline{X})^2}$$ 個々の説明変数の値と平均値との間の差（偏差）を二乗したものの和残差観測値からモデルによる予測値を引いたもので、計算可能。残差平方和各観測地点の予測値と実際の観測値

rimi

7か月前
単回帰モデル　メモ

rimi

7か月前
仮説検定・統計量の公式まとめ

仮説検定とは、母集団の特性についての仮説（母平均、母分散、母比率など）が正しいか否かを検証する統計的手法です。どのような標本分布にしたがうかを整理し、検定統計量を求めます。 Z-スコア(正規標準分布)母平均の仮説検定（分散既知） $${Z = \frac{\overline{X} - \mu_0}{\sqrt\frac{\sigma^2}{{n}}}}$$ 　データの値から母平均を引いて、母標準偏差で割る（標準化）母平均の「差」の仮説検定（分散既知） $${Z = \f

rimi

7か月前

2
仮説検定・統計量の公式まとめ

2

rimi

7か月前
分散未知の母平均の差の区間推定（プールされた分散）

1. プールされた分散を求める母分散がわからないので、$${\hat{\sigma^2_x}と\hat{\sigma^2_y}}$$からプールされた分散、$${\hat{\sigma^2}}$$を求める自由度$${ν=m+n-2}$$ $${\hat{\sigma^2}=\frac{m-1}{ν}\hat{\sigma^2_x}+\frac{n-1}{ν}\hat{\sigma^2_y}}$$ 2.t分布表を使って計算する（母分散既知の場合に近い公式） $${d

rimi

8か月前
分散未知の母平均の差の区間推定（プールされた分散）

rimi

8か月前

マガジン

データ分析が自由自在に【SQL入門】

最近の記事

一元配置分散分析の公式と手順まとめ

Pythonでデータ分析③: Pandasの「サマリー」と「マップ」

Pythonでデータ分析②: Pandasのインデクシング・選択・割り当て

Pythonでデータ分析①: Pandasの基本的な使い方とデータ操作

一元配置分散分析の公式と手順まとめ

Pythonでデータ分析③: Pandasの「サマリー」と「マップ」

Pythonでデータ分析②: Pandasのインデクシング・選択・割り当て

Pythonでデータ分析①: Pandasの基本的な使い方とデータ操作

回帰分析とは（使用例・公式・注意点）

回帰分析とは（使用例・公式・注意点）

確率分布８種まとめ

確率分布８種まとめ

適合度の検定と独立性の検定

適合度の検定と独立性の検定

統計用語いろいろメモ

統計用語いろいろメモ

仮説検定に関する７つの用語＋１

仮説検定に関する７つの用語＋１

標本誤差と非標本誤差

標本誤差と非標本誤差

フィッシャーの3原則 - 無作為化・反復・局所管理

フィッシャーの3原則 - 無作為化・反復・局所管理

期待値・分散・共分散の性質 - 公式まとめ

期待値・分散・共分散の性質 - 公式まとめ

統計学基礎公式メモ（随時更新予定）

統計学基礎公式メモ（随時更新予定）

単回帰モデル メモ

単回帰モデル メモ

仮説検定・統計量の公式まとめ

仮説検定・統計量の公式まとめ

分散未知の母平均の差の区間推定（プールされた分散）

分散未知の母平均の差の区間推定（プールされた分散）

単回帰モデル　メモ

単回帰モデル　メモ