rimi

データ分析とSQL、統計学などの勉強記録です。インプット3割アウトプット7割。

rimi

データ分析とSQL、統計学などの勉強記録です。インプット3割アウトプット7割。

マガジン

  • データ分析が自由自在に【SQL入門】

    SQL初学者がSQLを学ぶための、基礎的な説明をまとめました。

最近の記事

一元配置分散分析の公式と手順まとめ

一元配置分散分析(ANOVA)は、3つ以上の群の平均の間に統計学的に有意な差が存在するかどうかを判断するための統計手法です。この手法においては、分散のことを平均平方と呼びます。 以下の分散分析表を作成する手順をまとめます。 1. 全平方和ST(合計)の計算全体のデータとグループ全体の平均の差の平方の合計を求めます。 $${ST = \sum_{j=1}^{a}\sum_{i=1}^{n_j}(y_{ji} - \bar{y}..)^2}$$ データ集合の全値と全体平均

    • Pythonでデータ分析③: Pandasの「サマリー」と「マップ」

      1. データのサマリー(Summary)Pandasでは、データフレームやシリーズから統計的なサマリー(要約)を取得するための多くの関数を提供しています。以下に一例を挙げます。 describe()関数: 数値型の列について、カウント、平均、標準偏差、最小値、最大値、四分位数などの統計量を返します。 df.describe() value_counts()関数: ユニークな要素の数をカウントします(シリーズオブジェクトのみ)。 df['column'].value_c

      • Pythonでデータ分析②: Pandasのインデクシング・選択・割り当て

        1. インデクシング (Indexing)Indexingとは、特定のデータを素早く参照や操作するための手法を指します。Pandasでは、3つの主要なメソッドで、行と列の両方に対してインデクシングを使用できます。 ① []:列名または列名のリストを使用して列にアクセス df['column_name'] # 単一列の選択df[['col_name1', 'col_name2']] # 複数列の選択 ② .loc[]: ラベルまたはラベルのリストに基づいてデータを

        • Pythonでデータ分析①: Pandasの基本的な使い方とデータ操作

          pandasとは、python用データ分析ライブラリです。"Panel Data"(パネルデータ)から由来していて、特に数値表や時間系列データの操作に向いています。以下のコードでPandasをインポートすることができます。 import pandas as pd データの作成pandasにはDataFrameとSeriesという2つのコアオブジェクトがあります。 ① DataFrame(データフレーム) データフレームは、二次元のラベル付きデータ構造(テーブル)です。

        一元配置分散分析の公式と手順まとめ

        • Pythonでデータ分析③: Pandasの「サマリー」と「マップ」

        • Pythonでデータ分析②: Pandasのインデクシング・選択・割り当て

        • Pythonでデータ分析①: Pandasの基本的な使い方とデータ操作

        マガジン

        • データ分析が自由自在に【SQL入門】
          25本

        記事

          回帰分析とは(使用例・公式・注意点)

          お互いに影響を与え合う値の関係性を調べる相関分析とは異なり、回帰分析では「影響を与える値」と「影響を与えられる値」の一方向の関係性を調べます。 説明変数が目的変数を説明する要因である xが1乗の直線の場合、線形回帰分析 非線形の場合は、対数(log)をとると直線になることがある 使用例: 追加の広告費用が売上にどれぐらいの影響を及ぼすか? 体重と身長の間には関連性があるか? 気温の変化によってどれくらいアイスの売上が変わるか? 他にも、顧客の購買行動の予測、病

          回帰分析とは(使用例・公式・注意点)

          確率分布8種まとめ

          確率関数の期待値と分散の公式はこちら。 離散型ベルヌーイ分布 結果が2つだけの分布。Be(p) $${f(x)=p^k(1-p)^{1-k}}$$ 期待値:p 分散:p(1-p) 二項分布 ベルヌーイの試行をn回続けた結果の分布 B(n,p) $${f(x)=_nC_k*p^k(1-p)^{n-k}}$$ 期待値:np 分散:np(1-p) ポアソン分布 np=λとして、一定期間での成功回数Xの分布 Po(λ) $${P(X=x)= \frac{e^{-λ

          確率分布8種まとめ

          適合度の検定と独立性の検定

          適合度の検定と独立性の検定は、共にカイ二乗検定の一種です。 適合度の検定(1変数)特定の理論的分布への「当てはまりの良さ」を判断するために、観測頻度と期待頻度の一致度を調べる。 ばらつき(分散)を調べることでもあるので、カイ二乗分布を使用する。 例:毎日同じ個数の卵を産むと想定されるうずらが、曜日によって産卵数に違いはあるか 例:1日の死亡者数がポアソン分布にそっているか(パラメータλを推定した場合、自由度はn-2) $${\chi^2 = \sum \frac{(O_i

          適合度の検定と独立性の検定

          統計用語いろいろメモ

          確率独立:Aの確率がBの確率に影響を与えない。AとBが同時に起こる確率は、AとBの積。  P(A ∩ B) = P(A) * P(B)  P(A ∪ B) = P(A) + P(B) - P(A ∩ B) 排反:AとBは同時に起こらない。独立かつ排反の事象はない。  P(A ∪ B) = P(A) + P(B)  P(A ∩ B) = 0 一致推定量と不偏推定量統計学における推定量の性質を表す概念。一致性があれば不偏性があるとは限らない。 一致推定量(Consistent

          統計用語いろいろメモ

          仮説検定に関する7つの用語+1

          帰無仮説 (Null Hypothesis, H0): 一般的には、特定の効果や差が存在「しない」という状態を指します。棄却されなかった場合でも、帰無仮説が正しいとは言えません(帰無仮説を棄却する証拠が足りなかっただけと解釈)。棄却された場合、対立仮説がより有力であると解釈します。 対立仮説 (Alternative Hypothesis, H1): 実験者が証明しようとする主張または理論を表す仮説です。帰無仮説が棄却された場合でも、対立仮説が間違いなく真実であるとは言えま

          仮説検定に関する7つの用語+1

          標本誤差と非標本誤差

          1. 標本誤差:母集団の一部しか抽出しないことで生じる誤差。一部のデータ(標本)を選び、全体(母集団)を推定する際、生じる誤差を標本誤差と呼ぶ。 例えば、製品の認知度の調査で、標本と母集団で一致しない場合。 2. 非標本誤差:標本抽出の過程「以外」から生じる誤差すべて。データの測定ミス、調査設計の不適切さ、回答者の誤解、未回答、データ入力の間違いなど。 インターネット調査によってインターネットを使っていない人を排除してしまうことによる偏りや、調査に協力してくれやすい人を

          標本誤差と非標本誤差

          フィッシャーの3原則 - 無作為化・反復・局所管理

          統計的な実験設計の基礎をなす、サー・ロナルド・フィッシャーによって提唱された3つの原則です。 1.無作為化(ランダム化)実験の順序や場所などが複数ある場合に、対象群をランダムに割り振ること。系統誤差(偏り、バイアス)を偶然誤差に取り込む。 例:新薬のテストをする際、被験者をランダムに薬のグループと偽薬のグループに分ける。(年齢や健康状態などの因子が結果に影響を与えるのを防ぐ) 2.反復同じ試験を2回以上繰り返し、その結果の平均をとることで、結果が正確で信頼できることを確

          フィッシャーの3原則 - 無作為化・反復・局所管理

          期待値・分散・共分散の性質 - 公式まとめ

          期待値期待値は、確率変数が取る値の「期待される」値を表す。平均は「観測された」値の中心傾向を反映する。(値は同じ) 定数の期待値は定数自体: $${E(c) = c}$$ 期待値の定数倍 : $${E(cX) = cE(X)}$$ 期待値の和(加法性): $${E(X + Y) = E(X) + E(Y)}$$。確率変数が独立または相関している場合でも成り立つ 期待値の線型性: $${E(aX+bY) = aE(X) + bE(Y)}$$ 分散分散は、データが

          期待値・分散・共分散の性質 - 公式まとめ

          統計学基礎公式メモ(随時更新予定)

          確率関数の期待値 確率変数がとり得る各価にその確率を掛けたものを全て合計した値 $${離散型… E[X] = \sum_{i=1}^{n} x_i f(x_i)}$$ $${連続型… E[X] = \int_{-\infty}^{\infty} x f(x) dx}$$ 確率密度関数 連続型において、積分すると答えが1になる (離散型においては、質量関数。すべての値の確率を足すと1になる) 累積分布関数を微分したもの(確率密度関数を積分すると分布関数になる) 確率

          統計学基礎公式メモ(随時更新予定)

          単回帰モデル メモ

          用語誤差項 観測値から(真の)予測値を引いたもの。直接知ることはできない。 誤差の普遍分散 $${{\sigma}^2}$$ 誤差項の分散。直接知ることはできない。 説明変数の平方和 $${T_x{_x} = \sum_{i=1}^{n} (X_i - \overline{X})^2}$$ 個々の説明変数の値と平均値との間の差(偏差)を二乗したものの和 残差 観測値からモデルによる予測値を引いたもので、計算可能。 残差平方和 各観測地点の予測値と実際の観測値

          単回帰モデル メモ

          仮説検定・統計量の公式まとめ

          仮説検定とは、母集団の特性についての仮説(母平均、母分散、母比率など)が正しいか否かを検証する統計的手法です。どのような標本分布にしたがうかを整理し、検定統計量を求めます。 Z-スコア(正規標準分布)母平均の仮説検定(分散既知) $${Z = \frac{\overline{X} - \mu_0}{\sqrt\frac{\sigma^2}{{n}}}}$$  データの値から母平均を引いて、母標準偏差で割る(標準化) 母平均の「差」の仮説検定(分散既知) $${Z = \f

          仮説検定・統計量の公式まとめ

          分散未知の母平均の差の区間推定(プールされた分散)

          1. プールされた分散を求める 母分散がわからないので、$${\hat{\sigma^2_x}と\hat{\sigma^2_y}}$$からプールされた分散、$${\hat{\sigma^2}}$$を求める 自由度$${ν=m+n-2}$$ $${\hat{\sigma^2}=\frac{m-1}{ν}\hat{\sigma^2_x}+\frac{n-1}{ν}\hat{\sigma^2_y}}$$ 2.t分布表を使って計算する(母分散既知の場合に近い公式) $${d

          分散未知の母平均の差の区間推定(プールされた分散)