マガジンのカバー画像

文系がまとめたPSPPによる統計分析

47
LibreOfficeやPSPP、Rなどを使ったデータ活用方法の自分自身の学びを記録していきます。 なるべく、GUIベースの分析を取り扱うという方針のもと、PSPPを中心にしてい… もっと読む
運営しているクリエイター

記事一覧

Brunner-Munzel検定

2群の代表値の差を比較する場合、最も用いられるのが「t検定」である。 しかし、「Studentのt検定」は、等分散を仮定しているため、不等分散には対応できない。 これに対応したのが、「Welchのt検定」である。多くの統計ソフトやエクセルの「データ分析」機能の「t検定」は、この「Welchのt検定」である。 しかし、この2つの「t検定」は、分布の正規性を仮定しているため、正規性が仮定できない(ノンパラメトリックな)状況では、使用できない。この場合は、「Mann-Whitne

(メモ)ロバストzスコアを用いた異常値の除外

外れ値を検出するスミルノフ・グラブス検定について調べていて、正規分布していないときはどうするんだろうという疑問を抱いたところ、四分位範囲を用いた「ロバストzスコア」を使う方法があることを知りました。 普通箱ひげ図を書く場合、第3四分位数から第1四分位数を引いた値である四分位範囲IQR(interquartile range)を用いて、外れ値を決めます。 第3四分位数に四分位範囲の1.5倍を足した値以上を上側の外れ値、第1四分位数から四分位範囲の1.5倍を引いた値以下を下側の

統計言語Rとその仲間たち―RStudio,Onyx,RKWard,jamovi―

Rとは?オープンソースでクロスプラットフォームな統計環境。 S言語の互換言語として開発された。 世界中で広く使われている。 Rの短所 ・何ができるのか分からない。 ・同じことをするのに色んなやり方がある。 ・処理が遅い。 ・手厚いユーザーサポートはない。 ・CUI中心で、オタクっぽい。 Rの長所・ほとんと何でもできる(文書作成や画像処理も)。 ・最新の統計手法がすぐに使える。 ・基本タダ。 ・ネット上に情報がいっぱい。 ・CUI中心で、プロっぽい。 「R」のダ

「PSPP」+「LibreOffice」という提案

 私は仕事で少しばかり統計分析を行うことがあります。そこでは主に「R」を使っています。 正確には、「R」+「R Studio」+「秀丸エディタ」です。データファイルはCSVで扱うことが多いのですが、「秀丸エディタ」は巨大なファイルも素早く扱えるし、CSVモードという表示モードがあって、データも見やすくなっています。 これで特に不便はないのですが、一部の部署ではIBMの「SPSS」を使っていますが、数は揃っていません。 時々、アドバイスも求められます。使い方は分かりますし、出

[PSPP]のインストール

Windows「GNU PSPP」のページにアクセスし、「download」をクリックします。 「download」のところに、64ビット版と32ビット版が別々に掲載されていますので、自分のPCのOSに合わせてダウンロードします。どちらも機能は変わりません。 上の方がバージョンの新しいものなので、基本的には一番上をダウンロードしておけば問題はありません。 ただし、2017年6月段階で、0.10.4はメニューが日本語化されません。 ダウンロードした実行ファイルをダブルクリッ

[PSPP]データ入力と設定

データ入力と変数ラベルたとえば、下のようなデータがあったとして、これをPSPPに入力してみましょう。 まずは、「データビュー」で、1列目を選択状態にして、メニューの[編集]から[変数の挿入]を選択して、列を増やしていき、4つにしてください。 そして[ケース]の「1」の右側の列を1つとばして、上から、「性別」の数字を「2」「2」「1」と入力し、「クラス」「得点」も同様に入力していきます。 数値を入力後にリターンを押せば、次のケースに移り、ケースは自動で増えていきます。

[PSPP]データの操作

変数の計算こまかな操作は、各分析手法の説明のところで述べることになると思うので、ここでは簡単な変数の計算について説明します。 「国語」と「英語」の得点データを使い、2科目の合計得点を計算します。 ・[変換]→[変数の計算]を選択。 ・[目標変数]に「合計」と入力。 ・左の一覧表から「国語」を選び、「=」の下の三角を押して、[数式]のところに「国語」を表示させる。 ・つづけて「+」を入力し、「英語」をその後ろに表示させる。 ・[OK]をクリック。 すると、「データビュー」

[PSPP]インポート、エキスポート、マージ

データのインポートPSPPは、データを直接入力する以外にも、すでにあるデータを読み込むことができる。SPSS形式(.sav)のほかにも様々な形式のファイルを読み込むことができるが、ここでは何かと取り回しに便利なCSV形式データのインポートを説明する。 ・[ファイル]→[テキストデータの読み込み]を選択。 ・ファイル選択ウインドウの右下の[すべてのファイル]をクリックし、「コンマ区切りデータ(CSV)ファイル」を選ぶ。 ・一覧から読み込むファイルを選択して[進む]をクリッ

[PSPP]記述統計①度数分布と特性値

1変数の記述統計ビジネスで統計を扱う場合、そのほとんどは得られたデータを元に、予測を立てたりモデルを構築したりという推測統計学の側面が大きくなると思います。しかし、その前段階として記述統計学をはずすことはできません。 まず、1変数の場合の記述統計をPSPPでどのように行うかを整理しておきます。 度数分布と棒グラフ・ヒストグラムある変数について、同じカテゴリに含まれるデータの個数を度数といい、総てのカテゴリについて度数をまとめたものを表に表すと度数分布表になります。 例え

[PSPP]記述統計②散布図と相関

2変数の記述統計統計が1つの変数しか扱わないのであれば、こんなに楽なことはないのですが、実際にはそんなことはありません。2つ以上の変数を扱うことの方が普通です。 ここでは、2つの変数の関係を捉える方法について見ていきたいと思います。 散布図まず2変数の様子をグラフに表してみることが大切です。 父親と子どもの身長のデータが次のように与えられているとします。これをグラフに表してみましょう。 ・[グラフ]→[散布図]を選択。 ・[Y軸]に[子どもの身長]を指定。 ・[X軸]

[PSPP]多重クロス表の作成

PSPPでは、行や列に複数の変数を持つクロス集計表、つまり多重クロス集計表は標準では作ることができません。ただし、それはGUIを使っている限りであって、シンタックスを変更すると、行については階層化することが可能です。 たとえば、 「学校」=(小学校、中学校、高校、その他) 「学年」=(小1、小2、小3、小4、小5、小6、中1、中2、中3、高1、高2、高3、既卒、高校、その他) 「性別」=(男、女) という3変数でクロス集計表を作る場合、「学年」は「学校」の下位にぶら下げ

[PSPP]χ2検定

血液型や、質問に対する「賛成/反対」や、特徴の「ある/なし」といった名義尺度から得られた「質的なデータ」において、標本に見られる差異が、想定される母集団においても認められるかどうかを推測する方法がχ2検定です。 1変量のχ2検定の実行たとえば、ドリアンの好き嫌いについて20人にアンケートをとったところ、5人が「好き」、15人が「嫌い」だった場合、「好き」よりも「嫌い」の方が多いことが統計的に有意であることを検定してみましょう。 データは次のようになっていますが、「好き」は

[PSPP]χ2乗検定の残差分析

残差分析(residual analysis)は、χ2乗検定において、有意な差が見られた場合に、どのセルがその元となっているのかを特定するための分析です。 ということは、通常差がはっきり見て分かる2×2のクロス集計表になる場合には使われません。2×3や3×2以上のクロス集計表になる場合に有効な手段です。 以下、東京・大阪・京都で、「たぬきそば」のイメージについて、「揚げ玉」か「煮た油揚げ」か「刻み油揚げのあんかけ(データ上は「あんかけ」)」についての架空のデータを元に説明

[PSPP]マクネマー検定とコクランのQ検定

マクネマー検定マクネマー検定(McNemar Test)は、対応のある2値変数(1/0データの変数)について、すべての変数間で比率に差があるかどうかを検定します。 χ2検定とよく似ているが、両者の検定結果は無関連です。一方で有意だったからといって、もう一方でも有意だとは限りません。χ2検定は「質問A にYESと答えると、質問B にもYESと回答しやすい」などの、2つの変数の関連性の検定であるのに対して、マクネマー検定は、「質問AにYESと回答し質問B にNOと回答したものと、