主成分分析 (Principal Component Analysis, PCA) の実用的方法

主成分分析 (Principal Component Analysis, PCA) は広く知られた分析方法ですが、意外と、どういう手順で行えばよいか、何に気をつければよいか、結果をどう見ればよいか知らない方もいらっしゃると思います。ここではそのような疑問にすべて答える形で主成分分析の使い方を説明します。

PCAは以下の手順で行います。

① センタリングする (変数ごとにその変数の平均を引いて平均を0にする)
最初にセンタリングをしなければならないことは非常に重要ですが、意外と、あまり他には書かれていません。PCAは軸の回転であるため、センタリングしてデータ分布の中心を0にしないと上手くいきません。

② スケーリングする (変数ごとにその変数の標準偏差で割って標準偏差を1にする)
これは任意ですが基本的には実行することが望ましいです。

③ PCAを実行してスコアとローディングを得る

④ 成分数ごとの寄与率や累積寄与率を確認する
寄与率が各主成分の持つ情報量を表します。第一主成分や第二主成分で寄与率が高いとデータの見える化がやりやすいです。

⑤ 第一主成分軸 vs. 第二主成分軸 のプロットを確認する
最も情報量の大きい二軸で確認します。この際に、各軸の寄与率もしっかりと示します。

⑥ 第一主成分軸 vs. 第三主成分軸 のプロットを確認する
第二主成分軸までで情報量が不十分な場合は、第三主成分も確認します。寄与率によっては第四主成分以降も確認します。どの程度の寄与率であれば情報量が十分か判断するため、最初のデータセットにノイズがどの程度含まれるかが参考になります。例えば5%くらいがノイズであると考えられる場合は、累積寄与率が95%程度であれば十分といえます。

⑦ これ以降の解析でも主成分軸を使用する場合は、使用する主成分軸の数を決める
累積寄与率を見ながら使用する主成分軸の数を決めます。例えば最初のデータセットには5%くらいノイズが含まれると考えられる場合は、累積寄与率が95%になるまでの主成分軸を使用することで、それ以降の軸はノイズとして除去することができます。

プログラムはコピペだけでPCAが可能になるのものがこちらにあります。スマホでできるPCAのプログラムはこちらです。ぜひご利用ください。

この記事が気に入ったらサポートをしてみませんか?