Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

10分でわかる主成分分析(PCA)

61,347 views

Published on

10分でわかる主成分分析(PCA)

Published in: Data & Analytics
  • Be the first to comment

10分でわかる主成分分析(PCA)

  1. 1. Innovation -Design the Blooming Future- 10分でわかる主成分分析(PCA)
  2. 2. Self Introduction 緒方 貴紀 (ABEJA Inc.) Computer Vision やMachine Learning, Deep Learningの研究開発をやっています
  3. 3. PCA(Principal Component Analysis, 主成分分析)とは
  4. 4. PCA(Principal Component Analysis, 主成分分析)とは 主成分分析(しゅせいぶんぶんせき、英語: principal component analysis、PCAと略すこともあ る)は、直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に 変換するための数学的な手続きのことである。主成分分析は、1901年にカール・ピアソンによっ て開発された手法である。KL展開(Karhunen-Loève expansion)とも呼ばれる。主成分は、分 散共分散行列(あるいは相関係数行列)に対する固有値分解あるいは、分散共分散行列(相関係 数行列)に対応した偏差行列(相関係数行列の場合には標準化された行列)の特異値分解によっ て得ることができる。主成分分析の結果は、元の観測値(対象)に対応した変換後の値である主 成分得点と、各々の主成分得点に対する変数の重みに相当する主成分負荷量として得られ、一般 的にはこの2つの状況をそれぞれに可視化した主成分プロット、あるいは2つの図を重ねあわせた バイプロットを通して結果を解釈する。主成分分析を実行するためのソフトウェアや関数によっ て、観測値の基準化の方法や数値計算のアルゴリズムに微細な差異が多く存在し、必ずしも全く 同じ値が出るとは限らない(例えば、Rにおけるprcomp関数とFactoMineRのPCA関数の結果は 異なる)。 by wikipedia http://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
  5. 5. PCA(Principal Component Analysis, 主成分分析)とは 主成分分析(しゅせいぶんぶんせき、英語: principal component analysis、PCAと略すこともあ る)は、直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に 変換するための数学的な手続きのことである。主成分分析は、1901年にカール・ピアソンによっ て開発された手法である。KL展開(Karhunen-Loève expansion)とも呼ばれる。主成分は、分 散共分散行列(あるいは相関係数行列)に対する固有値分解あるいは、分散共分散行列(相関係 数行列)に対応した偏差行列(相関係数行列の場合には標準化された行列)の特異値分解によっ て得ることができる。主成分分析の結果は、元の観測値(対象)に対応した変換後の値である主 成分得点と、各々の主成分得点に対する変数の重みに相当する主成分負荷量として得られ、一般 的にはこの2つの状況をそれぞれに可視化した主成分プロット、あるいは2つの図を重ねあわせた バイプロットを通して結果を解釈する。主成分分析を実行するためのソフトウェアや関数によっ て、観測値の基準化の方法や数値計算のアルゴリズムに微細な差異が多く存在し、必ずしも全く 同じ値が出るとは限らない(例えば、Rにおけるprcomp関数とFactoMineRのPCA関数の結果は 異なる)。 by wikipedia http://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
  6. 6. PCA(Principal Component Analysis, 主成分分析)とは ・教師なし学習の1つ ・データの分散(ばらつき)が大きいところ(主成分)をみつける ・分散が大きいところが大事,小さいところはあまり気にしない https://sites.google.com/site/csci5740g/home/topics-lectures/svdandpca
  7. 7. PCAのアルゴリズム(ざっくり) 1. 全データの重心を求める(平均値) 2. 重心からデータの分散(ばらつき)が最大となる方向を見つける 2. 新しいデータ表現軸として1.で求めた方向を基底にする 3. 上記でとった軸と直交する方向に対して分散が最大となる方向を探す 4. 2.∼3.を元のデータの次元分だけくり返す https://sites.google.com/site/csci5740g/home/topics-lectures/svdandpca
  8. 8. PCAがどう役に立つの? ■データの特徴を抽出するのに役立つ  データのばらつきが大きい部分に着目することで,  よりデータを識別しやすくする ■データの次元を圧縮するのに役立つ  データのばらつきが少ない部分はデータに共通するパターンなので,  あまり意味を成さない  -> 無視しちゃう ■多次元特徴量の可視化に役立つ  多次元データは人間には認識不可能  ->データのばらつきが大きいところを見ることでデータの関係性を判断する
  9. 9. くわしくは... http://nbviewer.ipython.org/github/contaconta/ PCA_lecture/blob/master/PCA.ipynb
  10. 10. Let's try! $ git clone https://github.com/contaconta/PCA_lecture $ pip install “ipython[notebook]” $ cd PCA_lecture $ pip install -r requirements.txt $ ipython notebook PCA.ipynb

×