More Related Content Similar to [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析 Similar to [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析 (20) More from Yohei Sato (20) [Tokyor08] Rによるデータサイエンス第2部 第3章 対応分析1. Rによるデータサイエンス
第Ⅱ部 第3章 対応分析
@yokkuns : 里 洋平
第8回R勉強会@東京(Tokyo.R#08)
2010/08/28
2. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
3. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
4. 自己紹介
id : yokkuns
名前 : 里 洋平
所属 : tkul、Tokyo.R、数式ニヤニヤ勉強会
確率統計とかデータマイニング、機械学習など勉強中
です。
プログラミング言語は、C/C+
+/Perl/Ruby/PHP/R/JS/Javaとかやってます。
最近、Androidアプリにも手を出し始めました
5. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
6. 対応分析とは
クロス表の行と列の関連を見える形にするための方法
質的データの主成分分析
ピアソンのカイ二乗統計量と密接な関係がある
7. 対応分析の例 – データ
caithデータ
イギリスに住んでる人々の目の色と髪の色に関して
5387人を対象として行った結果
fair red medium dark black
blue 326 38 241 110 3
light 688 116 584 188 4
medium 343 84 909 412 26
dark 98 48 403 681 85
8. 対応分析の例 – バイプロット
目の色
髪の色
目の色がdarkの人は髪がbalckの人が多く、
髪の色がfairの人は目の色がblueかlightの人が多いことが分かる
9. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
10. 主成分分析
多変量データの次元圧縮を行う手法
変数間の相関を排除し出来るだけ少ない情報の損失で、少ない
合成変数に縮約
情報 = 分散
散布図において、分散が最大になる軸を求め、その軸にデータ
を射影
11. 主成分の求め方
対象データの分散共分散行列の
固有値問題に帰着
分散共分散行列
固有値
= 主成分上での分散
固有値問題
固有ベクトル
= 主成分
12. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
13. データの尺度
質的データ
記号とか文字列で表すデータ
量的データ
数値で表すデータ
変数 尺度 説明 可能な演算 例
名義 名義的に付与した数値 違いの比較 都道府県コード
質的
順序 付与された数値に順序関係がつく 大小の比較 成績区分
間隔 順序と数値の差に意味がある 足し算、引き算 気温
量的
比例 差と比に意味がある 掛け算、割り算 重さ、長さ、容量
14. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
15. 質的データの比較
対応分析は、クロス集計したデータが分析対象
クロス表は、量的データの散布図に相当するもの
fair red medium dark black
blue 326 38 241 110 3
light 688 116 584 188 4
medium 343 84 909 412 26
dark 98 48 403 681 85
16. 質的データの比較
対応分析は、クロス集計したデータが分析対象
クロス表は、量的データの散布図に相当するもの
fair red medium dark black
blue 326 38 241 110 3
light 688 116 584 188 4
medium 343 84 909 412 26
dark 98 48 403 681 85
このクロス表の値に対して以下の事が可能か?
• 平均や標準偏差を求める
• 主成分分析などの、原則「量的データを対象とした手法の適用
19. 質的データは比率で比較する
各行及び列は異なる反応数を持つため
各セルの実際の度数を比較できない
データ全体数に対する比率で比較する
20. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
21. 独立性の検定
帰無仮説H : 2変数は独立である
検定統計量 : ピアソンのカイ二乗検定量
26. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
30. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
34. 対応分析の考え方
多次元空間へ
布置
変換
行方向の基準化(プロフィル)
35. 対応分析の考え方
多次元空間へ
次元縮約
布置
変換
行方向の基準化(プロフィル)
36. 対応分析の考え方
多次元空間へ
次元縮約
布置
変換
行方向の基準化(プロフィル)
列方向の基準化(プロフィル)
変換
次元縮約
多次元空間へ
布置
37. 対応分析の考え方
多次元空間へ
次元縮約
布置
変換
行方向の基準化(プロフィル)
同時布置
列方向の基準化(プロフィル)
変換
次元縮約
多次元空間へ
布置
42. プロフィルを多次元空間に布置
c=3の場合、三次元空間
1
1
行方向に基準化されているため
1
多次元空間から相関構造を
という平面上に全ての点が乗る 把握するのは困難なため
次元圧縮を行う
45. 多次元空間で次元圧縮
多次元空間で次元圧縮したい
(主成分分析がしたい)
分散共分散行列が欲しい
46. 多次元空間で次元圧縮
多次元空間で次元圧縮したい
(主成分分析がしたい)
分散共分散行列が欲しい
47. 多次元空間で次元圧縮
多次元空間で次元圧縮したい
(主成分分析がしたい)
分散共分散行列が欲しい
カテゴリ間の距離を定義
(カイ二乗距離)
48. 多次元空間で次元圧縮
多次元空間で次元圧縮したい
(主成分分析がしたい)
分散共分散行列が欲しい
カテゴリ間の距離を定義
(カイ二乗距離)
49. 多次元空間で次元圧縮
多次元空間で次元圧縮したい
(主成分分析がしたい)
分散共分散行列が欲しい
カテゴリ間の距離を定義
(カイ二乗距離)
分散共分散行列を作ったときに、
カテゴリ間の距離がカイ二乗距離になるような変換
50. 多次元空間で次元圧縮
ここで
Xに対して分散共分散行列を作成
それに対して主成分分析を行う
分散共分散行列
固有値
= 主成分上での分散
固有値問題
固有ベクトル
= 主成分
54. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
55. Rによる演習 – 関数
パッケージMASS
対応分析法 : corresp(data, nf=n)
data : データオブジェクト
nf : 求める主成分数
多重対応分析法 : mca(df, nf = 2, abbrev = FALSE)
df : データフレーム
nf : 求める主成分数
abbrev : データラベルのレベル
56. Rによる演習 – データ
caithデータ
イギリスに住んでる人々の目の色と髪の色に関して
5387人を対象として行った結果
fair red medium dark black
blue 326 38 241 110 3
light 688 116 584 188 4
medium 343 84 909 412 26
dark 98 48 403 681 85
60. まとめ
対応分析とは
質的データの主成分分析
Rで使うには
MASSパッケージのcorresp関数
61. AGENDA
自己紹介
対応分析とは
主成分分析
データの尺度
質的データの比較
独立性の検定(ピアソンのカイ二乗検定)
ピアソンのカイ二乗統計量と対応分析
対応分析の考え方
Rによる演習
最後に
63. 参考文献
Rによるデータサイエンス - データ解析の基礎から最新手法まで
多次元データ解析法 (Rで学ぶデータサイエンス 2)
カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)
対応分析法・数量化法III 類の考え方
対応分析によるデータ解析 [ 480.54KB ] - 対応分析によるデータ解析*