SlideShare a Scribd company logo
1 of 64
Download to read offline
Rによるデータサイエンス
    第Ⅱ部 第3章 対応分析

       @yokkuns : 里 洋平
第8回R勉強会@東京(Tokyo.R#08)
              2010/08/28
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
自己紹介
   id : yokkuns
   名前 : 里 洋平
   所属 : tkul、Tokyo.R、数式ニヤニヤ勉強会
   確率統計とかデータマイニング、機械学習など勉強中
    です。
   プログラミング言語は、C/C+
    +/Perl/Ruby/PHP/R/JS/Javaとかやってます。
   最近、Androidアプリにも手を出し始めました
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
対応分析とは
   クロス表の行と列の関連を見える形にするための方法
   質的データの主成分分析
   ピアソンのカイ二乗統計量と密接な関係がある
対応分析の例 – データ
                    caithデータ
      イギリスに住んでる人々の目の色と髪の色に関して
          5387人を対象として行った結果


             fair    red   medium   dark   black

     blue    326     38     241     110     3

     light   688     116    584     188     4

    medium   343     84     909     412     26

     dark    98      48     403     681     85
対応分析の例 – バイプロット


       目の色
       髪の色




目の色がdarkの人は髪がbalckの人が多く、
髪の色がfairの人は目の色がblueかlightの人が多いことが分かる
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
主成分分析
   多変量データの次元圧縮を行う手法
   変数間の相関を排除し出来るだけ少ない情報の損失で、少ない
    合成変数に縮約
       情報 = 分散
   散布図において、分散が最大になる軸を求め、その軸にデータ
    を射影
主成分の求め方
     対象データの分散共分散行列の
        固有値問題に帰着


分散共分散行列

                固有値
                = 主成分上での分散


      固有値問題
                固有ベクトル
                = 主成分
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
データの尺度

   質的データ
     記号とか文字列で表すデータ

   量的データ
     数値で表すデータ


    変数   尺度          説明         可能な演算        例
         名義   名義的に付与した数値        違いの比較     都道府県コード
    質的
         順序   付与された数値に順序関係がつく   大小の比較      成績区分

         間隔   順序と数値の差に意味がある     足し算、引き算     気温
    量的
         比例   差と比に意味がある         掛け算、割り算   重さ、長さ、容量
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
質的データの比較
   対応分析は、クロス集計したデータが分析対象
   クロス表は、量的データの散布図に相当するもの

             fair   red   medium   dark   black

     blue    326    38     241     110     3


     light   688    116    584     188     4


    medium   343    84     909     412     26



     dark    98     48     403     681     85
質的データの比較
       対応分析は、クロス集計したデータが分析対象
       クロス表は、量的データの散布図に相当するもの

                 fair   red   medium   dark   black

         blue    326    38     241     110     3


         light   688    116    584     188     4


        medium   343    84     909     412     26



         dark    98     48     403     681     85




    このクロス表の値に対して以下の事が可能か?

    •     平均や標準偏差を求める
    •     主成分分析などの、原則「量的データを対象とした手法の適用
質的データは比率で比較する


    各行及び列は異なる反応数を持つため
     各セルの実際の度数を比較できない
質的データは比率で比較する


    各行及び列は異なる反応数を持つため
     各セルの実際の度数を比較できない
質的データは比率で比較する


    各行及び列は異なる反応数を持つため
     各セルの実際の度数を比較できない




   データ全体数に対する比率で比較する
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
独立性の検定




         帰無仮説H : 2変数は独立である
         検定統計量 : ピアソンのカイ二乗検定量
独立性の検定の考え方 – i行が出現する確率




           i行が出現する確率
独立性の検定の考え方 – j列が出現する確率




           j列が出現する確率
独立性の検定の考え方 – i行j列が出現する確率




      独立の場合に、i行j列が出現する確率
独立性の検定の考え方 – 理論値との剥離

        各セルのカイ二乗検定量



       確率分布が自由度1のカイ二乗分布に従う



        カイ二乗検定量の合計




       確率分布は自由度n-2のカイ二乗分布に従う
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
ピアソンのカイ二乗統計量と対応分析

 カイ二乗統計量は、一種の距離であるが、独立性の検定では、
 「2項目の間に何か関係があるだろう」しか分からない
 どんな関係があるのかが知りたい
ピアソンのカイ二乗統計量と対応分析

 カイ二乗統計量は、一種の距離であるが、独立性の検定では、
 「2項目の間に何か関係があるだろう」しか分からない
 どんな関係があるのかが知りたい
ピアソンのカイ二乗統計量と対応分析

 カイ二乗統計量は、一種の距離であるが、独立性の検定では、
 「2項目の間に何か関係があるだろう」しか分からない
 どんな関係があるのかが知りたい




 ベンゼリクは、2項目の関連性を主成分分析型手法とすることで
 固有値(=相関の情報)の大きさで測ることを可能にした。

 固有値とピアソンのカイ二乗統計量が次のように関連付けた
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
対応分析の考え方
対応分析の考え方




行方向の基準化(プロフィル)
対応分析の考え方


        変換




行方向の基準化(プロフィル)
対応分析の考え方
                 多次元空間へ
                   布置
        変換




行方向の基準化(プロフィル)
対応分析の考え方
                 多次元空間へ
                          次元縮約
                   布置
        変換




行方向の基準化(プロフィル)
対応分析の考え方
                 多次元空間へ
                          次元縮約
                   布置
        変換




行方向の基準化(プロフィル)




列方向の基準化(プロフィル)




        変換
                          次元縮約
                 多次元空間へ
                   布置
対応分析の考え方
                 多次元空間へ
                          次元縮約
                   布置
        変換




行方向の基準化(プロフィル)

                           同時布置

列方向の基準化(プロフィル)




        変換
                          次元縮約
                 多次元空間へ
                   布置
クロス集計表の相対度数




                個体の周辺確率 :
                 xの周辺確率 :
              個体とxの同時確率 :
行方向の基準化(行プロフィル)

                  各行の相対度数を各行和で割った
                  条件付確率
プロフィルを多次元空間に布置
        c=3の場合、三次元空間


                       1




                           1

                  1
プロフィルを多次元空間に布置
         c=3の場合、三次元空間


                        1




                            1
  行方向に基準化されているため
                   1
  という平面上に全ての点が乗る
プロフィルを多次元空間に布置
         c=3の場合、三次元空間


                        1




                                   1
  行方向に基準化されているため
                   1
                            多次元空間から相関構造を
  という平面上に全ての点が乗る            把握するのは困難なため
                            次元圧縮を行う
多次元空間で次元圧縮
       多次元空間で次元圧縮したい
        (主成分分析がしたい)
多次元空間で次元圧縮
       多次元空間で次元圧縮したい
        (主成分分析がしたい)
多次元空間で次元圧縮
       多次元空間で次元圧縮したい
        (主成分分析がしたい)



        分散共分散行列が欲しい
多次元空間で次元圧縮
       多次元空間で次元圧縮したい
        (主成分分析がしたい)



        分散共分散行列が欲しい
多次元空間で次元圧縮
       多次元空間で次元圧縮したい
        (主成分分析がしたい)



        分散共分散行列が欲しい



        カテゴリ間の距離を定義
          (カイ二乗距離)
多次元空間で次元圧縮
       多次元空間で次元圧縮したい
        (主成分分析がしたい)



        分散共分散行列が欲しい



        カテゴリ間の距離を定義
          (カイ二乗距離)
多次元空間で次元圧縮
       多次元空間で次元圧縮したい
        (主成分分析がしたい)



        分散共分散行列が欲しい



        カテゴリ間の距離を定義
          (カイ二乗距離)



       分散共分散行列を作ったときに、
   カテゴリ間の距離がカイ二乗距離になるような変換
多次元空間で次元圧縮


              ここで


       Xに対して分散共分散行列を作成
        それに対して主成分分析を行う


 分散共分散行列
                     固有値
                     = 主成分上での分散
             固有値問題

                     固有ベクトル
                     = 主成分
多次元空間で次元圧縮

    数量化得点 ・・・主成分分析における主成分得点
多次元空間で次元圧縮


     Xを転置して同じような計算すれば、
      項目xの数量化得点が計算できる
布置図と同時布置図
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
Rによる演習 – 関数

                パッケージMASS


           対応分析法 : corresp(data, nf=n)
              data : データオブジェクト
                nf : 求める主成分数



     多重対応分析法 : mca(df, nf = 2, abbrev = FALSE)
             df : データフレーム
            nf : 求める主成分数
         abbrev : データラベルのレベル
Rによる演習 – データ

                     caithデータ
       イギリスに住んでる人々の目の色と髪の色に関して
           5387人を対象として行った結果


              fair    red   medium   dark   black

      blue    326     38     241     110     3

      light   688     116    584     188     4

     medium   343     84     909     412     26

      dark    98      48     403     681     85
Rによる演習 – Rのソースコード

                    min(行数, 列数)
Rによる演習 – 数量化得点
Rによる演習 - biplot
まとめ

   対応分析とは
     質的データの主成分分析

   Rで使うには
     MASSパッケージのcorresp関数
AGENDA
   自己紹介
   対応分析とは
   主成分分析
   データの尺度
   質的データの比較
   独立性の検定(ピアソンのカイ二乗検定)
   ピアソンのカイ二乗統計量と対応分析
   対応分析の考え方
   Rによる演習
   最後に
第9回R勉強会@東京(Tokyo.R#09)
     発表者募集中!
参考文献

        Rによるデータサイエンス - データ解析の基礎から最新手法まで




        多次元データ解析法 (Rで学ぶデータサイエンス 2)




        カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1)




対応分析法・数量化法III 類の考え方
対応分析によるデータ解析 [ 480.54KB ] - 対応分析によるデータ解析*
ご清聴ありがとうございました

More Related Content

What's hot

心理学のためのPsychパッケージ
心理学のためのPsychパッケージ心理学のためのPsychパッケージ
心理学のためのPsychパッケージ考司 小杉
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにShushi Namba
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説Shiga University, RIKEN
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
Visual Studio CodeでRを使う
Visual Studio CodeでRを使うVisual Studio CodeでRを使う
Visual Studio CodeでRを使うAtsushi Hayakawa
 
YamadaiR(Categorical Factor Analysis)
YamadaiR(Categorical Factor Analysis)YamadaiR(Categorical Factor Analysis)
YamadaiR(Categorical Factor Analysis)考司 小杉
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成Prunus 1350
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)Yoshitake Takebayashi
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知hagino 3000
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Hiroshi Shimizu
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式Hiroshi Nakagawa
 
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ーDiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ーTakashi Yamane
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析Mitsuo Shimohata
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)itoyan110
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回Hikaru GOTO
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎Ken'ichi Matsui
 

What's hot (20)

心理学のためのPsychパッケージ
心理学のためのPsychパッケージ心理学のためのPsychパッケージ
心理学のためのPsychパッケージ
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
潜在クラス分析
潜在クラス分析潜在クラス分析
潜在クラス分析
 
Rの高速化
Rの高速化Rの高速化
Rの高速化
 
MICの解説
MICの解説MICの解説
MICの解説
 
因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説因果探索: 基本から最近の発展までを概説
因果探索: 基本から最近の発展までを概説
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
Visual Studio CodeでRを使う
Visual Studio CodeでRを使うVisual Studio CodeでRを使う
Visual Studio CodeでRを使う
 
YamadaiR(Categorical Factor Analysis)
YamadaiR(Categorical Factor Analysis)YamadaiR(Categorical Factor Analysis)
YamadaiR(Categorical Factor Analysis)
 
パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成パターン認識と機械学習 §6.2 カーネル関数の構成
パターン認識と機械学習 §6.2 カーネル関数の構成
 
第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)第4回DARM勉強会 (構造方程式モデリング)
第4回DARM勉強会 (構造方程式モデリング)
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式クラシックな機械学習入門:付録:よく使う線形代数の公式
クラシックな機械学習入門:付録:よく使う線形代数の公式
 
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ーDiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
DiagrammeRと仲良くなった話ーグラフィカルモデルのためのDiagrammeR速習ー
 
質的変数の相関・因子分析
質的変数の相関・因子分析質的変数の相関・因子分析
質的変数の相関・因子分析
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
 
統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 

Similar to [Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析

K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variablet2tarumi
 
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散Seiichi Uchida
 
LS for Reinforcement Learning
LS for Reinforcement LearningLS for Reinforcement Learning
LS for Reinforcement Learningimlschedules
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度Seiichi Uchida
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析Akisato Kimura
 
Anova君を使った分散分析
Anova君を使った分散分析Anova君を使った分散分析
Anova君を使った分散分析Takashi Yamane
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなしToru Imai
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布Seiichi Uchida
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺についてKeisuke Hosaka
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoSatoshi Kato
 
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析Seiichi Uchida
 
第1回R勉強会@東京
第1回R勉強会@東京第1回R勉強会@東京
第1回R勉強会@東京Yohei Sato
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
テキストマイニング930
テキストマイニング930テキストマイニング930
テキストマイニング930mina127
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」Naoki Hayashi
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション考司 小杉
 
Stat r 9_principal
Stat r 9_principalStat r 9_principal
Stat r 9_principalfusion2011
 

Similar to [Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析 (20)

K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
 
データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散データサイエンス概論第一=1-3 平均と分散
データサイエンス概論第一=1-3 平均と分散
 
LS for Reinforcement Learning
LS for Reinforcement LearningLS for Reinforcement Learning
LS for Reinforcement Learning
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
MIRU2011 OS1-2 拡張ペアワイズ表現を用いた一般化多変量解析
 
Anova君を使った分散分析
Anova君を使った分散分析Anova君を使った分散分析
Anova君を使った分散分析
 
幾何を使った統計のはなし
幾何を使った統計のはなし幾何を使った統計のはなし
幾何を使った統計のはなし
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
Oracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslassoOracle property and_hdm_pkg_rigorouslasso
Oracle property and_hdm_pkg_rigorouslasso
 
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
 
第1回R勉強会@東京
第1回R勉強会@東京第1回R勉強会@東京
第1回R勉強会@東京
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
多変量解析
多変量解析多変量解析
多変量解析
 
テキストマイニング930
テキストマイニング930テキストマイニング930
テキストマイニング930
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
修士論文発表:「非負値行列分解における漸近的Bayes汎化誤差」
 
Yamadai.Rデモンストレーションセッション
Yamadai.RデモンストレーションセッションYamadai.Rデモンストレーションセッション
Yamadai.Rデモンストレーションセッション
 
Stat r 9_principal
Stat r 9_principalStat r 9_principal
Stat r 9_principal
 
Swim_2013_02_19_jpn
Swim_2013_02_19_jpnSwim_2013_02_19_jpn
Swim_2013_02_19_jpn
 

More from Yohei Sato

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Yohei Sato
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 openingYohei Sato
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みYohei Sato
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Yohei Sato
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2Yohei Sato
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkunsYohei Sato
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介Yohei Sato
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan rYohei Sato
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生Yohei Sato
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例Yohei Sato
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略Yohei Sato
 
Rでレポートメール
RでレポートメールRでレポートメール
RでレポートメールYohei Sato
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデルYohei Sato
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
RでピボットテーブルYohei Sato
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッションYohei Sato
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusionYohei Sato
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkunsYohei Sato
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusionYohei Sato
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift ModellingYohei Sato
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolationYohei Sato
 

More from Yohei Sato (20)

Tokyor60 r data_science_part1
Tokyor60 r data_science_part1Tokyor60 r data_science_part1
Tokyor60 r data_science_part1
 
Tokyor60 opening
Tokyor60 openingTokyor60 opening
Tokyor60 opening
 
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組みTokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み
 
Tokyor42_r_datamining_18
Tokyor42_r_datamining_18Tokyor42_r_datamining_18
Tokyor42_r_datamining_18
 
Tokyor42 ggplot2
Tokyor42 ggplot2Tokyor42 ggplot2
Tokyor42 ggplot2
 
Tokyor39 yokkuns
Tokyor39 yokkunsTokyor39 yokkuns
Tokyor39 yokkuns
 
EasyHtmlReportの紹介
EasyHtmlReportの紹介EasyHtmlReportの紹介
EasyHtmlReportの紹介
 
20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Tokyor35 人工データの発生
Tokyor35 人工データの発生Tokyor35 人工データの発生
Tokyor35 人工データの発生
 
ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例ドリコムの分析環境とデータサイエンス活用事例
ドリコムの分析環境とデータサイエンス活用事例
 
R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略R言語で学ぶマーケティング分析 競争ポジショニング戦略
R言語で学ぶマーケティング分析 競争ポジショニング戦略
 
Rでレポートメール
RでレポートメールRでレポートメール
Rでレポートメール
 
Rで階層ベイズモデル
Rで階層ベイズモデルRで階層ベイズモデル
Rで階層ベイズモデル
 
Rでピボットテーブル
RでピボットテーブルRでピボットテーブル
Rでピボットテーブル
 
第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション第3回Japan rパネルディスカッション
第3回Japan rパネルディスカッション
 
Tokyor26 data fusion
Tokyor26 data fusionTokyor26 data fusion
Tokyor26 data fusion
 
Tokyor24 yokkuns
Tokyor24 yokkunsTokyor24 yokkuns
Tokyor24 yokkuns
 
Tokyowebmining19 data fusion
Tokyowebmining19 data fusionTokyowebmining19 data fusion
Tokyowebmining19 data fusion
 
傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling傾向スコア解析とUplift Modelling
傾向スコア解析とUplift Modelling
 
Complex network ws_percolation
Complex network ws_percolationComplex network ws_percolation
Complex network ws_percolation
 

[Tokyor08] Rによるデータサイエンス 第2部 第3章 対応分析

  • 1. Rによるデータサイエンス 第Ⅱ部 第3章 対応分析 @yokkuns : 里 洋平 第8回R勉強会@東京(Tokyo.R#08) 2010/08/28
  • 2. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 3. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 4. 自己紹介  id : yokkuns  名前 : 里 洋平  所属 : tkul、Tokyo.R、数式ニヤニヤ勉強会  確率統計とかデータマイニング、機械学習など勉強中 です。  プログラミング言語は、C/C+ +/Perl/Ruby/PHP/R/JS/Javaとかやってます。  最近、Androidアプリにも手を出し始めました
  • 5. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 6. 対応分析とは  クロス表の行と列の関連を見える形にするための方法  質的データの主成分分析  ピアソンのカイ二乗統計量と密接な関係がある
  • 7. 対応分析の例 – データ caithデータ イギリスに住んでる人々の目の色と髪の色に関して 5387人を対象として行った結果 fair red medium dark black blue 326 38 241 110 3 light 688 116 584 188 4 medium 343 84 909 412 26 dark 98 48 403 681 85
  • 8. 対応分析の例 – バイプロット 目の色 髪の色 目の色がdarkの人は髪がbalckの人が多く、 髪の色がfairの人は目の色がblueかlightの人が多いことが分かる
  • 9. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 10. 主成分分析  多変量データの次元圧縮を行う手法  変数間の相関を排除し出来るだけ少ない情報の損失で、少ない 合成変数に縮約  情報 = 分散  散布図において、分散が最大になる軸を求め、その軸にデータ を射影
  • 11. 主成分の求め方 対象データの分散共分散行列の 固有値問題に帰着 分散共分散行列 固有値 = 主成分上での分散 固有値問題 固有ベクトル = 主成分
  • 12. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 13. データの尺度  質的データ  記号とか文字列で表すデータ  量的データ  数値で表すデータ 変数 尺度 説明 可能な演算 例 名義 名義的に付与した数値 違いの比較 都道府県コード 質的 順序 付与された数値に順序関係がつく 大小の比較 成績区分 間隔 順序と数値の差に意味がある 足し算、引き算 気温 量的 比例 差と比に意味がある 掛け算、割り算 重さ、長さ、容量
  • 14. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 15. 質的データの比較  対応分析は、クロス集計したデータが分析対象  クロス表は、量的データの散布図に相当するもの fair red medium dark black blue 326 38 241 110 3 light 688 116 584 188 4 medium 343 84 909 412 26 dark 98 48 403 681 85
  • 16. 質的データの比較  対応分析は、クロス集計したデータが分析対象  クロス表は、量的データの散布図に相当するもの fair red medium dark black blue 326 38 241 110 3 light 688 116 584 188 4 medium 343 84 909 412 26 dark 98 48 403 681 85 このクロス表の値に対して以下の事が可能か? • 平均や標準偏差を求める • 主成分分析などの、原則「量的データを対象とした手法の適用
  • 17. 質的データは比率で比較する 各行及び列は異なる反応数を持つため 各セルの実際の度数を比較できない
  • 18. 質的データは比率で比較する 各行及び列は異なる反応数を持つため 各セルの実際の度数を比較できない
  • 19. 質的データは比率で比較する 各行及び列は異なる反応数を持つため 各セルの実際の度数を比較できない データ全体数に対する比率で比較する
  • 20. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 21. 独立性の検定 帰無仮説H : 2変数は独立である 検定統計量 : ピアソンのカイ二乗検定量
  • 24. 独立性の検定の考え方 – i行j列が出現する確率 独立の場合に、i行j列が出現する確率
  • 25. 独立性の検定の考え方 – 理論値との剥離 各セルのカイ二乗検定量 確率分布が自由度1のカイ二乗分布に従う カイ二乗検定量の合計 確率分布は自由度n-2のカイ二乗分布に従う
  • 26. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 29. ピアソンのカイ二乗統計量と対応分析 カイ二乗統計量は、一種の距離であるが、独立性の検定では、 「2項目の間に何か関係があるだろう」しか分からない どんな関係があるのかが知りたい ベンゼリクは、2項目の関連性を主成分分析型手法とすることで 固有値(=相関の情報)の大きさで測ることを可能にした。 固有値とピアソンのカイ二乗統計量が次のように関連付けた
  • 30. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 33. 対応分析の考え方 変換 行方向の基準化(プロフィル)
  • 34. 対応分析の考え方 多次元空間へ 布置 変換 行方向の基準化(プロフィル)
  • 35. 対応分析の考え方 多次元空間へ 次元縮約 布置 変換 行方向の基準化(プロフィル)
  • 36. 対応分析の考え方 多次元空間へ 次元縮約 布置 変換 行方向の基準化(プロフィル) 列方向の基準化(プロフィル) 変換 次元縮約 多次元空間へ 布置
  • 37. 対応分析の考え方 多次元空間へ 次元縮約 布置 変換 行方向の基準化(プロフィル) 同時布置 列方向の基準化(プロフィル) 変換 次元縮約 多次元空間へ 布置
  • 38. クロス集計表の相対度数 個体の周辺確率 : xの周辺確率 : 個体とxの同時確率 :
  • 39. 行方向の基準化(行プロフィル) 各行の相対度数を各行和で割った 条件付確率
  • 40. プロフィルを多次元空間に布置 c=3の場合、三次元空間 1 1 1
  • 41. プロフィルを多次元空間に布置 c=3の場合、三次元空間 1 1 行方向に基準化されているため 1 という平面上に全ての点が乗る
  • 42. プロフィルを多次元空間に布置 c=3の場合、三次元空間 1 1 行方向に基準化されているため 1 多次元空間から相関構造を という平面上に全ての点が乗る 把握するのは困難なため 次元圧縮を行う
  • 43. 多次元空間で次元圧縮 多次元空間で次元圧縮したい (主成分分析がしたい)
  • 44. 多次元空間で次元圧縮 多次元空間で次元圧縮したい (主成分分析がしたい)
  • 45. 多次元空間で次元圧縮 多次元空間で次元圧縮したい (主成分分析がしたい) 分散共分散行列が欲しい
  • 46. 多次元空間で次元圧縮 多次元空間で次元圧縮したい (主成分分析がしたい) 分散共分散行列が欲しい
  • 47. 多次元空間で次元圧縮 多次元空間で次元圧縮したい (主成分分析がしたい) 分散共分散行列が欲しい カテゴリ間の距離を定義 (カイ二乗距離)
  • 48. 多次元空間で次元圧縮 多次元空間で次元圧縮したい (主成分分析がしたい) 分散共分散行列が欲しい カテゴリ間の距離を定義 (カイ二乗距離)
  • 49. 多次元空間で次元圧縮 多次元空間で次元圧縮したい (主成分分析がしたい) 分散共分散行列が欲しい カテゴリ間の距離を定義 (カイ二乗距離) 分散共分散行列を作ったときに、 カテゴリ間の距離がカイ二乗距離になるような変換
  • 50. 多次元空間で次元圧縮 ここで Xに対して分散共分散行列を作成 それに対して主成分分析を行う 分散共分散行列 固有値 = 主成分上での分散 固有値問題 固有ベクトル = 主成分
  • 51. 多次元空間で次元圧縮 数量化得点 ・・・主成分分析における主成分得点
  • 52. 多次元空間で次元圧縮 Xを転置して同じような計算すれば、 項目xの数量化得点が計算できる
  • 54. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 55. Rによる演習 – 関数 パッケージMASS 対応分析法 : corresp(data, nf=n) data : データオブジェクト nf : 求める主成分数 多重対応分析法 : mca(df, nf = 2, abbrev = FALSE) df : データフレーム nf : 求める主成分数 abbrev : データラベルのレベル
  • 56. Rによる演習 – データ caithデータ イギリスに住んでる人々の目の色と髪の色に関して 5387人を対象として行った結果 fair red medium dark black blue 326 38 241 110 3 light 688 116 584 188 4 medium 343 84 909 412 26 dark 98 48 403 681 85
  • 60. まとめ  対応分析とは  質的データの主成分分析  Rで使うには  MASSパッケージのcorresp関数
  • 61. AGENDA  自己紹介  対応分析とは  主成分分析  データの尺度  質的データの比較  独立性の検定(ピアソンのカイ二乗検定)  ピアソンのカイ二乗統計量と対応分析  対応分析の考え方  Rによる演習  最後に
  • 63. 参考文献 Rによるデータサイエンス - データ解析の基礎から最新手法まで 多次元データ解析法 (Rで学ぶデータサイエンス 2) カテゴリカルデータ解析 (Rで学ぶデータサイエンス 1) 対応分析法・数量化法III 類の考え方 対応分析によるデータ解析 [ 480.54KB ] - 対応分析によるデータ解析*