SlideShare a Scribd company logo
1 of 21
ANALISI DELLE
COMPONENTI PRINCIPALI
Paola Pozzolo
sos.unistat@gmail.com
Matrice Dati (n x p)
Colonne = Variabili quantitative
X1 X2 X3 … Xj … Xp
1 x11 x12 x1j x1p
2 x21
3
…
i xi1
…
n xn1 xnj xnp
Righe= Unità PROFILO INDIVIDUALE
Obiettivo:
Ridurre il numero di variabili (da p a q<p) in presenza di un insieme di
variabili fortemente correlate (= informazioni ridondanti)
FATTORIZZAZIONE
Comprende una serie di metodi per distinguere le variabili che
spiegano la maggior parte dell’informazione :
Varianza alta = Punti dispersi = Maggiore spiegabilità
 ANALISI CORRISPONDENZE (variabili qualitative)
ANALISI DELLE COMPONENTI PRINCIPALI (variabili quantitative)
Se non ci sono correlazioni significative tra le variabili
metodi fattorizzazione non attuabili
Per correlazioni significative si intende che almeno la metà dei coefficienti
di correlazione siano maggiori di |0.3|.
Altrimenti, ciascuna variabile rappresenterebbe una dimensione a se stante,
una CP.
E se le variabili fossero invece tutte altamente correlate?
Ci sarebbe una sola CP che spiegherebbe quasi il 100% della variabilità
totale della nuvola dei punti originaria e quindi la ricerca di dimensioni
sottostanti le variabili originarie non avrebbe senso.
PREMESSA FONDAMENTALE: LA CORRELAZIONE
Matrice Varianze /Covarianze
X1 X2
X1 Var(X1) Cov(X1,X2)
X2 Cov(X2,X1) Var(X2)
Diagonale principale = Varianze
N.B. COVARIANZA STANDARDIZZATA = CORRELAZIONE
In termini matematici…
Descrivere la variabilità globale di un insieme di variabili mediante un
sottoinsieme di nuove variabili, dette componenti principali, tra loro
incorrelate (=indipendenti) ottenute come combinazioni lineari delle
variabili originarie ed ordinate in modo tale che la prima componente
sintetizzi la quota massima di variabilità:
in cui il coefficiente rappresenta il peso (loading) che ogni
variabile ha nel determinare la componente stessa e permette
l’interpretazione della componente stessa.
pipiiii
pp
XaXaXaXaY
XaXaXaXaY


...
...
332211
13132121111
ija
iX
Scelta del numero di componenti:
•Scree Plot: considero le componenti il cui autovalore è più alto del
punto di esso o “gomito" (Harman, 1976);
•Soglia di varianza cumulata: trattengo solo le componenti principali
che consentono di ottenere una variabilità cumulata pari a circa il 75-
80%. Se già la prima componente la spiega, mi fermo alla prima;
•Regola di Kaiser (Kaiser, 1960): trattengo solo le componenti principali
e gli autovettori corrispondenti ad autovalori maggiori o uguale a 1.
ACP: Ausili all’interpretazione
Contributo assoluto: indica il contribuito dato dalla variabile nella
costruzione dell’ asse fattoriale (coordinata al quadrato, rapportata
all’inerzia associata dell’ asse, autovalore).
La qualità della rappresentazione è in funzione dei contributi assoluti e
relativi dei vari punti.
ACP: Ausili all’interpretazione
Contributo relativo: indica quanto la variabile è ben rappresentata
sull’asse ricordando che la proiezione non sempre riesce a riprodurre
la distanza iniziale tra due punti.
Si calcola il quadrato del coseno dell’angolo formato dai vettori
corrispondenti al punto nello spazio originario ed alla sua proiezione.
Quanto più tale valore si avvicina ad 1 tanto più piccolo sarà l’angolo
formato dai due vettori e tanto migliore quindi la rappresentazione.
Dataset: crimini.txt (disponibile online)
Campione: i 50 stati componenti gli Stati Uniti d’America
Analisi delle componenti principali: esempio
 MURDER: numero di arresti per omicidio (su 100.000 ab.)
 ASSAULT: numero di arresti per aggressioni (su 100.000 ab.)
 URBANPOP: percentuale di popolazione urbana
 RAPE: numero di arresti per stupro (su 100.000 ab.)
Variabili analizzate
Matrice di correlazione
Grafici Autovalori
Dim1 Dim2 Dim3 Dim4
0.00.51.01.52.02.5
BAR PLOT AUTOVALORI SCREE PLOT AUTOVALORI
1 2 3 4
12
Numero Componente
Autovalori
1 2 3 4
708090100
Numero Componente
Percentualevarianzacumulata
VARIANZA CUMULATA SCELTA DEL NUMERO DI COMPONENTI:
Scree Plot: considero le componenti il cui
autovalore e piu alto del punto di esso ogomito
Soglia di varianza cumulata: trattengo solo le
componenti principali che consentono di ottenere
una variabilita cumulata pari a circa il 75-80%;
Regola di Kaiser: trattengo solo le componenti
principali il cui autovalore e maggiore o uguale a 1.
1
2
3
Matrice autovalori
- Traccia della Matrice = Inerzia Totale = Somma Autovalori.
Se le variabili originarie sono Standardizzate : Inerzia Totale =
Numero variabili originarie = 4;
- Eigenvalue = Autovalore (j)= Inerzia (varianza) spiegata dalla
j-esima componente principale;
- % of variance = parte di inerzia totale spiegata dalla j-esima
componente principale;
- cumulative % of variance = parte di inerzia totale spiegata
dalla j-esima componente principale e dalle componenti ad
essa precedenti.
Output Variabili
N.B. Nel linguaggio di R Dim.j = Comp j
N.B. Se le variabili originarie sono standardizzate:
COORDINATA = CORRELAZIONE.
Per conoscere l'importanza di ciascuna variabile rispetto ad un fattore,
è sufficiente guardare le sue coordinate (correlazioni):
più elevate sono le coordinate, più il punto e vicino sia alla
circonferenza che all'asse, più incide nella costruzione dell'asse stesso.
COORDINATE variabili/componenti: CORRELAZIONE variabili/componenti:
Output Variabili
COSENO AL QUADRATO CONTRIBUTI
N.B. E sempre vero che: COSENO2=CORRELAZIONE2
Mentre solo se le variabili originarie sono standardizzate: COSENO2=COORDINATA2
Il coseno al quadrato, o contributo relativo, risponde alla domanda:
o Quanto ciascuna componente spiega una variabile?
Il contributo, o contributo assoluto, risponde alla domanda:
o Quanto ciascuna variabile spiega (in termini di inerzia) la componente?
(Contributo assoluto medio = 100/4 = 25%)
Cerchio correlazioni: 1-2 COMPONENTE
-1.0 -0.5 0.0 0.5 1.0
-1.0-0.50.00.51.0
Variables factor map (PCA)
Dim 1 (62.01%)
Dim2(24.74%)
Murder
Assault
UrbanPop
Rape
N.B. Sono riportate solo le variabili con cos2 > 0:5 nel piano.
Grafico Individui
-4 -2 0 2 4
-3-2-1012
Individuals factor map (PCA)
Dim 1 (62.01%)
Dim2(24.74%)
Alabama Alaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
IndianaIowa
Kansas
Kentucky Louisiana
Maine Maryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
OregonPennsylvania
Rhode Island
South Carolina
South Dakota Tennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
Output Individui
COORDINATE Variabili/Componenti: CONTRIBUTO:
COSENO al QUADRATO:
Biplot: Variabili ed Individui
-0.2 -0.1 0.0 0.1 0.2 0.3
-0.2-0.10.00.10.20.3
Comp.1
Comp.2
AlabamaAlaska
Arizona
Arkansas
California
Colorado
Connecticut
Delaware
Florida
Georgia
Hawaii
Idaho
Illinois
Indiana Iowa
Kansas
Kentucky
Louisiana
MaineMaryland
Massachusetts
Michigan
Minnesota
Mississippi
Missouri
Montana
Nebraska
Nevada
New Hampshire
New Jersey
New Mexico
New York
North Carolina
North Dakota
Ohio
Oklahoma
OregonPennsylvania
Rhode Island
South Carolina
South DakotaTennessee
Texas
Utah
Vermont
Virginia
Washington
West Virginia
Wisconsin
Wyoming
-5 0 5
-505
Murder
Assault
UrbanPop
Rape
Interpretazione componenti principali
Componente 1 
indice inverso di criminalità
Componente 2 
indice di ruralità

More Related Content

Similar to ACP - Analisi delle componenti principali

Algebra lineare
Algebra lineareAlgebra lineare
Algebra lineare
Voglio 10
 
Presentazione Tesi Laurea 2010
Presentazione Tesi Laurea 2010Presentazione Tesi Laurea 2010
Presentazione Tesi Laurea 2010
Alessio Polidoro
 
Introduzione v
Introduzione vIntroduzione v
Introduzione v
imartini
 

Similar to ACP - Analisi delle componenti principali (10)

Algoritmi di ordinamento
Algoritmi di ordinamentoAlgoritmi di ordinamento
Algoritmi di ordinamento
 
Umano vs Computer: un esempio pratico
Umano vs Computer: un esempio praticoUmano vs Computer: un esempio pratico
Umano vs Computer: un esempio pratico
 
Schema Risolutivo Delle Serie
Schema Risolutivo Delle SerieSchema Risolutivo Delle Serie
Schema Risolutivo Delle Serie
 
Algebra lineare
Algebra lineareAlgebra lineare
Algebra lineare
 
Medie di calcolo e medie di posizione
Medie di calcolo e medie di posizioneMedie di calcolo e medie di posizione
Medie di calcolo e medie di posizione
 
Il modello Logistico
Il modello LogisticoIl modello Logistico
Il modello Logistico
 
Presentazione Tesi Laurea 2010
Presentazione Tesi Laurea 2010Presentazione Tesi Laurea 2010
Presentazione Tesi Laurea 2010
 
Slide matematica Alessandrini
Slide matematica AlessandriniSlide matematica Alessandrini
Slide matematica Alessandrini
 
Introduzione v
Introduzione vIntroduzione v
Introduzione v
 
I fenomeni bivariati
I fenomeni bivariatiI fenomeni bivariati
I fenomeni bivariati
 

ACP - Analisi delle componenti principali

  • 1. ANALISI DELLE COMPONENTI PRINCIPALI Paola Pozzolo sos.unistat@gmail.com
  • 2. Matrice Dati (n x p) Colonne = Variabili quantitative X1 X2 X3 … Xj … Xp 1 x11 x12 x1j x1p 2 x21 3 … i xi1 … n xn1 xnj xnp Righe= Unità PROFILO INDIVIDUALE
  • 3. Obiettivo: Ridurre il numero di variabili (da p a q<p) in presenza di un insieme di variabili fortemente correlate (= informazioni ridondanti) FATTORIZZAZIONE Comprende una serie di metodi per distinguere le variabili che spiegano la maggior parte dell’informazione : Varianza alta = Punti dispersi = Maggiore spiegabilità  ANALISI CORRISPONDENZE (variabili qualitative) ANALISI DELLE COMPONENTI PRINCIPALI (variabili quantitative)
  • 4. Se non ci sono correlazioni significative tra le variabili metodi fattorizzazione non attuabili Per correlazioni significative si intende che almeno la metà dei coefficienti di correlazione siano maggiori di |0.3|. Altrimenti, ciascuna variabile rappresenterebbe una dimensione a se stante, una CP. E se le variabili fossero invece tutte altamente correlate? Ci sarebbe una sola CP che spiegherebbe quasi il 100% della variabilità totale della nuvola dei punti originaria e quindi la ricerca di dimensioni sottostanti le variabili originarie non avrebbe senso. PREMESSA FONDAMENTALE: LA CORRELAZIONE
  • 5. Matrice Varianze /Covarianze X1 X2 X1 Var(X1) Cov(X1,X2) X2 Cov(X2,X1) Var(X2) Diagonale principale = Varianze N.B. COVARIANZA STANDARDIZZATA = CORRELAZIONE
  • 6. In termini matematici… Descrivere la variabilità globale di un insieme di variabili mediante un sottoinsieme di nuove variabili, dette componenti principali, tra loro incorrelate (=indipendenti) ottenute come combinazioni lineari delle variabili originarie ed ordinate in modo tale che la prima componente sintetizzi la quota massima di variabilità: in cui il coefficiente rappresenta il peso (loading) che ogni variabile ha nel determinare la componente stessa e permette l’interpretazione della componente stessa. pipiiii pp XaXaXaXaY XaXaXaXaY   ... ... 332211 13132121111 ija iX
  • 7. Scelta del numero di componenti: •Scree Plot: considero le componenti il cui autovalore è più alto del punto di esso o “gomito" (Harman, 1976); •Soglia di varianza cumulata: trattengo solo le componenti principali che consentono di ottenere una variabilità cumulata pari a circa il 75- 80%. Se già la prima componente la spiega, mi fermo alla prima; •Regola di Kaiser (Kaiser, 1960): trattengo solo le componenti principali e gli autovettori corrispondenti ad autovalori maggiori o uguale a 1.
  • 8. ACP: Ausili all’interpretazione Contributo assoluto: indica il contribuito dato dalla variabile nella costruzione dell’ asse fattoriale (coordinata al quadrato, rapportata all’inerzia associata dell’ asse, autovalore). La qualità della rappresentazione è in funzione dei contributi assoluti e relativi dei vari punti.
  • 9. ACP: Ausili all’interpretazione Contributo relativo: indica quanto la variabile è ben rappresentata sull’asse ricordando che la proiezione non sempre riesce a riprodurre la distanza iniziale tra due punti. Si calcola il quadrato del coseno dell’angolo formato dai vettori corrispondenti al punto nello spazio originario ed alla sua proiezione. Quanto più tale valore si avvicina ad 1 tanto più piccolo sarà l’angolo formato dai due vettori e tanto migliore quindi la rappresentazione.
  • 10. Dataset: crimini.txt (disponibile online) Campione: i 50 stati componenti gli Stati Uniti d’America Analisi delle componenti principali: esempio
  • 11.  MURDER: numero di arresti per omicidio (su 100.000 ab.)  ASSAULT: numero di arresti per aggressioni (su 100.000 ab.)  URBANPOP: percentuale di popolazione urbana  RAPE: numero di arresti per stupro (su 100.000 ab.) Variabili analizzate
  • 13. Grafici Autovalori Dim1 Dim2 Dim3 Dim4 0.00.51.01.52.02.5 BAR PLOT AUTOVALORI SCREE PLOT AUTOVALORI 1 2 3 4 12 Numero Componente Autovalori 1 2 3 4 708090100 Numero Componente Percentualevarianzacumulata VARIANZA CUMULATA SCELTA DEL NUMERO DI COMPONENTI: Scree Plot: considero le componenti il cui autovalore e piu alto del punto di esso ogomito Soglia di varianza cumulata: trattengo solo le componenti principali che consentono di ottenere una variabilita cumulata pari a circa il 75-80%; Regola di Kaiser: trattengo solo le componenti principali il cui autovalore e maggiore o uguale a 1. 1 2 3
  • 14. Matrice autovalori - Traccia della Matrice = Inerzia Totale = Somma Autovalori. Se le variabili originarie sono Standardizzate : Inerzia Totale = Numero variabili originarie = 4; - Eigenvalue = Autovalore (j)= Inerzia (varianza) spiegata dalla j-esima componente principale; - % of variance = parte di inerzia totale spiegata dalla j-esima componente principale; - cumulative % of variance = parte di inerzia totale spiegata dalla j-esima componente principale e dalle componenti ad essa precedenti.
  • 15. Output Variabili N.B. Nel linguaggio di R Dim.j = Comp j N.B. Se le variabili originarie sono standardizzate: COORDINATA = CORRELAZIONE. Per conoscere l'importanza di ciascuna variabile rispetto ad un fattore, è sufficiente guardare le sue coordinate (correlazioni): più elevate sono le coordinate, più il punto e vicino sia alla circonferenza che all'asse, più incide nella costruzione dell'asse stesso. COORDINATE variabili/componenti: CORRELAZIONE variabili/componenti:
  • 16. Output Variabili COSENO AL QUADRATO CONTRIBUTI N.B. E sempre vero che: COSENO2=CORRELAZIONE2 Mentre solo se le variabili originarie sono standardizzate: COSENO2=COORDINATA2 Il coseno al quadrato, o contributo relativo, risponde alla domanda: o Quanto ciascuna componente spiega una variabile? Il contributo, o contributo assoluto, risponde alla domanda: o Quanto ciascuna variabile spiega (in termini di inerzia) la componente? (Contributo assoluto medio = 100/4 = 25%)
  • 17. Cerchio correlazioni: 1-2 COMPONENTE -1.0 -0.5 0.0 0.5 1.0 -1.0-0.50.00.51.0 Variables factor map (PCA) Dim 1 (62.01%) Dim2(24.74%) Murder Assault UrbanPop Rape N.B. Sono riportate solo le variabili con cos2 > 0:5 nel piano.
  • 18. Grafico Individui -4 -2 0 2 4 -3-2-1012 Individuals factor map (PCA) Dim 1 (62.01%) Dim2(24.74%) Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware Florida Georgia Hawaii Idaho Illinois IndianaIowa Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi Missouri Montana Nebraska Nevada New Hampshire New Jersey New Mexico New York North Carolina North Dakota Ohio Oklahoma OregonPennsylvania Rhode Island South Carolina South Dakota Tennessee Texas Utah Vermont Virginia Washington West Virginia Wisconsin Wyoming
  • 19. Output Individui COORDINATE Variabili/Componenti: CONTRIBUTO: COSENO al QUADRATO:
  • 20. Biplot: Variabili ed Individui -0.2 -0.1 0.0 0.1 0.2 0.3 -0.2-0.10.00.10.20.3 Comp.1 Comp.2 AlabamaAlaska Arizona Arkansas California Colorado Connecticut Delaware Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana MaineMaryland Massachusetts Michigan Minnesota Mississippi Missouri Montana Nebraska Nevada New Hampshire New Jersey New Mexico New York North Carolina North Dakota Ohio Oklahoma OregonPennsylvania Rhode Island South Carolina South DakotaTennessee Texas Utah Vermont Virginia Washington West Virginia Wisconsin Wyoming -5 0 5 -505 Murder Assault UrbanPop Rape
  • 21. Interpretazione componenti principali Componente 1  indice inverso di criminalità Componente 2  indice di ruralità