Your SlideShare is downloading. ×
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

# High Dimensional Data

331
views

Published on

Apresentação baseada na aula 8 de: …

Apresentação baseada na aula 8 de:
Harvard Extension School
CSCI E-109 - Data Science
High Dimensional Data

Published in: Technology

0 Comments
1 Like
Statistics
Notes
• Full Name
Comment goes here.

Are you sure you want to Yes No
Your message goes here
• Be the first to comment

No Downloads
Views
Total Views
331
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

### Transcript

• 1. High Dimensional Data Harvard Extension School CSCI E-109 - Data Science, Lecture 8 Regis Pires Magalhães regismagalhaes@ufc.br
• 2. Apresentação baseada na aula 8 de: • Harvard Extension School CSCI E-109 - Data Science High Dimensional Data http://www.cs109.org/ http://cm.dce.harvard.edu/2014/01/14328/publicationListin g.shtml
• 3. Taxonomia • Baseada no número de atributos ▫ 1 - univariate ▫ 2 - bivariate ▫ 3 - trivariate ▫ >3 – multi-variate ou high-dimensional
• 4. Multivariate plots
• 5. Multivariate plots spawning per recruit (SPR) yield per recruit (YPR) Fisheries production (YPR) Stock reproduction (SPR)
• 6. Scatterplot Matrix (SPLOM) 4 dimensões comparadas entre si. Permite visualizar padrões: correlações (positivas, negativas). ozone ozone radiation radiation temperature temperature wind wind
• 7. SPLOM
• 8. Scatterplot Matrix (SPLOM) Facilita a visualização de correlações entre as variáveis.
• 9. Geralmente não usar (3D)
• 10. Usar eventualmente – 3D Surface Plots
• 11. Lattice / Trellis Plots Variáveis plotadas no mesmo quadro de coordenadas.
• 12. Lattice / Trellis Plots Variáveis plotadas no mesmo quadro de coordenadas.
• 13. Lattice / Trellis Plots
• 14. Lattice / Trellis Plots
• 15. Small Multiples
• 16. Small multiples
• 17. Small multiples
• 18. Enroute
• 19. Heatmap
• 20. Heatmap
• 21. Hierarchical Heatmap
• 22. Coordenadas paralelas “Hyperdimensional Data Analysis Using Parallel Coordinates”, Wegman, 1990 Based on slide from Munzner
• 23. Parallel Coordinates
• 24. Correlação “Hyperdimensional Data Analysis Using Parallel Coordinates”, Wegman, 1990 Based on slide from Munzner
• 25. Filtragem
• 26. Filtering & Brushing http://exposedata.com/parallel/
• 27. Conjuntos paralelos
• 28. StratomeX – Parallel Set
• 29. Bump Charts /Slope Graphs Times de baseball http://fathom.info/salaryper/
• 30. Glifos • Glifo em tipografia, é uma figura que dá um tipo de característica particular a um símbolo específico. • Glifos vem da palavra grega que significa inscrição. • Em termos de visualização de dados: ▫ Formas que codificam linhas de dados.
• 31. Gráficos estrela • Variáveis ao redor de um círculo. • Codificação de valores em “raios” • Ponto de dado é agora uma forma.
• 32. Gráfico em barra: Mais eficiente e dá mais informação.
• 33. Redução de dimensionalidade • Bem básico: filtragem ▫ Deixar de lado algumas dimensões.
• 34. O que fazer com dados de muito alta dimensionalidade?
• 35. Aumento da dimensionalidade • Quando a dimensionalidade aumenta, o volume do espaço aumenta, de modo que os dados disponíveis se tornam esparsos. • O tamanho da amostra N cresce exponencialmente com d.
• 36. Ideia básica • Projetar o dado de alta dimensionalidade em um subespaço de menor dimensão, usando transformações lineares ou não-lineares.
• 37. Métodos lineares • Colocar os dados em um hiperplano para reduzir sua dimensionalidade. • Aproximação para uma menor dimensão.
• 38. Principal Components Analysis (PCA)
• 39. Exemplo a(i): Projeção de x(i) em v v: escolhido para minimizar a variância residual. Encontrar v que mais se aproxima da reconstrução de x. Equivalente: v é a direção de máxima variância.
• 40. PCA • Projetar dados para um subespaço para maximizar a variância dos dados projetados. Vetores de PC são ortogonais
• 41. Regressão Linear x PCA http://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues
• 42. Algoritmo PCA • Subtrair a média dos dados (centralizar X) • Escalar cada dimensão por sua variância ▫ Para ajudar a dar menos atenção à magnitude das dimensões. • Calcular a matriz de covariância S. • Calcular os k maiores autovetores de S ▫ Calculando a matriz de covariância S pode levar a perda de precisão. ▫ Assim, não é a melhor forma de calcular componentes principais.
• 43. Singular Value Decomposition (SVD) Funciona para qualquer matriz.
• 44. Redução de dimensionalidade
• 45. Redução de dimensionalidade Hastie et al.,”The Elements of Statistical Learning: Data Mining, Inference, and Prediction”,Springer (2009)
• 46. PCA para dígitos manuscritos Hastie et al.,”The Elements of Statistical Learning: Data Mining, Inference, and Prediction”,Springer (2009)
• 47. PCA para dígitos manuscritos
• 48. PCA para imagens de faces
• 49. PCA para imagens de faces 64x64 imagens de faces = 4096 dados dimensionais
• 50. Autofaces • Podemos reconstruir cada face como uma combinação linear “faces” base ou autofaces [M. Turk and A. Pentland (1991)]. Face média Autofaces
• 51. Reconstrução • 90% da variância é capturada pelos primeiros 50 autovetores.
• 52. Documentos de texto • Mais de 45 características projetadas em 2 dimensões PC. http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Dimensionality_Reduction/Principal_Component_Analysis
• 53. Funções de distribuição de refletividadade bi-direcionais • Bi-Directional Reflectance Distribution Functions (BRDFs) • Funções que dizem quanta luz é refletida em cada direção.
• 54. BRDFs orientados a dados • Medir luz refletida em uma esfera. • 20-80 milhões de medidas (6000 imagens) por material (cerca de 200 materiais).
• 55. BRDFs orientados a dados • Cada BRDF tabulado é um vetor em um espaço dimensional 90 x 90 x 180x3 =4,374,000 • 200 materiais
• 56. PCA
• 57. Interpolação PCA
• 58. Interpolação PCA com resultado estranho
• 59. Por que modelos lineares falham?
• 60. Por que modelos lineares falham? • Exemplo clássico: “Torta suíça”
• 61. Métodos não-lineares múltiplos
• 62. Métodos não-lineares múltiplos • Intuição: distorção em áreas locais, mas fiel em relação à estrutura global.
• 63. Modelo BRDF Não-Linear • Espaço 15-dimensional (ao invés de 45 PCs) • Mais robusto (permite extrapolações)
• 64. Redução de dimensionalidade • Métodos lineares ▫ Principal Component Analysis (PCA) – Hotelling ▫ Singular Value Decomposition (SVD) – Eckart/Young ▫ Multidimensional Scaling (MDS) – Young • Métodos não-lineares ▫ IsoMap – Tenenbaum ▫ Locally Linear Embeddings (LLE) – Roweis
• 65. Escalonamento Multidimensional • Multidimensional Scaling (MDS) • Objetivo diferente: ▫ Encontrar um conjunto de pontos cujas distâncias entre pares correspondem a uma dada matriz de distância.
• 66. MDS Clássico x PCA • MDS ▫ Dada uma matriz n x n de distância de pares entre pontos.  Calcular a matrix X n x k de coordenadas de pontos a partir de D com uso de álgebra linear.  Resumindo: transformar distâncias em coordenadas.  Não trivial, mas possível através de métodos lineares. ▫ MSD clássico tem desempenho melhor que PCA nessa matrix X. ▫ Essencialmente os mesmos resultados, mas a partir de diferentes entradas.
• 67. Imagens coloridas
• 68. Amigos no Facebook
• 69. IN-SPIRE, PNNL Classificação de documentos. MSD em documentos.
• 70. Regis Pires Magalhães regismagalhaes@ufc.br Obrigado! Dúvidas, comentários, sugestões?