Your SlideShare is downloading. ×
High Dimensional Data
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

High Dimensional Data

331
views

Published on

Apresentação baseada na aula 8 de: …

Apresentação baseada na aula 8 de:
Harvard Extension School
CSCI E-109 - Data Science
High Dimensional Data

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
331
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. High Dimensional Data Harvard Extension School CSCI E-109 - Data Science, Lecture 8 Regis Pires Magalhães regismagalhaes@ufc.br
  • 2. Apresentação baseada na aula 8 de: • Harvard Extension School CSCI E-109 - Data Science High Dimensional Data http://www.cs109.org/ http://cm.dce.harvard.edu/2014/01/14328/publicationListin g.shtml
  • 3. Taxonomia • Baseada no número de atributos ▫ 1 - univariate ▫ 2 - bivariate ▫ 3 - trivariate ▫ >3 – multi-variate ou high-dimensional
  • 4. Multivariate plots
  • 5. Multivariate plots spawning per recruit (SPR) yield per recruit (YPR) Fisheries production (YPR) Stock reproduction (SPR)
  • 6. Scatterplot Matrix (SPLOM) 4 dimensões comparadas entre si. Permite visualizar padrões: correlações (positivas, negativas). ozone ozone radiation radiation temperature temperature wind wind
  • 7. SPLOM
  • 8. Scatterplot Matrix (SPLOM) Facilita a visualização de correlações entre as variáveis.
  • 9. Geralmente não usar (3D)
  • 10. Usar eventualmente – 3D Surface Plots
  • 11. Lattice / Trellis Plots Variáveis plotadas no mesmo quadro de coordenadas.
  • 12. Lattice / Trellis Plots Variáveis plotadas no mesmo quadro de coordenadas.
  • 13. Lattice / Trellis Plots
  • 14. Lattice / Trellis Plots
  • 15. Small Multiples
  • 16. Small multiples
  • 17. Small multiples
  • 18. Enroute
  • 19. Heatmap
  • 20. Heatmap
  • 21. Hierarchical Heatmap
  • 22. Coordenadas paralelas “Hyperdimensional Data Analysis Using Parallel Coordinates”, Wegman, 1990 Based on slide from Munzner
  • 23. Parallel Coordinates
  • 24. Correlação “Hyperdimensional Data Analysis Using Parallel Coordinates”, Wegman, 1990 Based on slide from Munzner
  • 25. Filtragem
  • 26. Filtering & Brushing http://exposedata.com/parallel/
  • 27. Conjuntos paralelos
  • 28. StratomeX – Parallel Set
  • 29. Bump Charts /Slope Graphs Times de baseball http://fathom.info/salaryper/
  • 30. Glifos • Glifo em tipografia, é uma figura que dá um tipo de característica particular a um símbolo específico. • Glifos vem da palavra grega que significa inscrição. • Em termos de visualização de dados: ▫ Formas que codificam linhas de dados.
  • 31. Gráficos estrela • Variáveis ao redor de um círculo. • Codificação de valores em “raios” • Ponto de dado é agora uma forma.
  • 32. Gráfico em barra: Mais eficiente e dá mais informação.
  • 33. Redução de dimensionalidade • Bem básico: filtragem ▫ Deixar de lado algumas dimensões.
  • 34. O que fazer com dados de muito alta dimensionalidade?
  • 35. Aumento da dimensionalidade • Quando a dimensionalidade aumenta, o volume do espaço aumenta, de modo que os dados disponíveis se tornam esparsos. • O tamanho da amostra N cresce exponencialmente com d.
  • 36. Ideia básica • Projetar o dado de alta dimensionalidade em um subespaço de menor dimensão, usando transformações lineares ou não-lineares.
  • 37. Métodos lineares • Colocar os dados em um hiperplano para reduzir sua dimensionalidade. • Aproximação para uma menor dimensão.
  • 38. Principal Components Analysis (PCA)
  • 39. Exemplo a(i): Projeção de x(i) em v v: escolhido para minimizar a variância residual. Encontrar v que mais se aproxima da reconstrução de x. Equivalente: v é a direção de máxima variância.
  • 40. PCA • Projetar dados para um subespaço para maximizar a variância dos dados projetados. Vetores de PC são ortogonais
  • 41. Regressão Linear x PCA http://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues
  • 42. Algoritmo PCA • Subtrair a média dos dados (centralizar X) • Escalar cada dimensão por sua variância ▫ Para ajudar a dar menos atenção à magnitude das dimensões. • Calcular a matriz de covariância S. • Calcular os k maiores autovetores de S ▫ Calculando a matriz de covariância S pode levar a perda de precisão. ▫ Assim, não é a melhor forma de calcular componentes principais.
  • 43. Singular Value Decomposition (SVD) Funciona para qualquer matriz.
  • 44. Redução de dimensionalidade
  • 45. Redução de dimensionalidade Hastie et al.,”The Elements of Statistical Learning: Data Mining, Inference, and Prediction”,Springer (2009)
  • 46. PCA para dígitos manuscritos Hastie et al.,”The Elements of Statistical Learning: Data Mining, Inference, and Prediction”,Springer (2009)
  • 47. PCA para dígitos manuscritos
  • 48. PCA para imagens de faces
  • 49. PCA para imagens de faces 64x64 imagens de faces = 4096 dados dimensionais
  • 50. Autofaces • Podemos reconstruir cada face como uma combinação linear “faces” base ou autofaces [M. Turk and A. Pentland (1991)]. Face média Autofaces
  • 51. Reconstrução • 90% da variância é capturada pelos primeiros 50 autovetores.
  • 52. Documentos de texto • Mais de 45 características projetadas em 2 dimensões PC. http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Dimensionality_Reduction/Principal_Component_Analysis
  • 53. Funções de distribuição de refletividadade bi-direcionais • Bi-Directional Reflectance Distribution Functions (BRDFs) • Funções que dizem quanta luz é refletida em cada direção.
  • 54. BRDFs orientados a dados • Medir luz refletida em uma esfera. • 20-80 milhões de medidas (6000 imagens) por material (cerca de 200 materiais).
  • 55. BRDFs orientados a dados • Cada BRDF tabulado é um vetor em um espaço dimensional 90 x 90 x 180x3 =4,374,000 • 200 materiais
  • 56. PCA
  • 57. Interpolação PCA
  • 58. Interpolação PCA com resultado estranho
  • 59. Por que modelos lineares falham?
  • 60. Por que modelos lineares falham? • Exemplo clássico: “Torta suíça”
  • 61. Métodos não-lineares múltiplos
  • 62. Métodos não-lineares múltiplos • Intuição: distorção em áreas locais, mas fiel em relação à estrutura global.
  • 63. Modelo BRDF Não-Linear • Espaço 15-dimensional (ao invés de 45 PCs) • Mais robusto (permite extrapolações)
  • 64. Redução de dimensionalidade • Métodos lineares ▫ Principal Component Analysis (PCA) – Hotelling ▫ Singular Value Decomposition (SVD) – Eckart/Young ▫ Multidimensional Scaling (MDS) – Young • Métodos não-lineares ▫ IsoMap – Tenenbaum ▫ Locally Linear Embeddings (LLE) – Roweis
  • 65. Escalonamento Multidimensional • Multidimensional Scaling (MDS) • Objetivo diferente: ▫ Encontrar um conjunto de pontos cujas distâncias entre pares correspondem a uma dada matriz de distância.
  • 66. MDS Clássico x PCA • MDS ▫ Dada uma matriz n x n de distância de pares entre pontos.  Calcular a matrix X n x k de coordenadas de pontos a partir de D com uso de álgebra linear.  Resumindo: transformar distâncias em coordenadas.  Não trivial, mas possível através de métodos lineares. ▫ MSD clássico tem desempenho melhor que PCA nessa matrix X. ▫ Essencialmente os mesmos resultados, mas a partir de diferentes entradas.
  • 67. Imagens coloridas
  • 68. Amigos no Facebook
  • 69. IN-SPIRE, PNNL Classificação de documentos. MSD em documentos.
  • 70. Regis Pires Magalhães regismagalhaes@ufc.br Obrigado! Dúvidas, comentários, sugestões?