0
El “arte”del análisis de
          datos:
De las hojas de cálculo a R
                 Juan Freire
           Universidade...
¿Para qué el análisis de datos?


• Fuentes de información disponibles
• Hipótesis a priori
• Patrones posibles
http://en.wikipedia.org/wiki/Data_analysis

Analysis of data is a process of inspecting, cleaning,
transforming, and model...
Texto
                                    Cultural analytics
                                    (Lev Manovich)
Visualizat...
Antes de iniciar el diseño
    del análisis de datos
  Análisis cuantitativos ... a veces de
  información cualitativa


•...
Fuentes de información

- Unidades de información (casos)
- Contenido (variables)
- Tipos de contenido (codificación):
   c...
Fases del análisis de datos

a) Diseño de bases de datos: variables
(codificación); casos
b) Exploración de datos - Visuali...
Análisis exploratorio
  Métodos gráficos


• Depuración de datos
• Visualización de patrones: sugerir hipótesis
• Planificar...
Gráficos estadísticos
    Visualización de datos cuantitativos


•   Box-plots
•   Histogramas
•   Scatter plots
•   ...
Blox plots
Histogramas
Pareto chart
Scatter plot
Correlation scatter-plot matrix
 for ordered-categorical data
A visualization of thousands of Wikipedia edits that were
made by a single software bot. Each color corresponds to
a diffe...
Detección de outliers
An outlier is an observation that lies an abnormal
distance from other values in a random sample
fro...
Errores / Outliers
Algunos ejemplos de análisis
  de datos y visualización
     científica en arte
Harun Farocki. Deep Play
Harun Farocki – Deep Play
Ben Fry. Cartografías genéticas (Processing)
Ben Fry. Cartografías genéticas. Processing
Análisis y visualización de redes tróficas
Compilation and Network Analyses of
        Cambrian Food Webs




                               Chengjiang Shale




Bur...
East River Valley Trophic Web
Little Rock Lake Trophic Web: Dynamic View 5
Software para análisis de
    datos y visualización

• Bases de datos
• Hojas de cálculo
• Paquetes de gráficos (+ estadíst...
Curvas de aprendizaje

                         R
resultados




                          hoja de cálculo
               ...
Sistemas de gestión de
        bases de datos

• OpenOffice.org Base
• Microsoft Office Access
• mySQL
• ...
Holas de cálculo
      (Planilha eletrônica)
• Open Office.org Calc
• Gnumeric
• Microsoft Office Excel
• Google Docs
• ...
http://upload.wikimedia.org/wikipedia/en/2/23/Spreadsheet_animation.gif
OpenOffice.org Calc
Gnumeric
Algunos usos de hojas de
          cálculo

• Gestión e importación de datos
• Tablas de dinámicas
• Correlación y regresi...
Sofware estadítico
• SAS: Business Analytics and Business Intelligence
  Software. Windows. $$$$$$$. GUI
• IBM SPSS Statis...
http://www.r-project.org/
¿Qué es R?

• Lenguaje de programación
• Software libre, gratuito y multiplataforma
• Línea de comandos
• Extensible
• Áre...
Paquetes en R


• Colecciones de funciones, datos y código
• compilado
• formato estandarizado
Extensiones de la interfaz

• Windows, Mac: Tienen una GUI que te deja hacer
  bastantes cosas con menús
• Edición de Scri...
Tinn-R
ggplot2
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Curso_Analisis_Datos_UFBA
Upcoming SlideShare
Loading in...5
×

Curso_Analisis_Datos_UFBA

2,463

Published on

EL ARTE DEL ANÁLISIS DE DATOS: DE LAS HOJAS DE CÁLCULO A R

Curso de extensión en:
Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC)
Universidade Federal da Bahía (UFBA)
Abril 2010

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,463
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
70
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide



  • http://ubergrid.tumblr.com/post/528551058
    http://en.wikipedia.org/wiki/The_Wire
    http://en.wikipedia.org/wiki/Life_on_Mars_(TV_series)
  • http://lab.softwarestudies.com/
    http://www.flickr.com/photos/culturevis/

    Manga research:
    http://lab.softwarestudies.com/2010/02/1000000-manga-pages-visualization.html
    http://www.flickr.com/photos/culturevis/sets/72157623691111589/

  • http://www.wired.com/wired/issue/16-07







  • http://en.wikipedia.org/wiki/File:Black_cherry_tree_histogram.svg


  • http://www.star.bris.ac.uk/~mbt/topcat/sun253/Cartesian3DWindow.html
  • http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/
  • http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing
    A visualization of thousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page. Image: Fernanda B. Viégas, Martin Wattenberg, and Kate Hollenbach


  • http://www.itl.nist.gov/div898/handbook/eda/section3/scattera.htm
    http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm



  • http://www.farocki-film.de/deepeg.htm
  • http://www.flickr.com/photos/architektur/sets/72157600380226624/

  • http://www.farocki-film.de/deepeg.htm

  • http://genome.ucsc.edu/cgi-bin/hgTables

  • http://benfry.com/aasd/
  • http://acg.media.mit.edu/people/fry/genocarto.html
  • http://benfry.com/genomevalence/

  • http://biology.plosjournals.org/perlserv/?request=get-document&doi=10.1371/journal.pbio.0060102&ct=1
  • http://biology.plosjournals.org/perlserv/?request=get-document&doi=10.1371/journal.pbio.0060102&ct=1





  • http://en.wikipedia.org/wiki/Database_management_system
    http://en.wikipedia.org/wiki/OpenOffice.org_Base
  • http://www.openoffice.org/product/base.html

  • http://www.openoffice.org/product/calc.html
  • http://en.wikipedia.org/wiki/Spreadsheet
  • http://en.wikipedia.org/wiki/OpenOffice.org_Calc












  • Transcript of "Curso_Analisis_Datos_UFBA"

    1. 1. El “arte”del análisis de datos: De las hojas de cálculo a R Juan Freire Universidade da Coruña http://juanfreire.net/ Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC) Universidade Federal da Bahía (UFBA) Abril 2010
    2. 2. ¿Para qué el análisis de datos? • Fuentes de información disponibles • Hipótesis a priori • Patrones posibles
    3. 3. http://en.wikipedia.org/wiki/Data_analysis Analysis of data is a process of inspecting, cleaning, transforming, and modeling data with the goal of highlighting useful information, suggesting conclusions, and supporting decision making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.
    4. 4. Texto Cultural analytics (Lev Manovich) Visualization shows 1048576 Manga pages Each point represents one page grey points - all pages in the set red points - all pages corresponding to a single title: Anatolia Story (artist: Chie Shinohara) X axis - brightness mean Y axis - entropy
    5. 5. Antes de iniciar el diseño del análisis de datos Análisis cuantitativos ... a veces de información cualitativa • Hipótesis • Exploración de patrones
    6. 6. Fuentes de información - Unidades de información (casos) - Contenido (variables) - Tipos de contenido (codificación): cuantitativo semi-cuantitativo (ordenado) categórico 1/0
    7. 7. Fases del análisis de datos a) Diseño de bases de datos: variables (codificación); casos b) Exploración de datos - Visualización c) Depuración de datos: errores, outliers, redefinición de variables d) Análisis estadísticos - Visualización
    8. 8. Análisis exploratorio Métodos gráficos • Depuración de datos • Visualización de patrones: sugerir hipótesis • Planificar la obtención de nueva información
    9. 9. Gráficos estadísticos Visualización de datos cuantitativos • Box-plots • Histogramas • Scatter plots • ...
    10. 10. Blox plots
    11. 11. Histogramas
    12. 12. Pareto chart
    13. 13. Scatter plot
    14. 14. Correlation scatter-plot matrix for ordered-categorical data
    15. 15. A visualization of thousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page.
    16. 16. Detección de outliers An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. In a sense, this definition leaves it up to the analyst (or a consensus process) to decide what will be considered abnormal. Before abnormal observations can be singled out, it is necessary to characterize normal observations. Engeneering Statistics Handbook
    17. 17. Errores / Outliers
    18. 18. Algunos ejemplos de análisis de datos y visualización científica en arte
    19. 19. Harun Farocki. Deep Play
    20. 20. Harun Farocki – Deep Play
    21. 21. Ben Fry. Cartografías genéticas (Processing)
    22. 22. Ben Fry. Cartografías genéticas. Processing
    23. 23. Análisis y visualización de redes tróficas
    24. 24. Compilation and Network Analyses of Cambrian Food Webs Chengjiang Shale Burgess Shale
    25. 25. East River Valley Trophic Web
    26. 26. Little Rock Lake Trophic Web: Dynamic View 5
    27. 27. Software para análisis de datos y visualización • Bases de datos • Hojas de cálculo • Paquetes de gráficos (+ estadística básica) • Paquetes estadísticos (+visualización + lenguaje de programación)
    28. 28. Curvas de aprendizaje R resultados hoja de cálculo planilha eletrônica tiempo
    29. 29. Sistemas de gestión de bases de datos • OpenOffice.org Base • Microsoft Office Access • mySQL • ...
    30. 30. Holas de cálculo (Planilha eletrônica) • Open Office.org Calc • Gnumeric • Microsoft Office Excel • Google Docs • ...
    31. 31. http://upload.wikimedia.org/wikipedia/en/2/23/Spreadsheet_animation.gif
    32. 32. OpenOffice.org Calc
    33. 33. Gnumeric
    34. 34. Algunos usos de hojas de cálculo • Gestión e importación de datos • Tablas de dinámicas • Correlación y regresión
    35. 35. Sofware estadítico • SAS: Business Analytics and Business Intelligence Software. Windows. $$$$$$$. GUI • IBM SPSS Statistics (antes: Statistical Package for the Social Sciences). Windows, Mac, Linux. $$$. GUI • Statistica. Windows, Mac. $$$. GUI • R. Software libre. Linux, Mac, Windows. Línea de comandos
    36. 36. http://www.r-project.org/
    37. 37. ¿Qué es R? • Lenguaje de programación • Software libre, gratuito y multiplataforma • Línea de comandos • Extensible • Área de trabajo
    38. 38. Paquetes en R • Colecciones de funciones, datos y código • compilado • formato estandarizado
    39. 39. Extensiones de la interfaz • Windows, Mac: Tienen una GUI que te deja hacer bastantes cosas con menús • Edición de Scripts: • Interno a la GUI • Externo: Tinn-R, R-WinEdt, o mediante plugins
    40. 40. Tinn-R
    41. 41. ggplot2
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×