Curso_Analisis_Datos_UFBA

2,783 views
2,681 views

Published on

EL ARTE DEL ANÁLISIS DE DATOS: DE LAS HOJAS DE CÁLCULO A R

Curso de extensión en:
Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC)
Universidade Federal da Bahía (UFBA)
Abril 2010

0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,783
On SlideShare
0
From Embeds
0
Number of Embeds
241
Actions
Shares
0
Downloads
71
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide



  • http://ubergrid.tumblr.com/post/528551058
    http://en.wikipedia.org/wiki/The_Wire
    http://en.wikipedia.org/wiki/Life_on_Mars_(TV_series)
  • http://lab.softwarestudies.com/
    http://www.flickr.com/photos/culturevis/

    Manga research:
    http://lab.softwarestudies.com/2010/02/1000000-manga-pages-visualization.html
    http://www.flickr.com/photos/culturevis/sets/72157623691111589/

  • http://www.wired.com/wired/issue/16-07







  • http://en.wikipedia.org/wiki/File:Black_cherry_tree_histogram.svg


  • http://www.star.bris.ac.uk/~mbt/topcat/sun253/Cartesian3DWindow.html
  • http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/
  • http://www.wired.com/science/discoveries/magazine/16-07/pb_visualizing
    A visualization of thousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page. Image: Fernanda B. Viégas, Martin Wattenberg, and Kate Hollenbach


  • http://www.itl.nist.gov/div898/handbook/eda/section3/scattera.htm
    http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm



  • http://www.farocki-film.de/deepeg.htm
  • http://www.flickr.com/photos/architektur/sets/72157600380226624/

  • http://www.farocki-film.de/deepeg.htm

  • http://genome.ucsc.edu/cgi-bin/hgTables

  • http://benfry.com/aasd/
  • http://acg.media.mit.edu/people/fry/genocarto.html
  • http://benfry.com/genomevalence/

  • http://biology.plosjournals.org/perlserv/?request=get-document&doi=10.1371/journal.pbio.0060102&ct=1
  • http://biology.plosjournals.org/perlserv/?request=get-document&doi=10.1371/journal.pbio.0060102&ct=1





  • http://en.wikipedia.org/wiki/Database_management_system
    http://en.wikipedia.org/wiki/OpenOffice.org_Base
  • http://www.openoffice.org/product/base.html

  • http://www.openoffice.org/product/calc.html
  • http://en.wikipedia.org/wiki/Spreadsheet
  • http://en.wikipedia.org/wiki/OpenOffice.org_Calc












  • Curso_Analisis_Datos_UFBA

    1. 1. El “arte”del análisis de datos: De las hojas de cálculo a R Juan Freire Universidade da Coruña http://juanfreire.net/ Instituto de Humanidades, Artes & Ciências Professor Milton Santos (IHAC) Universidade Federal da Bahía (UFBA) Abril 2010
    2. 2. ¿Para qué el análisis de datos? • Fuentes de información disponibles • Hipótesis a priori • Patrones posibles
    3. 3. http://en.wikipedia.org/wiki/Data_analysis Analysis of data is a process of inspecting, cleaning, transforming, and modeling data with the goal of highlighting useful information, suggesting conclusions, and supporting decision making. Data analysis has multiple facets and approaches, encompassing diverse techniques under a variety of names, in different business, science, and social science domains.
    4. 4. Texto Cultural analytics (Lev Manovich) Visualization shows 1048576 Manga pages Each point represents one page grey points - all pages in the set red points - all pages corresponding to a single title: Anatolia Story (artist: Chie Shinohara) X axis - brightness mean Y axis - entropy
    5. 5. Antes de iniciar el diseño del análisis de datos Análisis cuantitativos ... a veces de información cualitativa • Hipótesis • Exploración de patrones
    6. 6. Fuentes de información - Unidades de información (casos) - Contenido (variables) - Tipos de contenido (codificación): cuantitativo semi-cuantitativo (ordenado) categórico 1/0
    7. 7. Fases del análisis de datos a) Diseño de bases de datos: variables (codificación); casos b) Exploración de datos - Visualización c) Depuración de datos: errores, outliers, redefinición de variables d) Análisis estadísticos - Visualización
    8. 8. Análisis exploratorio Métodos gráficos • Depuración de datos • Visualización de patrones: sugerir hipótesis • Planificar la obtención de nueva información
    9. 9. Gráficos estadísticos Visualización de datos cuantitativos • Box-plots • Histogramas • Scatter plots • ...
    10. 10. Blox plots
    11. 11. Histogramas
    12. 12. Pareto chart
    13. 13. Scatter plot
    14. 14. Correlation scatter-plot matrix for ordered-categorical data
    15. 15. A visualization of thousands of Wikipedia edits that were made by a single software bot. Each color corresponds to a different page.
    16. 16. Detección de outliers An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. In a sense, this definition leaves it up to the analyst (or a consensus process) to decide what will be considered abnormal. Before abnormal observations can be singled out, it is necessary to characterize normal observations. Engeneering Statistics Handbook
    17. 17. Errores / Outliers
    18. 18. Algunos ejemplos de análisis de datos y visualización científica en arte
    19. 19. Harun Farocki. Deep Play
    20. 20. Harun Farocki – Deep Play
    21. 21. Ben Fry. Cartografías genéticas (Processing)
    22. 22. Ben Fry. Cartografías genéticas. Processing
    23. 23. Análisis y visualización de redes tróficas
    24. 24. Compilation and Network Analyses of Cambrian Food Webs Chengjiang Shale Burgess Shale
    25. 25. East River Valley Trophic Web
    26. 26. Little Rock Lake Trophic Web: Dynamic View 5
    27. 27. Software para análisis de datos y visualización • Bases de datos • Hojas de cálculo • Paquetes de gráficos (+ estadística básica) • Paquetes estadísticos (+visualización + lenguaje de programación)
    28. 28. Curvas de aprendizaje R resultados hoja de cálculo planilha eletrônica tiempo
    29. 29. Sistemas de gestión de bases de datos • OpenOffice.org Base • Microsoft Office Access • mySQL • ...
    30. 30. Holas de cálculo (Planilha eletrônica) • Open Office.org Calc • Gnumeric • Microsoft Office Excel • Google Docs • ...
    31. 31. http://upload.wikimedia.org/wikipedia/en/2/23/Spreadsheet_animation.gif
    32. 32. OpenOffice.org Calc
    33. 33. Gnumeric
    34. 34. Algunos usos de hojas de cálculo • Gestión e importación de datos • Tablas de dinámicas • Correlación y regresión
    35. 35. Sofware estadítico • SAS: Business Analytics and Business Intelligence Software. Windows. $$$$$$$. GUI • IBM SPSS Statistics (antes: Statistical Package for the Social Sciences). Windows, Mac, Linux. $$$. GUI • Statistica. Windows, Mac. $$$. GUI • R. Software libre. Linux, Mac, Windows. Línea de comandos
    36. 36. http://www.r-project.org/
    37. 37. ¿Qué es R? • Lenguaje de programación • Software libre, gratuito y multiplataforma • Línea de comandos • Extensible • Área de trabajo
    38. 38. Paquetes en R • Colecciones de funciones, datos y código • compilado • formato estandarizado
    39. 39. Extensiones de la interfaz • Windows, Mac: Tienen una GUI que te deja hacer bastantes cosas con menús • Edición de Scripts: • Interno a la GUI • Externo: Tinn-R, R-WinEdt, o mediante plugins
    40. 40. Tinn-R
    41. 41. ggplot2

    ×