Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Seminario 6

104 views

Published on

Análisis exploratorio de datos

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Seminario 6

  1. 1. Seminario VI: Análisis exploratorio de datos. BEATRIZ ROJAS JIMÉNEZ 1º ENFERMERÍA VIRGEN DEL ROCÍO; SUBGRUPO 16 CURSO: 2015/16
  2. 2. Introducción En este seminario vamos a trabajar con R Commander la primera parte de los análisis estadísticos: los análisis descriptivos o exploratorios.
  3. 3. Primer ejercicio: Selecciona dos variables cualitativas-factor del fichero “activossalud.rdata”, descríbelas en tablas de frecuencias e interpreta al menos 3 aspectos en relación a la distribución de las mismas.
  4. 4. Antes de comenzar con el ejercicio debemos: ABRIR R JUNTO A R COMMANDER Y ESPECIFICAR EL DIRECTORIO DE TRABAJO. Fichero  Cambiar directorio de trabajo…  Elegir carpeta
  5. 5. CARGAR LOS DATOS CON LOS QUE VAMOS A TRABAJAR: Datos  Cargar conjunto de datos…  Elegir archivo [activossalud(1)]
  6. 6. 1) Comenzamos con el primer ejercicio: primero debemos buscar las distribuciones de los datos Estadísticos  Resúmenes  Distribución de frecuencias… elegir las dos variables que utilizaremos (edad y botellón)
  7. 7. 2) Nos aparece la tabla de frecuencias de las variables botellón y edad, vamos a interpretarlas. BOTELLÓN EDAD Beben solo 3 personas a diario (1,05%). El 38,41% de las personas del estudio tienen 18 años (111 personas). Solo los fines de semana beben 90 personas (31,58%). Entre 21 – 22 años hay el 21,11% (61 personas). Nunca beben 51 personas (17,89 %) El 10,03 % de los estudiados tenían más de 25 años (29 personas).
  8. 8. Segundo ejercicio: Selecciona dos variables numéricas del fichero “activossalud.rdata”, y mediante resúmenes numéricos describe e interpreta la distribución de las mismas.
  9. 9. 1) Buscamos la tabla de frecuencias de datos cuantitativos. Estadística  Resúmenes  Resúmenes numéricos 2) Elegimos las variables que queremos describir de la tabla de frecuencias (altura y peso). En estadísticos podemos seleccionar las medidas que queremos.
  10. 10. 3) Describimos las dos variables: ALTURA (metros) PESO (kg) La mediana coincide con el segundo cuartil (Q2) y sería 1,655. La mediana coincidirá con Q2 y sería 60. Sería una distribución asimétrica ya que la media no coincide con la mediana (1,667 ≠ 1,655). Es una distribución asimétrica porque la media y la mediana no coinciden (62,75571 ≠ 60) Tiene una desviación típica (sd) de 0,0807… Tiene una desviación típica de 12,6598… La muestra es de 290 individuos de los cuales, solo 1 no ha contestado. La muestra consta de 275 individuos de los cuales, 16 no han constestado. Rango intercuartílico (IQR) = 0,12 Primer cuartil (Q1) = 1,6 Tercer cuartil (Q3) = 1,72 Altura máxima = 2 metros Altura mínima = 1,46 metros Rango intercuartílico (IQR) = 14 Primer cuartil (Q1) = 54 Tercer cuartil (Q3) = 68 Peso Máximo = 130 Kg Peso Mínimo = 38 Kg
  11. 11. Tercer ejercicio: Realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.rdata”, describe e interpreta la distribución los mismos.
  12. 12. GRÁFICO DE SECTORES Gráficas  Gráfica de sectores…  Elegimos la variable (botellón)
  13. 13. a diario solo los fines de semana2 o 3 veces a la semana 2 o 3 veces al mes Algunas veces anual Nunca botellon De esta muestra podemos sacar varias conclusiones: • La mayoría de la muestra bebo sólo los fines de semana. • Una mínima parte de la muestra bebe todos los días. • Existe un gran número de la muestra que no bebe nunca.
  14. 14. DIAGRAMA DE BARRAS Gráficas  Gráficas de barras  Elegir varible (cerveza)
  15. 15. De la variable de cerveza podemos destacar que: • El primer hecho más representativo es que una parte muy representativa de la muestra nunca bebe cerveza. • Y el segundo, es que una mínima parte de la muestra bebe a diario cerveza. diario 2 o 3 veces semana alguna vez nunca cerveza Frequency 020406080100
  16. 16. HISTOGRAMA Gráficas  Histograma  Elegir variable (altura)
  17. 17. altura frequency 1.5 1.6 1.7 1.8 1.9 2.0 010203040506070 De esta variable de dulces podemos sacar varias conclusiones: • Es una distribución asimétrica, un poco sesgada hacia la izquierda. • La altura más representativa se encuentra entre 1,6 y 1,7 metros. • Existen pocos individuos que midan menos de 1,5 metros y más de 1,9 metros-
  18. 18. DIAGRAMA DE CAJAS Gráficas  Diagrama de cajas  elegir variable (peso)
  19. 19. 406080100120 peso 103152 158 183193 199 259 266 De la variable peso podemos destacar que: • El peso máximo está alrededor de 90 Kg y el mínimo en 40 Kg. • La mediana se encontraría en 60. Esta correspondería con Q2. • Q1 = 65 • Q3 = 55 • Las observaciones aberrantes o datos atípicos serían todos los que se encuentran fuera de la caja.

×