Pres unid i estadistica descriptiva 2011

2,262 views

Published on

Primera unidad de Estadistica I de la Carrera de Ingenieria de Sistemas UNI

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,262
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
56
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Pres unid i estadistica descriptiva 2011

  1. 1. UNIVERSIDAD NACIONAL DE INGENIERIA FACULTAD DE CIENCIAS Y SISTEMA INGENIERIA DE SISTEMA ESTADISTICA IUNIDAD I: ESTADISTICA DESCRIPTIVA MSC. ROBERTO JOSE AGUILERA LOPEZ RJAL
  2. 2. RJAL DEFINICION DE ESTADISTICA Se define como la ciencia que se encarga de reunir, organizar, presentar, analizar e interpretar datos para ayudar a tomar mejores decisiones. Se dice que es la ciencia de la toma de decisiones a partir de datos cuantitativos y cualitativos, este proceso incluye determinar los atributos y cualidades reales al igual que realizar estimaciones y verificar hipótesis mediante las cuales se determinan valores probables o esperados. Rama de las matemáticas que aborda el tema de la organización, recolección, presentación, análisis e interpretación de grupos de datos numéricos02/12/2011 2 ING. ROBERTO AGUILERA LOPEZ
  3. 3. RJAL IMPORTANCIA DE LA ESTADISTICAEn términos de áreas funcionales de negocios laestadística puede aplicarse por ejemplo en: Contabilidad: Para seleccionar muestras con propósitos de auditoría. Finanzas: Para decidir si se concede o no un préstamo basado en las características demográficas, historial crediticio, ingresos, etc. Predecir la tasa de rendimiento de un activo. Evaluar oportunidades de inversión. Administración: Para describir características de empleados dentro de una organización.02/12/2011 3 ING. ROBERTO AGUILERA LOPEZ
  4. 4. RJAL IMPORTANCIA DE LA ESTADISTICA Mercadeo: Para estimar la demanda de un producto. Para determinar los efectos de una campaña publicitaria Producción: Para el control de calidad de un proceso de producción. Macroeconómico: Para analizar el comportamiento de las tasas tributarias, el comportamiento de la inversión, del consumo y el de la producción entre otros.02/12/2011 4 ING. ROBERTO AGUILERA LOPEZ
  5. 5. RJAL IMPORTANCIA DE LA ESTADISTICA Para tomar una decisión eficaz y oportuna se necesita de la estadística para ser capaz de:  Determinar si la información existente es adecuada o si se necesita información adicional.  Conseguir información adicional, si es necesaria, de manera que no lleve resultados erróneos.  Resumir la información de una manera útil e informativa  Analizar la información disponible.  Sacar conclusiones y hacer inferencias determinando el riesgo de una conclusión incorrecta.02/12/2011 5 ING. ROBERTO AGUILERA LOPEZ
  6. 6. RJAL IMPORTANCIA DE LA ESTADISTICA USARIOS DE LA ESTADISTICA  Organismos oficiales  Administradores y gerentes de línea  Investigadores científicos  Diarios y revistas  Políticos  Deportistas  Marketing  Control de calidad  Policía  Médicos, etc.02/12/2011 6 ING. ROBERTO AGUILERA LOPEZ
  7. 7. RJAL RAMAS DE LA ESTADISTICA ESTADISTICA DESCRIPTIVA La estadística descriptiva se puede definir como aquellos métodos que incluyen la recolección, organización, presentación y caracterización de un conjuntos de datos con el fin de describir apropiadamente las diversas características de ese conjunto de datos Ejemplo 1: Los datos del Censo de población de 2001. Ejemplo 2: La cantidad de robos ocurridos el último mes en el municipio. Ejemplo 3: La cantidad de pacientes atendidos en un Hospital municipal el último año.02/12/2011 7 ING. ROBERTO AGUILERA LOPEZ
  8. 8. RJAL RAMAS DE LA ESTADISTICA ESTADISTICA INFERENCIAL La estadística inferencial puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de decisión referente a una población , basándose en los resultados de una muestra. Población(1) es la colección o conjunto de individuos, objetos o eventos cuyas propiedades serán analizadas. Puede ser finita o infinita Muestra es un subconjunto de la población de interés. (1) Algunos autores utilizan Universo como sinónimo02/12/2011 8 ING. ROBERTO AGUILERA LOPEZ
  9. 9. RJAL RAMAS DE LA ESTADISTICA Ejemplos de inferencia estadística Predecir el periodo de vida útil de un equipo (sobre la base del desempeño de estas maquinas) Determinar las dosis de un medicamento (sobre la base de pruebas realizadas) Pronosticar la cantidad de ventas de un producto (sobre la base de su precio, diseño, ubicación, publicidad)02/12/2011 9 ING. ROBERTO AGUILERA LOPEZ
  10. 10. RJAL RECOPILACION DE DATOSDatos de fuentes primarias: Son aquellosdatos que no han sido recopiladosanteriormente por parte de organismosque trabajan en la obtención yelaboración de datos y que porconsiguiente, son observados y anotadospor el investigador.• Encuestas• Observación• Entrevistas con expertos• Entrevistas de grupo con personas informadas02/12/2011 10 ING. ROBERTO AGUILERA LOPEZ
  11. 11. RJAL RECOPILACION DE DATOSDatos de fuentes secundarias son datos yahan sido recopilados y elaborados parapropósito diferentes de las necesidadesinmediatas y específicas de una investigaciónLos datos secundarios se clasifican comoprovenientes de: Fuentes internas: disponible dentro de la organización. Fuentes externas: son proporcionados por fuentes externas a la organización02/12/2011 11 ING. ROBERTO AGUILERA LOPEZ
  12. 12. RJAL RECOPILACION DE DATOS Por correo Encuestas Telefónicas Personales De grupos Entrevistas Personales Personal Observación Mecánica Recolección de información primaria Test Recolección de Experimental Retorno Etiquetas información secundaria Mercado Registros contables Fuentes internas Banco de datos de marketing Censos Fuentes externas Publicaciones periódicas Informes02/12/2011 12 ING. ROBERTO AGUILERA LOPEZ
  13. 13. RJAL RECOPILACION DE DATOS Parámetro: Valor numérico que resume todos los datos de una población completa. Se utilizan letras griegas para simbolizar un parámetro como ser  y  . Ejemplos: La calificación “promedio” del estudiante de secundaria en el momento de admisión de todos los estudiantes a una Universidad. Estadística: Valor numérico que resume los datos de una muestra. Se utilizan letras del alfabeto español para simbolizarlas como y s . Ejemplo: La edad “promedio” registrada en una encuesta de 150 consumidores de gaseosas.02/12/2011 13 ING. ROBERTO AGUILERA LOPEZ
  14. 14. RJAL RECOPILACION DE DATOS Variable: Característica de interés sobre cada elemento individual de una población o muestra. Datos: conjunto de valores recolectados de la variable asociada a un elemento de la población o muestra. Estos valores pueden ser números, palabras o símbolos. Ejemplo: La familia López tiene “6” miembros, sus ingresos mensuales son de “C$ 12,355”, “4” son de sexo femenino y “2” masculino.02/12/2011 14 ING. ROBERTO AGUILERA LOPEZ
  15. 15. RJAL RECOPILACION DE DATOS Cualitativa o de Atributos: clasifica o describe un elemento de la población. Los valores que puede asumir no constituyen un espacio métrico, por lo tanto las operaciones aritméticas, como sumar y obtener promedios, no son significativas. Ejemplos: Sexo, nacionalidad, marcas de auto, grado de satisfacción, etc. Cuantitativa o Numérica: Cuantifica un elemento de la población. Los valores que puede asumir constituyen un espacio métrico, por lo tanto las operaciones aritméticas, como sumar y obtener promedios, son significativas. Ejemplos: Cantidad de habitaciones, número de hijos, kilómetros recorridos, tiempo de vuelo, ingreso, etc. 02/12/2011 15 ING. ROBERTO AGUILERA LOPEZ
  16. 16. RJAL RECOPILACION DE DATOS Variables Discretas: solo pueden asumir ciertos valores y normalmente hay huecos entre ellos. Es decir cuando los posibles valores son un conjunto finito entre dos valores dados. Ejemplo 1: Cantidad de materias aprobadas.(1, 2,3 ......) Ejemplo 2: Cantidad de hijos (1, 2, 3, 4...) Variables Continuas: son aquellas que pueden tomar cualquier valor dentro de un rango especifico de medición. Normalmente se miden magnitudes como ser longitud, superficie, volumen, peso, tiempo, dinero. Ejemplo 1: Peso al nacer. Ejemplo 2: Salario de un empleado. Ejemplo 3: Tiempo de viaje en bus entre Chinandega y León. 02/12/2011 16 ING. ROBERTO AGUILERA LOPEZ
  17. 17. RJAL PRESENTACION DE DATOSUna vez que los datos se recopilan se presentanbásicamente mediante tablas y por gráficos. TITULO CALIFICACIONES DE ESTADISTICAS (ENCABEZAMIENTO) GRUPO 2M1IS 68 52 44 32 10 73 73 31 32 83 45 61 CONTENIDO (CUERPO) 61 45 21 95 58 35 66 83 15 67 62 42 96 65 81 72 60 55 DEPARTAMENTO DE MATEMATICA FUENTE RUPAP - UNI02/12/2011 17 ING. ROBERTO AGUILERA LOPEZ
  18. 18. RJAL PRESENTACION DE DATOSCuando disponemos de gran número de datos es útil el distribuirloen clases o categorías y determinar el número de individuospertenecientes a cada clase, que es la frecuencia de clase. Alturas de 100 estudiantes de la UNI ALTURA NUMERO DE (mts) ESTUDIANTES 1.41 - 1.50 23 1.51 - 1.60 28 1.61 - 1.70 37 1.71 - 1.80 10 1.81 - 1.90 2 TOTAL 10002/12/2011 18 ING. ROBERTO AGUILERA LOPEZ
  19. 19. RJAL PRESENTACION DE DATOSUna distribución de frecuencia es una ordenación tabularde datos estadísticos que muestran cuantos elementos o quepartes entran en diferentes intervalos o categorías en loscuales se agrupan los datos.Las distribuciones de frecuencia pueden ser distribucionesnuméricas o cualitativas. DÍAS ARTÍCULOS Número de DEFECTUOSOS estudiantes 1 35 Planean ir a la Universidad 240 2 45 Quizás vayan a la Universidad 140 3 52 Quizás vayan a un vocacional 60 4 31 5 48 No seguirán estudiando 6002/12/2011 19 ING. ROBERTO AGUILERA LOPEZ
  20. 20. RJAL PRESENTACION DE DATOSPara construir distribuciones de frecuencias se debe detomar en cuenta que: Siempre nos aseguramos de que cada elemento quede en una sola clase. Siempre que sea posible, hacemos que las clases cubran escalas o intervalos iguales. El número de clases depende del número de observaciones pero tiene muy poca utilidad usar menos de 5 o más de 20 clases. Se deben evitar las clases abiertas (menos de, más de, menor que, mayor que) ya que hacen imposible el cálculo de ciertas descripciones adicionales que sean de interés.02/12/2011 20 ING. ROBERTO AGUILERA LOPEZ
  21. 21. RJAL PRESENTACION DE DATOSPasos para organizar los datos en una distribución defrecuencia1. Seleccionar el número apropiado de agrupamientos de clases. En general la tabla deberá tener entre 5 y 20 clases. Se puede utilizar una regla simple para aproximar el número de clases a utilizar, c, la cual es 2c > n, donde n es el número de datos.2. Determinar el intervalo o amplitud de clase de cada agrupamiento. Valor unitario siguiente Valor másAncho de después del valor más - pequeño delos intervalos = grande de los datos los datos .de clase Número total de intervalos02/12/2011 21 ING. ROBERTO AGUILERA LOPEZ
  22. 22. RJAL PRESENTACION DE DATOSPasos para organizar los datos en una distribución defrecuencia3. Establecer los límites de cada agrupamiento de clase para evitar los traslapes.4. Clasifique los puntos de datos en clase y cuente el número de observaciones que hay en cada clase. Al número de observaciones en cada clase se le llama frecuencia de clase.La marca de clase es el punto medio del intervalo de clase yse obtiene sumando el límite inferior al límite superior de laclase y dividiendo entre dos.02/12/2011 22 ING. ROBERTO AGUILERA LOPEZ
  23. 23. RJAL PRESENTACION DE DATOSEjemplo: Los siguientes datos indican el número detrabajadores que faltan a una fábrica en 50 días detrabajo. Construya una tabla de distribución defrecuencia. Represéntelos gráficamente a través de unhistograma de frecuencia, un polígono de frecuencias,una ojiva y una ojiva porcentual. 13 5 13 37 10 16 2 11 6 12 8 21 12 11 7 7 9 16 39 18 3 11 19 6 15 10 14 10 7 24 11 3 6 10 4 6 32 9 12 7 29 12 9 9 8 20 15 5 17 1002/12/2011 23 ING. ROBERTO AGUILERA LOPEZ
  24. 24. RJALREPRESENTACIÓN GRÁFICA DE LOS DATOSHISTOGRAMA DE FRECUENCIA.Consiste en una serie de rectángulos que tienen sus basessobre el eje horizontal con centro en las marcas de clase(Xi), ancho igual al tamaño de los intervalos de clase yalturas proporcionales a las frecuencias de clase.POLÍGONO DE FRECUENCIA.Gráfico que consiste en unir los puntos formados por laintersección de cada marca de clase (Xi) y la frecuencia declase (fi). Es decir la frecuencia dentro de un intervalo declase se representa como un punto, cuya abcisa es la marcade clase. Posteriormente, se unen los puntos para obtener elpolígono de frecuencia, teniendo cuidado de agregar alinicio y al final marcas de clases adicionales.02/12/2011 24 ING. ROBERTO AGUILERA LOPEZ
  25. 25. RJALREPRESENTACIÓN GRÁFICA DE LOS DATOS OJIVA Gráfico que resulta de unir los puntos colocados encima de los límites reales de la clase a una altura según la frecuencia absoluta acumulada o es decir se marcan los intervalos de clase en el eje horizontal y la frecuencia absoluta acumulada en el eje vertical como ordenada en el extremo derecho de dicho intervalo. OJIVA PORCENTUAL Gráfico que resulta al unir los puntos colocados encima de los límites reales de clase a una altura según la frecuencia relativa acumulada. DIAGRAMA DE PASTEL. Es un círculo dividido en sectores circulares proporcionales al tamaño de las frecuencias.02/12/2011 25 ING. ROBERTO AGUILERA LOPEZ
  26. 26. RJAL MEDIDAS DE TENDENCIA CENTRALUn promedio es un valor que es típico o representativo deun conjunto de datos. Como tales, estos valores tienden asituarse en el centro del conjunto de datos ordenados segúnsu magnitud, los promedios se conocen también comomedidas de centralización DATOS DATOS NO AGRUPADOS AGRUPADOS LA MEDIA LA MEDIA MEDIANA MEDIANA LA MODA LA MODA CUARTILES MEDIA PONDERADA DECILES MEDIA GEOMETRICA PERCENTILES02/12/2011 26 ING. ROBERTO AGUILERA LOPEZ
  27. 27. RJAL MEDIDAS DE TENDENCIA CENTRAL. DATOS NO AGRUPADOSMedia aritméticaMedia poblacional = Suma de todos los valores de la población Número de valores en la poblaciónMedia muestral = Suma de todos los valores en la muestra Número de valores en la muestra02/12/2011 27 ING. ROBERTO AGUILERA LOPEZ
  28. 28. RJAL MEDIDAS DE TENDENCIA CENTRAL.MedianaLa mediana de un conjunto de observaciones xi se definecomo el valor M que cae en el centro de los dos valorescentrales cuando las observaciones están colocadas enorden de magnitud.Si el conjunto de datos tiene un número impar deobservaciones, la posición de la mediana esPosición de la mediana = (n + 1) / 2Con un conjunto de datos que contiene un número par deobservaciones es necesario promediar los dos valoresmedios.02/12/2011 28 ING. ROBERTO AGUILERA LOPEZ
  29. 29. RJAL MEDIDAS DE TENDENCIA CENTRAL.ModaLa moda es el valor de las observaciones que se presentancon más frecuencia, es decir el valor más común.La moda puede no existir, incluso si existe puede no serúnica. La denotaremos por Mo.Media ponderadaSe presenta cuando se tienen varias observaciones con unmismo valor. X = f1x1 + f2x2 + f3x3 +... + fkxk = Σfixi = Σfixi f1 + f2 + f3 + ..... fk Σfi n02/12/2011 29 ING. ROBERTO AGUILERA LOPEZ
  30. 30. RJAL MEDIDAS DE TENDENCIA CENTRAL.Media geométricaLa media geométrica es útil para encontrar el promedio deporcentajes, proporciones, índices o tasas de crecimiento.Como tal, tiene una gran aplicación en los negocios y laeconomía, debido a que con frecuencia se está interesadoen establecer el cambio porcentual en las ventas, en elsalario, en el producto interno bruto, o en cualquier serieeconómica.La media geométrica proporciona una medida precisa de uncambio porcentual promedio en una serie de números.02/12/2011 30 ING. ROBERTO AGUILERA LOPEZ
  31. 31. RJAL MEDIDAS DE TENDENCIA CENTRAL. DATOS AGRUPADOSMedia aritméticaMedianaM = Linf + [n/2 - F] * c fmdLinf = Límite inferior de la clase medianan = Tamaño de la muestra.c = Tamaño de la clase mediana.F = Frecuencia acum. de la clase que antecede a la clase mediana.fmd = Frecuencia de la clase mediana.02/12/2011 31 ING. ROBERTO AGUILERA LOPEZ
  32. 32. RJAL MEDIDAS DE TENDENCIA CENTRAL.ModaLa moda es el intervalo de clase (a menudo indicada por elpunto medio de la clase) que posee la mayor frecuencia. M = Linf + [ Da ]*c Db + DaLinf: Límite inferior real de la clase modal.c : Tamaño de la clase modal.Da : Diferencia entre la frecuencia de la clase modal y la clase que la antecede.Db : Diferencia entre la frecuencia de la clase modal y la clase que le sigue.02/12/2011 32 ING. ROBERTO AGUILERA LOPEZ
  33. 33. RJAL MEDIDAS DE TENDENCIA CENTRAL.POSICIONES RELATIVAS DELA MEDIA, LA MEDIANA Y LAMODA Curva ASi el polígono de frecuencia, essimétrico, es decir que ladistribución tiene la mismaforma a ambos lados delcentro; la moda, la mediana yla media aritmética se localizan Moda = Mediana = Mediaen el centro y son siempreiguales.02/12/2011 33 ING. ROBERTO AGUILERA LOPEZ
  34. 34. RJAL MEDIDAS DE TENDENCIA CENTRAL. DISTRIBUCIÓN SESGADA DISTRIBUCIÓN SESGADA A LA DERECHA A LA IZQUIERDAFrecuencia Frecuencia Curva A Curva B Sesgada a la izquierda (negativamente sesgada) Sesgada a la derecha (positivamente sesgada) Mo M Media Media M Mo 02/12/2011 34 ING. ROBERTO AGUILERA LOPEZ
  35. 35. RJAL MEDIDAS DE TENDENCIA CENTRAL. OTROS TIPOS DE MEDIDAS: CUARTILES, DECILES Y PERCENTILES. Alcance intercuartil ¼ de las observaciones ¼ de las observaciones Observación 1er cuartil 2do cuartil 3er cuartil Observación más baja Q1 Q2 Q3 más alta MEDIANA Q1 Q2 Q3 └─────┴─────┴──┼──┴─────┴─────┼─────┴─────┴──┼──┴─────┴─────┴ 0 1 2 │ 3 4 5 6 7 │ 8 9 10 P25 P50 P75 D1 D2 D3 D4 D5 D6 D7 D8 D9 D1002/12/2011 35 ING. ROBERTO AGUILERA LOPEZ
  36. 36. RJAL MEDIDAS DE TENDENCIA CENTRAL.Las fórmulas para los cuartiles Q1 y Q3 son: 3 ( − ) ( − )1 = + 4 ∗ 3 = + 4 ∗ Las fórmulas para los deciles D1 y D9 son: 9 ( − ) ( − )1 = + 10 ∗ 9 = + 10 ∗ Las fórmulas para los percentiles P30 y P68 son: 30 68 ( − ) ( − )30 = + 100 ∗ 68 = + 100 ∗ 02/12/2011 36 ING. ROBERTO AGUILERA LOPEZ
  37. 37. RJAL

×