La distribucion normal y su uso en la inferencia estadistica

68,565 views

Published on

Published in: Education, Technology
0 Comments
11 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
68,565
On SlideShare
0
From Embeds
0
Number of Embeds
90
Actions
Shares
0
Downloads
919
Comments
0
Likes
11
Embeds 0
No embeds

No notes for slide

La distribucion normal y su uso en la inferencia estadistica

  1. 1. La distribución Normal y su uso en la Inferencia Estadística
  2. 2. Los conceptos básicos de Probabilidad y de Distribuciones Muestrales sirven como introducción al método de Inferencia Estadística; esta se compone en dos áreas: • Estimación • Pruebas de Hipótesis La estimación busca evaluar los valores de los parámetros de la población (por ejemplo la media y la desviación estándar) basados en una muestra. Las pruebas de Hipótesis constituyen un proceso relacionado con aceptar o rechazar alguna afirmación acerca de los parámetros de la población.
  3. 3. Ejemplo. Supóngase que un fabricante de lápices compra a un proveedor borradores para pegarlos a los lápices. El fabricante tiene que decidir si cada lote de borradores del proveedor es de calidad aceptable. Para ello necesita que contenga el 15% o menos de borradores defectuosos. Desde luego, no puede inspeccionar cada borrador del lote. Debido a esto, obtiene una muestra de 20 borradores de cada lote y la inspecciona. Decide que si hay 3 o menos borradores defectuosos en la muestra, aceptará un lote; si hay más de 3 defectuoso rechazará el lote y lo de volverá al proveedor. Sin embargo, si acepta un lote cuando éste contiene más del 15% de borradores defectuosos, ha cometido un error. Por otra parte si rechaza un lote cuando contiene menos del 15% de borradores defectuosos, también ha cometido un error. Con base en la evidencia proporcionada por la muestra, el fabricante ha tratado de responder a la pregunta ¿tiene el lote una proporción de lápices defectuoso tan grande que sea necesario rechazarlo?
  4. 4. Al responder a lo anterior, el fabricante de lápices ha tomado una decisión acerca de la proporción de defectos en la población general, ya que la proporción en la población es un parámetro de la población y las decisiones acerca de los parámetros de la población constituyen el proceso de pruebas de hipótesis, en realidad el fabricante ha realizado la tarea de probar una hipótesis. tesis Si el fabricante está interesado en estimar la verdadera proporción de defectos con base a su información muestral, tendrá que intentar responder a la pregunta Con base en la muestra ¿Qué afirmación puedo hacer acerca de la proporción de la población que es defectuosa ? Esta pregunta corresponde a lo que se llama Estimación.
  5. 5. ¿Porqué es normal la distribución Normal? Al hacer mediciones de cualquier tipo y distribuir nuestros resultados bajo algún criterio, es muy común encontrar que los datos se agrupen de manera muy característica. En muchos de estos casos veremos que dichas distribuciones siguen una forma muy particular en la que tenemos un mayor número de observaciones para cierto valor, disminuyendo la cantidad de observaciones a ambos lados de la observación más frecuente. Un ejemplo es al dejar caer canicas por entre una serie clavos como lo muestra la figura, al final del experimento con muchas canicas tendremos que las canicas se han agrupado como se ve en la figura. Ejemplo interactivo: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html
  6. 6. A este tipo de distribución se le conoce como Distribución Gaussiana, ya que el matemático alemán Karl F. Gauss (1799-1830) fue quien la describió de manera analítica. La forma de ésta función es parecida a la de una campana, por eso también se conoce como “campana de Gaus”.
  7. 7. Es tan común encontrar esta distribución en tan diversas ramas del conocimiento, que también se le da el nombre de Distribución Normal. La aportación de Gauss se honraba en los billetes de los marcos alemanes (antes de los Euros) como uno de sus descubrimientos más trascendentales.
  8. 8. La distribución Gaussiana se aplica a una gran gama de observaciones en ramas como la biología, la geografía, la astronomía y por supuesto la economía. Muchos ejemplos de la naturaleza se pueden aproximar con una distribución normal. En general esto se puede pensar como resultado de la interacción de muchos (o un gran número) efectos aleatorios en la variable que se estudia. Por ejemplo, si medimos el tamaño de las hojas de un árbol, veremos que tienden a distribuirse en forma gaussiana. Ejercicio interactivo: Máquina de Galton Muestra como se va formando una distribución normal a partir de una combinación de parámetros (8 en este caso) http://www.shodor.org/interactivate/activities/NormalDistribution/?version=1.6.0_03&browser=Mozilla&vendor=Sun_Microsystems_Inc.
  9. 9. Pero ¿a qué se debe esta aparentemente sorprendente resultado? Estas distribuciones son el resultado del agregado de muchos procesos azarosos o fortuitos que podrían no ser observables individualmente. Matemáticamente esta distribución obedece a lo que se conoce como el Teorema del Límite Central. Central Este teorema estipula que si tomamos muestras de una población que tenga cualquier tipo de distribución, pero una media y varianza finitas, entonces, la distribución de las medias tiende a la distribución normal. Entre mayor sea el número de muestras mejor será la aproximación a una distribución normal.
  10. 10. Otro motivo por el cual as distribuciones normales son muy utilizadas es que tienen muchas propiedades muy convenientes. Por eso, si las variables aleatorias que nos interesan tienen distribuciones desconocidas, podemos hacer inferencias iniciales suponiendo distribuciones normales. Entre las propiedades agradables de la distribución normal, están • La de la distribución normal de suma. La suma de dos variables con distribuciones normales es también normal. • La de la distribución normal de diferencias. La diferencia de dos variables con distribuciones normales es también normal.. Debido a todo lo anterior esta distribución es muchas veces el modelo de partida de los análisis de los datos. Aunque cuando no podemos generalizar, en la mayoría de los casos la podremos utilizar como una buena aproximación a la realidad.
  11. 11. Distribución Normal Estándar o tipificada. Calificación Z. Una de las consecuencias del Teorema del Límite Central es que dada una población con media μ y para n lo bastante grande, la distribución de la variable x −x Z= i s es una distribución normal. donde: xi es la observación que estamos queriendo analizar x es el valor de la media de la muestra s es el valor de la desviación estándar de la muestra Si nos fijamos en la fórmula el valor de Z es la distancia de la observación a la media en unidades de desviación estándar, es decir, a cuántas ndar desviaciones estándar está alejada nuestra observación de la media.
  12. 12. Veamos a qué corresponde esto para una distribución normal: z=s z = 2s z = 0.5s
  13. 13. Actividad 1 Si nos dicen que una población tiene una media de 23 y una desviación estándar de 3.5, encontrar la calificación Z de a)26.6, b) 16, c)19.5 d) 29: a) 26.6 − 23 lo que significa que 26.6 está a 1.03 Z= = 1.03 3.5 desviaciones estándar a la derecha de la media (porque es positivo). b) Z= 16 - 23 = -2 lo que significa que la observación está 3.5 a 2 desviaciones estándar a la izquierda de la media (porque es negativo). c) Z= 19.5 - 23 = -1 ¿Qué significa este resultado? 3.5 d) 29 − 23 ¿Qué significa este resultado? Z= = 1.72 3 .5
  14. 14. Si cambiamos todos los valores observados a calificaciones Z, entonces podemos crear una distribución normal genérica llamada distribución normal estándar o tipificada en donde • la media, que está en el centro de la curva, nos queda en el valor 0 • la desviación estándar es ahora igual a 1 y • el área bajo la curva también es igual a la unidad lo que equivale al total de los casos de la población estudiada, es decir, El área es = 1 corresponde al 100% de los casos, y porciones del área son proporcionales a porcentajes parciales de la muestra. De este modo, la porción de área bajo la curva, limitada por dos ordenadas o perpendiculares levantadas en puntos del eje X, expresan el porcentaje de casos que quedan comprendidos entre las calificaciones Z correspondientes a los puntos sobre los que se trazan las ordenadas. Veámoslo en el siguiente diagrama.
  15. 15. Porcentajes del Área total o porcentajes de la población o probabilidad 2.15% 13.59% 34.13% 34.13% 13.59% 2.15% -3 -2 -1 0 1 2 3 Valores o calificaciones z El área correspondiente a una distancia de 1 desviación estándar de la media (a ambos lados) es de aproximadamente 68%
  16. 16. De acuerdo a lo especificado anteriormente entonces entre 0 y 1 se encuentra el 34.13% de los casos, es decir que el área bajo la curva es 0.3413, o lo que significa que el 68.26% de la población está alejada de la media a lo más una desviación estándar. O que solamente el 4.30% de los casos están más allá de dos desviaciones estándar de la media. Existen tablas que nos ayudan a obtener los porcentajes de casos entre diferentes calificaciones Z y la media. Sin embargo se debe tener mucho cuidado de ver cuál es el área bajo la curva que nos dan, porque se tabula de forma diferente en los libros, algunos la dan a partir de 0 y otros a partir de - ∞. R e g l a e m p ír i c a f(z) -4 -3 -2 -1 0 1 2 3 4 z Ejemplos: 1.Si queremos encontrar el área bajo la curva comprendida entre las calificaciones estándar de los incisos a) y d) anteriores, buscamos en la tabla los valores que corresponden:
  17. 17. para Z = 1.03 el área bajo la curva es 0.8485 para Z = 1.72 el área bajo la curva es 0.9564 lo que nos da un área de 0.9564-0.8485 = 0.1079 Esto quiere decir que el 10.79% está entre los valores 26.6 y 29 (recordar que el área total =1 equivale al 100% de los casos). 10.79% 1.03 1.72 Z
  18. 18. Que porcentaje de datos podríamos esperar con valores mayores a 29? para Z = 1.72 el área bajo la curva es 0.9564 lo que nos da 1 – 0.9564 = 0.0436 o sea 4.36% 10.79% 1.03 1.72 Z
  19. 19. 2. Encontrar el área bajo la curva entre las calificaciones z = -2 y z = -1 Como la tabla no nos da el área del lado izquierdo tomamos los mismos valores del lado derecho y el área es la misma porque es simétrica. Para Z = 2 el área bajo la curva es 0.9772 para Z = 1 el área bajo la curva es 0.8413 lo que nos da un área entre medio de ellas de 0.9772-0.8413 = 0.1359 13.59% 13.59% -2 -1 0 1 2 Z
  20. 20. Cálculo de Probabilidades Antes de pasar a usar los conceptos anteriores tenemos que definir qué es la probabilidad. Podemos pensar en este concepto de dos maneras: 1. Si conocemos todos los resultados posibles de un experimento u observación, y queremos saber el porcentaje de que ocurra un cierto tipo de resultado, entonces llamamos probabilidad a: Número ⋅ de ⋅ resultados ⋅ de ⋅ un ⋅ cierto ⋅ tipo n P( A) = = Número ⋅ de ⋅ resultados ⋅ totales N Actividad No. 1: Al tirar dos dados queremos ver la probabilidad de que salga el número 4 al sumar los puntos.
  21. 21. En este caso el número total de resultados es 36, por lo tanto N=36 El número de resultados que cumplen el criterio es 1+3, 2+2, 3+1, n=3 n 3 1 P( A) = = = N 36 12 Es la probabilidad de que la suma de los puntos de dos dados sea = 4
  22. 22. Si embargo, algunas de estas sumas se repiten, por lo que podemos hacer una tabla como la siguiente Valores Número Probabilidad de la suma de P(x) (x) casos 2 1 1/36 3 2 2/36 4 3 3/36 5 4 4/36 6 5 5/36 7 6 6/36 8 5 5/36 9 4 4/36 10 3 3/36 11 2 2/36 12 1 1/26 Total 36 1.0
  23. 23. Si ahora hacemos un histograma con los valores de las sumas y sus probabilidades, tendremos lo siguiente Esto es lo que llamaríamos a una distribución de probabilidad para la suma de dos dados. La cual, por cierto, en este caso se aproxima a una distribución normal.
  24. 24. 2. Por medio de la frecuencia. Si realizamos un experimento muchas veces (tantas como sea posible) entonces Número ⋅ de ⋅ resultados ⋅ de ⋅ un ⋅ cierto ⋅ tipo n P( A) = = Número ⋅ de ⋅ resultados ⋅ totales N La diferencia con la forma anterior es que ahora no conocemos todos los posibles casos, sino que los “medimos”. Como puede pensarse, en esta situación tendremos una “aproximación” a la probabilidad buscada, la cual es mejor mientras mayor sea el número de experimentos.
  25. 25. Tarea 3. Si se tiene una media de 156 y una desviación estándar de 15, encontrar las calificaciones Z para: a) 144 b) 167 c) 173 d) 136 Encontrar el área bajo la curva entre las calificaciones Z de: a) y b) b) y c) b) y d) Nota: se puede consultar cualquier tabla de calificaciones Z en un libro de estadística pero hay que fijarse si se tabula la curva completa o sólo la mitad.

×