Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

La distribución normal explicada.

27,664 views

Published on

Una explicación intuitiva de la distribución normal.

Published in: Education

La distribución normal explicada.

  1. 1. LA DISTRIBUCIÓN NORMAL Por: Jorge L. De La Cruz Oré Tantas veces hemos escuchado, leído, re-leído acerca de la distribución normal y la distribución normal estándar (que no son lo mismo), tanto que a veces nos hemos preguntado por qué tenemos que aprenderla y por qué nunca nos sirve en la práctica (casi nadie hace inferencias con la distribución normal). Pues la respuesta es más simple de lo que parece: la distribución normal es solo teórica, y la distribución normal estándar es aún más teórica. Sin embargo es importante conocerla porque casi toda la estadística se entenderá mejor si se han comprendido ambos conceptos. La distribución normal fue descubierta (también se puede decir que fue inventada) por F. Gauss, por eso también se llama distribución de Gauss. Entonces veamos como pensó Gauss: él estaba tratando de medir las distancias que existen entre un gran número de estrellas visibles desde la tierra y anotaba tales mediciones. Cuando las volvía a medir descubría que las nuevas mediciones eran cercanas a las primeras pero no iguales, sucesivas mediciones le revelaban que casi ninguna era igual a las anteriores, sin embargo todas eran muy próximas. Lo mismo nos pasaría a nosotros si intentamos medir la altura de una persona varias veces, los resultados serían muy próximos pero no iguales. Ahora, con esto en mente podemos dibujar nuestras mediciones en un plano cartesiano (como seguramente lo hizo Gauss) para colocar en el eje horizontal “X” la medición del tamaño de la persona y en el eje “Y” (vertical) el número de veces que obtuvimos las mediciones. Seguramente, si repetimos las mediciones un gran número de veces y las graficamos como acordamos, terminemos obteniendo un gráfico como el siguiente: Talla de una misma persona medida muchas veces (en mm) 9 8 7 Conteo 6 5 4 3 2 1 0 1640 1650 1660 1670 1680 1690 1700 1710 1720 1730 1740 1750 1760 Talla (mm)
  2. 2. Para obtener el gráfico se pudo haber medido a una misma persona cuya talla real es de 1,70m (es decir 1700 mm) con un altímetro que discierne en milímetros. Como vemos, un gran número de veces la talla obtenida es la correcta, sin embargo los errores hacia arriba y hacia abajo son cada vez menores a medida que nos alejamos del verdadero tamaño medido de la persona. Si consideramos a la talla como una medida continua (en realidad la talla es continua) y le superponemos una curva para “suavizar” la gráfica lo que obtenemos es lo siguiente: Mediciones de la talla de una misma persona Normal Media N 9 1700 53 8 Frecuencia 7 6 5 4 3 2 1 0 1640 1660 1680 1700 1720 Talla (mm) 1740 1760 Lo que hemos obtenido es una curva en forma de campana también conocida como “campana de Gauss”, “curva normal”, “campana normal”. Ésta curva se caracteriza porque tiene al promedio de la talla (o verdadera talla) al centro, y va disminuyendo hacia los costados. Algo que cabe resaltar es que la curva jamás llegará a tocar al eje X si realizamos cada vez más mediciones (es decir, la curva es asíntota al eje X). Si realizamos la medición de la talla de toda una población (puede ser la población de la ciudad de Lima), obtendremos una curva normal muy parecida a la que obtuvimos a partir de una sola persona pero con el promedio de la población ubicado exactamente al centro de la curva. La dificultad radica en que no tenemos ni el presupuesto, ni el tiempo, ni las ganas de medir la talla de todos los habitantes de Lima (aproximadamente 10 millones), así que no nos queda más que contentarnos con obtener una buena muestra. Por buena muestra entendemos que la misma es representativa de toda la población, es decir que se trata de una muestra obtenida utilizando
  3. 3. alguna técnica de la aleateorización. Aquí seguiremos refiriéndonos a la población ya que así es más sencillo poder explicar la distribución normal. Cabe remarcar lo que dijimos al inicio acerca de la distribución normal, se trata de una curva teórica, las variables reales rara vez se distribuyen normalmente, pero se pueden aproximar mucho a la misma. Para continuar profundizando necesitamos conocer un concepto muy importante: la desviación estándar poblacional (σ). Por cierto, la desviación estándar no es lo mismo que el error estándar (EE), el cual se puede calcular a partir del primero, sin embargo aquí solo trabajaremos con σ, ya que el EE es tema de otro artículo. Desviación Estándar Poblacional (σ –letra griega que se pronuncia sigma-): Es una medida de dispersión, esto quiere decir que es la mejor forma de calcular (no mide exactamente) el grado de dispersión o error que obtenemos cuando queremos medir algo. En el ejemplo inicial, cada vez que medíamos la talla de una persona obteníamos valores diferentes; la desviación estándar nos puede dar un cálculo aproximado de esos errores de medición. Para hallarla, primero debemos obtener el promedio de los valores, luego restar ese promedio obtenido de cada valor observado, elevar al cuadrado dichas diferencias, sumarlas todas, al resultado se le divide entre el número de observaciones y finalmente se le saca la raíz cuadrada. Lo podemos resumir en una fórmula para entender mejor: Donde: σ= ( − μ) + ( − μ) + ⋯ ( − μ) µ Es la media de la población σ Es la desviación estándar de la población … Representan a los N valores de datos Es el número de observaciones de la población Avancemos más en las propiedades de la distribución normal. Ya dijimos que tiene forma de campana y que el promedio se encuentra en el centro, ahora mencionaremos que el área bajo toda la curva debe sumar 1 (es decir, toda el área es el 100% de la misma área, lo cual es lógico, pero 100% = 1, por eso se dice que su valor en términos de probabilidad es 1). Así, si dividimos la curva en dos partes iguales (derecha e izquierda) mediante una línea vertical que pase por el
  4. 4. centro (por la media), el área de cada lado es igual a 0.5 del área total, y simplemente se dice que es igual a 0.5 como se aprecia en la siguiente gráfica. Gráfica de distribución Normal, Media=1700, Desv.Est.=27.5 1700 0.016 0.014 Densidad 0.012 0.010 0.008 0.5 0.006 0.5 0.004 0.002 0.000 1600 1650 1700 X 1750 1800 En la gráfica podemos ver que ahora en el eje Y ya no figura la etiqueta “frecuencia”, sino “Densidad”, lo cual indica que ahora se está considerando en ese eje la cantidad de información que contiene la curva debajo de ella en cada punto. También se aprecia que la desviación estándar (σ) ha sido calculada y es igual a 27.5 mm. Pero no todo queda ahí, para complicar el tema tenemos que ver dónde interviene la desviación estándar en todo esto. Pues la desviación estándar nos sirve para hacer más divisiones al área bajo la curva. Partiendo de la línea vertical que se levanta sobre la media podemos extendernos a ambos lados teniendo a la desviación estándar como nueva unidad de medida y así calcular las áreas bajo la curva que más sea de nuestro interés. Como estamos viendo en el ejemplo que estamos usando, la media es 1700 mm, y la desviación estándar 27.5 mm. Pues podemos usar el valor de la desviación estándar para navegar a la derecha e izquierda de la media en el eje X, levantar líneas verticales y calcular áreas bajo la curva de manera rápida y fácil con solo consultar una tabla de distribución Z (que vienen casi siempre al final de los libros de estadística, o se puede consultar en el internet). Así tenemos que si nos movemos una desviación estándar (en nuestro caso 27.5mm) en el eje X a la izquierda, obtenemos lo que se muestra en el gráfico siguiente:
  5. 5. Gráfica de distribución Normal, Media=1700, Desv.Est.=27.5 0.016 0.014 Densidad 0.012 0.010 0.008 0.34 0.006 0.004 0.002 0.16 0.000 1672.5 1700 X En éste gráfico nos hemos desplazado una desviación estándar a la izquierda a partir de la media (1700 – 27.5 = 1672.5) y observamos que el área que está sombreada (consultando con una tabla de distribución Z) es igual a 0.34 (es decir el 34%) del área total. Y el área que queda entonces a la izquierda de la nueva línea es 0.5 – 0.34 = 0.16. Pronto veremos la manera de calcular las áreas al estudiar la desviación normal estándar, por ahora sigamos en lo que nos interesa. Pero el área que más interés tiene en la distribución normal es la que concentra el 95% (es decir el 0.95) del área total central, tal como se aprecia en la figura siguiente: Gráfica de distribución Normal, Media=1700, Desv.Est.=27.5 0.016 0.014 Densidad 0.012 0.010 0.008 0.95 0.006 0.004 0.002 0.000 1646.1 1700 X 1753.9
  6. 6. Como se aprecia en el gráfico, el área bajo la curva central es de 0.95, y los valores en los que se ubican las líneas verticales a la derecha e izquierda de la media corresponden a 1.96 veces (casi dos veces) el valor de la desviación estándar (27.5*1.96 = 53.9 mm a la izquierda y a la derecha de la media). Las pequeñas áreas no sombreadas laterales miden 0.025 cada una y se obtienen de restar al área total el 0.95 central y luego dividir éste resultado entre dos: (1 – 0.95)/2 = 0.025. Po lo tanto y como regla general vamos a tener que: - Una desviación estándar a la derecha y a la izquierda de la media abarca el 68% central del área bajo la curva. 1.96 desviaciones estándar a la derecha e izquierda de la media abarca el 95% central del área bajo la curva). Lo más importante del estudio de la distribución normal es poder entender de qué manera se relacionan la media y la desviación estándar al momento de calcular las áreas bajo la curva de Gauss. Ahora vamos a revisar un tema más, la distribución normal estándar. Distribución Normal Estándar: No hay nada que temer cuando tocamos éste tema pues a lo que se refiere la expresión es simplemente a la misma distribución normal, solamente que ahora queremos que nuestra media sea cero y la desviación estándar sea igual a uno. El proceso de llevar a cabo esto se llama estandarizar. La razón de estandarizar viene dada porque como vimos anteriormente podemos tener muchas curvas normales, tantas como variables nos animemos a medir. Por ejemplo, podemos obtener una curva para las tallas, otra para los pesos, otra para las edades, otra para el salario, etc. Por eso, quienes estudiaron el tema mucho antes que nosotros encontraron una manera de “estandarizar” sus valores para poder hablar de una sola curva que comparta ciertas características con todas las infinitas curvas que se pueden construir. Estandarizar es sencillo, solamente imaginemos que ahora la media es igual a cero y que la distribución estándar es igual a uno (ni la nueva desviación estándar, ni la nueva media tienen unidades, son adimensionales), y el único esfuerzo que hacemos es calcular un valor llamado Z: Donde: = −μ x es un valor cualquiera de nuestra variable elegida por nosotros. µ es la media poblacional. σ es la desviación estándar.
  7. 7. En realidad no hubiéramos podido calcular las áreas bajo la curva como lo hicimos anteriormente a menos que estandaricemos los valores correspondientes. Por ejemplo, si deseamos conocer cuál es el área bajo la curva de un punto a la izquierda de nuestra media de 1700mm tenemos que el cálculo de Z es como sigue: = 1672.5 − 1700 = −1 27.5 Lo cual significa que el punto 1672.5 está ubicado a una desviación estándar a la izquierda de la media (el signo menos nos indica que la dirección es a la izquierda). Ahora sí podemos ir a una tabla de valores Z y consultar el área que se encuentra a la izquierda de Z= - 1, obtendremos que se encuentra el 0.16 (o sea el 16%) del área total bajo la curva. De la misma manera podemos elegir un punto en base a elegir primero el valor Z. Por ejemplo, podemos escoger Z=1.96 a la izquierda y a la derecha de la media (lo que significa que queremos saber cuáles son los valores asociados a escoger 1.96 desviaciones estándar a la izquierda y a la derecha de la media), simplemente reemplazamos en la ecuación: : − 1.96 = ℎ : + 1.96 = − 1700 , 27.5 − 1700 , 27.5 : : = 1646.1 = 1753.9 Lo que significa que el 95% de las mediciones se encuentran entre 1646.1mm y 1753.9mm (como ya vimos, 1.96 veces la desviación estándar a la izquierda y a la derecha engloba el 95% central del área bajo la curva). Lo mismo podemos hacer para cualquier valor que creamos conveniente de entre todos los valores de la talla de nuestra población y conocer cuál es el valor de área a la izquierda, a la derecha, en medio, etc. Hasta aquí ésta explicación. Espero sea de ayuda. Preguntas y comentarios a: dj_jdo@hotmail.com

×