5. Distribución normal: Dios ama la curva normal. 
                   La estadística es una ciencia según la cual todas la...
La distribución normal se define cómo: 

La distribución de datos de cualquier variable que asemejen la forma de una 
curv...
Ahora reflexiona un momento. ¿Porqué el título de la unidad se titula “Dios ama la curva normal”? 
¿Para  qué  estaremos  ...
Las características que debe poseer una distribución de datos para formar una curva normal es: 

    a. Unimodalidad: Sólo...
c. Mesocúrtica: La curva no es ni muy aplanada ni muy puntiaguda. 




                                                   ...
e. La media, la mediana y la moda poseen los mismos valores y se encuentran al centro de la 
       curva (la dividen en d...
5.2.     La desviación estándar y la varianza. 
 

Imaginemos un montículo de arena: 




                                ...
casos  encontraremos  y  viceversa;  entre  más  nos  alejemos  del  centro  de  la  curva,  menos  casos 
existirán. 

Si...
Observa la siguiente figura: 




                                                                                    

En...
Resuelve el ejercicio 3 antes de continuar leyendo 




                                                                  ...
si  pesáramos  la  arena  de  dos  a  tres  desviaciones  estándares  encontraríamos  2  gramos 
aproximadamente. 

Si rec...
72% 
 




                

        84% 
 




                

     
98% 
 




                                                                                           

                  ...
Los casos atípicos se definen cómo: 

        •   Los casos que se encuentran más de tres desviaciones estándar de la medi...
5.3.    Nociones del teorema de Chevichev. 
 




                                                                        ...
5.4.    Las puntuaciones estandarizadas. 
 

Para finalizar con esta unidad es necesario revisar el concepto de “puntuacio...
El caso del profesor barco y el profesor estricto (continuación)… 

    Así, si en Historia todos los alumnos obtienen más...
Ahora  bien,  también  es  posible  a  través  del  uso  de  las  puntuaciones  estándar,  identificar  los 
rangos precis...
Si yo quisiera conocer el porcentaje de sujetos que se encuentra entre dos valores Z, simplemente 
resto  al  porcentaje  ...
Upcoming SlideShare
Loading in …5
×

Unidad 5 La Curva Normal

38,676 views

Published on

Unidad 5 del curso "Una mirada a través del lente estadístico".

Published in: Education
4 Comments
3 Likes
Statistics
Notes
No Downloads
Views
Total views
38,676
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
558
Comments
4
Likes
3
Embeds 0
No embeds

No notes for slide

Unidad 5 La Curva Normal

  1. 1. 5. Distribución normal: Dios ama la curva normal.  La estadística es una ciencia según la cual todas las mentiras se tornan cuadros.  Pitigrilli, escritor italiano.    Objetivo de la Unidad:    Identificar  el  comportamiento  y  distribución  de  los  datos  a  través  de  los conceptos básicos de la curva normal y sus derivados.    Introducción.  Antes de poder comenzar con esta unidad te pedimos que realices dos ejercicios.  Resuelve el ejercicio 1 antes de continuar leyendo    5.1. ¿Qué es la distribución normal?    Cuando  graficamos  una  variable  en  forma  de  histogramas  o  polígonos  de  frecuencias  y  observamos  que  los  datos  parecieran  asemejar  o  tener  una  “forma  de  campana”  entonces  podríamos  pensar  que  la  distribución  de  dicha  variable  se  aproxima  a  una  “distribución  matemática” precisa e importante denominada distribución normal o, simplemente, curva normal.   
  2. 2. La distribución normal se define cómo:  La distribución de datos de cualquier variable que asemejen la forma de una  curva normal.    La curva normal se define cómo:  Una distribución teórica de los datos de una población (Pagano, 2008). Es una  curva en forma de campana que puede ser descrita con la siguiente ecuación:   / 1   √2     ¡Importante!  Te  presentamos  la  ecuación  únicamente  para  que  conozcas  que  existe  una  base  matemática.  No  te  preocupes  tratando  de  descifrar  qué  significa  (al  menos  para  este curso).    La curva normal puede ser representada como:         
  3. 3. Ahora reflexiona un momento. ¿Porqué el título de la unidad se titula “Dios ama la curva normal”?  ¿Para  qué  estaremos  estudiando  la  unidad?  ¡Porque  casi  todas  las  variables  que  puedan  ser  graficadas en un histograma (en la naturaleza y en el comportamiento del hombre) se distribuyen  de esta forma! Pero ¿por qué la curva normal es tan común en la naturaleza?  La respuesta a esa pregunta quizá no exista. Sin embargo es curioso cómo es que prácticamente  cualquier cosa que pueda ser medida tiene esta tendencia: La estatura de las personas, su peso, su  IQ, las calificaciones de un examen, el tamaño los árboles de la cuadra, la cantidad de nubes que  observo  al  día,  el  número  de  hojas  de  un  arbusto,  el  número  de  cabellos  de  una  persona,  las  graduaciones de los lentes de las personas, etcétera (y la lista podría continuar).  Para tratar de explicarlo a detalle tomemos, por ejemplo, la cantidad de letras elegidas al azar que  determinada persona puede recordar. En algunas pruebas, la cantidad de letras recordadas puede  ser alta, en otras, baja, y en la mayoría, las cantidades serán intermedias. Es decir, es probable que  la  cantidad  de  letras  elegidas  al  azar  que  una  persona  pueda  recordar  en  diversas  pruebas  siga  aproximadamente la forma de una curva normal.  Sin  embargo,  en  alguna  prueba  en  particular,  el  número  real  recordado  se  verá  afectado  por  diversas circunstancias, tales como ruido en la habitación, estado de ánimo de la persona en ese  momento, una combinación de letras confundidas inconscientemente con algún nombre familiar,  una secuencia de letras elegidas al azar que resulta ser casi siempre la misma letra, etc.  Así,  en  general,  la  persona  recuerda  una  cantidad  media,  una  cantidad  en  la  que  todas  las  circunstancias  contrapuestas  se  cancelan  entre  sí,  y  por  eso  son  mucho  menos  comunes  las  cantidades muy altas o muy bajas de letras recordadas.  Esto crea una distribución que es unimodal, es decir, la mayoría de los casos están cerca del medio  y  los  menos  están  en  los  extremos.  También  crea  una  distribución  que  es  simétrica,  porque  cualquier valor puede estar tanto por arriba como por debajo del medio (la podemos doblar por la  mitad y ambos lados serían idénticos).     
  4. 4. Las características que debe poseer una distribución de datos para formar una curva normal es:  a. Unimodalidad: Sólo existe una sola moda. No hay más de una puntuación más frecuente.    b. Simétrica: Si partiésemos a la mitad la curva, ambos lados son idénticos.       
  5. 5. c. Mesocúrtica: La curva no es ni muy aplanada ni muy puntiaguda.    d. Asintótica:  Los  dos  extremos  de  la  curva  jamás  tocan  el  eje  de  las  X.  Esto  permite  que  siempre existe la posibilidad de toparnos con un valor más alto o más bajo.       
  6. 6. e. La media, la mediana y la moda poseen los mismos valores y se encuentran al centro de la  curva (la dividen en dos).    Resuelve el ejercicio 2 antes de continuar leyendo         
  7. 7. 5.2. La desviación estándar y la varianza.    Imaginemos un montículo de arena:    Ahora pensemos en la cantidad  de arena que  existe. Conforme  más nos acercamos al centro de  este más alto es y, mientras nos alejamos más del centro y nos vamos a las orillas la cantidad de  arena  disminuye  y  tiene  menor  altura.  Si  dijéramos  que  el  montículo  de  arena  mide  de  punta  a  punta 1 metro podríamos afirmar lo siguiente: Si extrajésemos 30 centímetros de arena del centro  del  montículo  y  extrajéramos  30  centímetros  de  un  extremo  del  montículo  y  pesáramos  ambas  muestras,  veríamos  que  la  cantidad  de  arena  sería  muy  diferente;  la  arena  del  centro  pesaría  mucho más que la poca arena extraída de la orillas.  De  igual  forma  que  con  la  arena,  la  altura  de  una  distribución  de  datos  indicaría  la  cantidad  de  casos que obtuvieron un determinado valor. Entre más nos acerquemos al centro de la curva, más 
  8. 8. casos  encontraremos  y  viceversa;  entre  más  nos  alejemos  del  centro  de  la  curva,  menos  casos  existirán.  Sin  dejar  a  un  lado  la  analogía  de  la  arena  podríamos  decir  que  en  lugar  de  hablar  de  “centímetros”,  para  la  distribución  de  datos  existen  “desviaciones  estándares”.  Las  desviaciones  estándares serían los “centímetros” a partir del centro del montículo de arena…  La desviación estándar se define cómo:  La medida empleada para indicar “qué tan lejos está el dato en bruto con  respecto a la media de su distribución” (Pagano, 2008).  La desviación es representada por una “s” en el caso de que sea calculada para la  muestra y una “sigma” (δ) en el caso de una población.  La fórmula de la distribución estándar (para muestras) es:    1 Donde “n” es el total de sujetos y “x” es el valor de una variable para cada sujeto.  En SPSS la desviación estándar se calcula:  a. Ingresar los datos de una variable y dar formato.  b. Dar clic en “analizar”, “estadística descriptiva”, “frecuencias”.  c. Seleccionar las variables en las que se calculará la desviación estándar  al cuadro de “variables”.  d. Dar clic en el submenú “estadísticas” y seleccionar “desviación  estándar” y “varianza”.  e. Dar clic en aceptar.         
  9. 9. Observa la siguiente figura:    En la imagen anterior se ha dibujado una “curva normal”. En este caso se trata de una curva que  representa datos obtenidos de una población1. La media está ubicada al centro de la curva (µ) y las  líneas dibujadas a cada lado son los “centímetros” con respecto a la media. Es posible afirmar que  la línea del extremo izquierdo es la media menos una desviación estándar y la línea del extremo  derecho es la media más una desviación estándar. Ahora surge la pregunta… ¿Para qué sirve esto?                                                              1  Esto lo sabemos porque los símbolos son griegos y por tanto aluden a parámetros y no a estadísticos,  recuerda la unidad sobre los conceptos básicos de la estadística. 
  10. 10. Resuelve el ejercicio 3 antes de continuar leyendo      Observa las siguientes imágenes:      Si nuevamente empleáramos la analogía del montículo de arena e imagináramos que toda la arena  pesa 100 gramos entonces podríamos decir que a una desviación estándar a la derecha del centro  del montículo encontraríamos 34 gramos de arena (observa los porcentajes de la imagen anterior),  si pesáramos la arena de una a dos desviaciones estándares encontraríamos 14 gramos de arena y 
  11. 11. si  pesáramos  la  arena  de  dos  a  tres  desviaciones  estándares  encontraríamos  2  gramos  aproximadamente.  Si recordamos la propiedad de simetría de la curva normal (un lado es idéntico al otro) podríamos  pensar que del lado izquierdo del montículo de arena habría las mismas distribuciones de la arena.  Nota como si sumamos los porcentajes de un solo lado del montículo de arena encontramos 50  gramos de la arena de un lado y 50 gramos del otro lado (entre los dos lados suman 100 gramos  que es lo que originalmente pesaba nuestro montículo).  Si  lo  trasladáramos  a  cualquier  distribución  de  datos  diríamos  algo  similar…  A  más  o  menos  1  desviación  estándar  se  encontrarían  el  34%  de  los  casos;  de  más  o  menos  1  a  2  desviaciones  estándar  estarían  cerca  del  14%  de  los  datos  y  de  más  o  menos  2  a  3  desviaciones  estándar  estarían aproximadamente el 2% de los casos.  De igual forma podemos hacer combinaciones con los porcentajes que conocemos:  68%         
  12. 12. 72%      84%         
  13. 13. 98%        Asimismo será necesario definir dos conceptos que son muy mencionados entre los investigadores  de las ciencias sociales que responden a las siguientes preguntas: ¿Entre qué rango de la escala es  fácil que encuentre a los sujetos de mi muestra (sujetos típicos o normales)? ¿Entre qué rango de  la escala es difícil o infrecuente encontrar a sujetos de mi muestra (casos atípicos o anormales?  Los casos típicos se definen cómo:  • Los casos que se encuentran a una desviación estándar de la media.  • El rango de casos típicos se obtienen de sumar y restar una vez la desviación  estándar a la media.  • Los casos típicos son aquellos que se encuentran en un rango que abarque al 68% se  los sujetos (±1s).   
  14. 14. Los casos atípicos se definen cómo:  • Los casos que se encuentran más de tres desviaciones estándar de la media.  • El rango de casos típicos se obtienen de sumar y restar tres veces la desviación  estándar a la media. Todos los casos que se encuentren afuera de este rango son  casos atípicos o no normales.  • Los casos atípicos son aquellos se muestran fuera de un rango que abarque el  99.9% de los casos (±3s) (recuerda que la curva es asintótica, siempre hay  posibilidad de un valor menor o mayor en la escala; a pesar de que los porcentajes  de las gráficas mostradas sumen 100% siempre puede escaparse algún sujeto).    Resuelve el ejercicio 4 antes de continuar leyendo    ¿Y  qué  es  eso  de  varianza?  Generalmente  no  se  encontrarán  en  los  reportes  de  cualquier  investigación  el  término  de  varianza  (cuando  se  trata  de  medidas  de  dispersión).  La  varianza  simplemente es el resultado de elevar al cuadrado la desviación estándar.    ¡Importante!  La varianza no puede ser interpretada como medida de dispersión de los datos.  La existencia de la varianza se debe a dos motivos principales:  a. Permite  que  algunas  fórmulas  estadísticas  sean  más  exactas  (cosa  de  matemáticos).  b. La  varianza  es  útil  en  análisis  estadísticos  más  complejos  que  buscan  explicar una variable A a través de una B.     
  15. 15. 5.3. Nociones del teorema de Chevichev.      Pafnuti  Chebyshov,  Tchebychev,  Tchebycheff,  Tschebyscheff  o  Čebišev  era  el  nombre  del  personaje que observamos en la imagen anterior. El hecho de que tenga tantos nombres se debe a  que cada uno es un intento de traducción de su apellido del ruso (Пафнутий Львович Чебышёв).  Sin  embargo,  la  complejidad  del  apellido  no  es  lo  que  nos  interesa.  Lo  interesante  de  este  matemático es el teorema que propuso que en resumen dice lo siguiente:  El teorema de Chevichev indica que cuando los datos se comportan como una  distribución normal:  a. Aproximadamente el 68% de la población está dentro de ±1s.  b. Aproximadamente el 95% de la población está dentro de ±2s.  c. Aproximadamente el 99% de la población está dentro de ±3s.    El  fin  de  mencionar  este  teorema  es  únicamente  el  hacer  notar  que  existen  diferentes  teorías  y  propuestas sobre el número de datos que se encuentran a n desviaciones estándar cuando éstos  (los datos) se comportan de cómo una distribución normal. Si comparáramos los porcentajes antes  estudiados y los del teorema de Chevichev veríamos que son muy similares.     
  16. 16. 5.4. Las puntuaciones estandarizadas.    Para finalizar con esta unidad es necesario revisar el concepto de “puntuaciones estandarizadas”  que también son conocidas como “puntajes Z”.   Una puntuación estándar o puntaje Z se define cómo:  “Un dato transformado que indica a cuántas unidades de desviación estándar por  encima o por debajo de la media, se encuentra un dato en bruto” (Pagano, 2008).    Cuando nosotros queremos determinar de forma más exacta a cuántas desviaciones estándar se  encuentra un sujeto esto nos permite compararlo contra “la norma” (contra todos los sujetos que  fueron  analizados).  Podemos  decir  que  un  sujeto  se  encuentra  a  más  o  menos  n  número  de  desviaciones estándar de la media.  Para transformar un dato a puntuaciones estándares se aplica la siguiente fórmula (Pagano,  2008):      Donde “x” es el dato que queremos convertir, la media se obtiene de la población o muestra  estudiada y la “s” es la desviación estándar de la población o muestra estudiada.    De  igual  forma  que  con  lo  revisado  en  los  subtemas  anteriores,  que  un  sujeto  se  encuentre  a  menos de ±1s indicaría que es un caso típico. Si un sujeto se encuentra a ±1s entonces es un caso  menos frecuente y si el sujeto se encuentra a ±3s es un caso atípico. En síntesis la utilidad de las  puntuaciones  Z  es  el  permitirnos  precisar  exactamente  a  cuántas  desviaciones  estándar  se  encuentra un dato de la media. Por ejemplo…  El caso del profesor barco y el profesor estricto…  Imaginemos  que  estamos  comparando  las  calificaciones  de  los  estudiantes.  En  una  materia  con un profesor “barco” podría pensarse que todos los alumnos obtienen altas calificaciones  mientras que en una materia con un profeso “estricto” existiría mucha diversidad. Con el fin  de  ejemplificar  diremos  que  la  materia  con  un  profesor  “barco” es  Historia  mientras  que  el  profesor “estricto” es el que imparte Literatura.   
  17. 17. El caso del profesor barco y el profesor estricto (continuación)…  Así, si en Historia todos los alumnos obtienen más de 9 de calificación no sería apropiado  comparar la calificación de esta materia contra otra las de Literatura; donde menos de la  mitad de los estudiantes obtienen 6. Sin embargo, las puntuaciones estandarizadas sí nos  permiten  comparar  las  dos  calificaciones  puesto  que  no  se  compara  a  maestro,  la  dificultad  de  los  contenidos  o  la  forma  de  la  evaluación.  Simplemente  se  compara  al  alumno contra el desempeño de sus compañeros:  No  es  posible  decir:  Pedro  sacó  9  en  la  Historia  pero  sacó  7  en  la  Literatura.  Por  tanto  Pedro es un excelente alumno de la Historia y un pésimo alumno en Literatura.  Sí  es  posible  decir:  Pedro  se  encuentra  a  ‐0.8  desviaciones  estándar  del  promedio  en  la  Historia y se encuentra a +1.7 desviaciones estándar de la media en la Literatura. Por tanto  Pedro es muy buen estudiante en la materia de Literatura a comparación de sus alumnos  pero necesita mejorar en la Historia.       
  18. 18. Ahora  bien,  también  es  posible  a  través  del  uso  de  las  puntuaciones  estándar,  identificar  los  rangos precisos en los que se encuentra el X% de una muestra. Observa la siguiente tabla2…  Si  observas  a  detalle,  para  cada  valor  Z  existe  un  porcentaje.  Si  vamos  al  valor  Z  de  “‐2.00”  el  porcentaje indicado es de 0.022753. Esto indicaría que de menos infinito desviaciones estándar a  menos  dos  desviaciones  estándar  se  encuentra  el  2.27%  de  los  sujetos.  De  igual  forma,  si  buscamos el valor Z de “+1.00” el porcentaje indicado es de 0.841344 que indica que el 84.13% de  los sujetos se encuentras de menos infinito desviaciones estándar a más una desviación estándar.                                                               2  Obtenida de http://www.uv.es/~meliajl/Docencia/Tablas/ZColaIzq.PDF  3  Marcado con un aro azul en la tabla.  4  Marcado con un aro verde en la tabla. 
  19. 19. Si yo quisiera conocer el porcentaje de sujetos que se encuentra entre dos valores Z, simplemente  resto  al  porcentaje  mayor  el  menor:  para  conocer  el  porcentaje  de  sujetos  que  se  encuentran  entre “‐2.00” y “+1.00” desviaciones sólo habría que restar 84.13%‐2.27% que daría 81.86%.  Resuelve el ejercicio 5 antes de continuar leyendo     

×