Successfully reported this slideshow.

Man2

682 views

Published on

Published in: Education
  • Be the first to comment

  • Be the first to like this

Man2

  1. 1. DISEÑOS DE INVESTIGACIÓN Y ANÁLISIS DE DATOS TEMA 1 Estimación de parámetros y contraste de hipótesis
  2. 2. Ejemplo 1.6• Para dejar constancia real de las preferencias de los padres sobre la lengua vehicular en la que prefieren que se eduque a sus hijos, una determinada asociación de padres realiza una encuesta sobre una muestra de 800 familias residentes en una determinada autonomía bilingüe, encontrando que 280 familias son partidarias de que todas de las asignaturas se enseñen en Castellano. Con un nivel de confianza del 95% ¿entre que valores se encontrará la proporción de padres que en esa Comunidad son partidarios de que todas las asignaturas se impartan en Castellano?
  3. 3. Distribución muestral de la proporción DM de la proporción N sujetos=800Variable X= familiasdicotómica 280(partidario partidariascastellano castellano =psi/no) MUESTRAPOBLACIÓN
  4. 4. Distribución muestral de la proporción DM de la proporción N sujetos=800Variable X= familiasdicotómica 280(partidario partidariascastellano castellanosi/no) MUESTRA P=280/800=0.35POBLACIÓN
  5. 5. Al tratarse de una muestra grande (N=800), la distribución binomial se aproxima a la normal.Buscamos en la tabla los valores Z que dejan una probabilidad central del 95% y son -1,96 y +1,96.
  6. 6. Al tratarse de una muestra grande (N=800), la distribución binomial se aproxima a la normal.Buscamos en la tabla los valores Z que dejan una probabilidad central del 95% y son -1,96 y +1,96.
  7. 7. P=0.35N = 800
  8. 8. P=0.35N = 800
  9. 9. • Por consiguiente, la proporción poblacional, , es un valor comprendido entre 0,317 (31,7%) y 0,383 (38,3%) con una probabilidad o nivel de confianza, del 95%.
  10. 10. Amplitud del intervalo de confianza y su relación con el tamaño muestral• La amplitud de un intervalo de confianza depende de dos factores: el nivel de confianza y el error típico de la distribución muestral del estadístico. Este segundo factor está en proporción inversa al tamaño de la muestra: cuanto mayor es el tamaño de la muestra, menor es el error típico (manteniendo constante el resto de factores, ceteris paribus)
  11. 11. Ejemplo: CI de la media• El error típico de la media, cuando se desconoce la varianza poblacional y además la muestra es pequeña, es• y para obtener el intervalo de confianza se multiplica por el valor de la distribución t de Student para el nivel de confianza (NC) que se haya estipulado.
  12. 12. • Es decir, el error máximo de estimación y lo designamos con E, es:
  13. 13. • Si despejamos el tamaño muestral (n) y lo ponemos en función del resto de elementos el resultado es:
  14. 14. • Si el tamaño de la muestra es grande, entonces la distribución de referencia es la normal tipificada y la expresión anterior se transforma en:
  15. 15. Cálculo del tamaño de la muestra enfunción del nivel de confianza y del error máximo de estimación
  16. 16. Ejemplo 1.7• Se desea calcular el tamaño muestral (n) necesario en una encuesta electoral de manera que la precisión de la proporción de voto estimada, o error máximo de estimación, sea de ± 0,02.
  17. 17. • Asumiendo que la proporción de votos a favor y en contra es del 50% (máxima incertidumbre):
  18. 18. Con este número de sujetos, el investigadorse asegura de que la amplitud del intervalode confianza será de 4 puntos porcentuales(+/- 0.02 porcentual).
  19. 19. • Si la precisión de la estimación fuera de  0,01 entonces el tamaño de la muestra pasaría a ser de 9604 sujetos. Es decir: cuanto más pequeño queramos que sea el error máximo (mayor precisión), mayor tendrá que ser el número de sujetos a utilizar.
  20. 20. Contraste de hipótesis• Una hipótesis estadística es una afirmación sobre una población que puede someterse a prueba a través una muestra aleatoria de esa población. Una vez que la hipótesis se ha contrastado con los datos de la muestra es el momento de tomar alguna decisión respecto a su resultado. El contraste de hipótesis es, pues, una parte esencial del método científico.
  21. 21. • En general, siempre se parte de algún interrogante que se plantea en el ámbito de una investigación, a la luz de un determinado marco teórico.
  22. 22. • Una vez planteada la cuestión, hay que buscar una respuesta que adopte la forma de afirmación empíricamente verificable, es decir, debemos ser capaces de operativizar nuestras preguntas para que tengan entidad de hipótesis científicas. La mejor manera de hacerlo es plantearla en términos estadísticos; esto significa que las afirmaciones que se realicen estén relacionadas de alguna manera con una o más distribuciones de probabilidad.
  23. 23. • Una hipótesis científica se pueden trasladar a diferentes hipótesis estadísticas, las cuales, al contrastarse dan respuesta a dicha hipótesis científica.
  24. 24. • Las hipótesis estadísticas planteadas para dar respuesta a las hipótesis científicas se conocen como hipótesis nula, y se representa por H0. Las hipótesis nulas pueden contener afirmaciones como las siguientes: H0: la variable X tiene distribución normal N(50,5).
  25. 25. • Dependiendo de cómo esté formulada la hipótesis nula se habla de la dirección del contraste. Si, por ejemplo, H0 está planteada como igualdad de las medias de hombres y mujeres, mientras que la alternativa es simplemente su negación (las medias no son iguales) se dice que es un contraste bilateral.
  26. 26. • Si, por el contrario, conocemos la dirección en que H0 puede ser falsa, como por ejemplo en la hipótesis , o, en general, cuando en la investigación se plantea que un método de aprendizaje, un fármaco, un determinado proceso industrial, etc. tiene efecto positivo (o negativo) sobre lo que estamos estudiando, entonces tenemos un contraste unilateral en la medida en que indicamos la dirección de ese efecto.
  27. 27. • Una vez que se ha planteado la hipótesis, es preciso definir lo que se conoce como la medida de discrepancia: una medida estandarizada dentro de alguna distribución de probabilidad.
  28. 28. • La medida de discrepancia, al ser estandarizada, no depende de las unidades en que esté medida la variable y su formulación habitual es:
  29. 29. • Además de definir la discrepancia es preciso considerar qué cantidad de ésta consideramos admisible. Es decir, debemos determinar, a priori, cuál será la diferencia máxima entre el estimador y el parámetro que estamos dispuestos a considerar compatible con la H0.
  30. 30. • Esta decisión dependerá tanto de la distribución de probabilidad de la medida de discrepancia (Z, t,  , …), como de la dirección 2 del contraste (bilateral, unilateral), como del riesgo que estamos dispuestos a asumir ( ).
  31. 31. Ejemplo• En una H0 del tipo frente a H1 Un contraste así es del tipo unilateral, y una medida de discrepancia sería
  32. 32. • Para que se pueda rechazar H0, y por tanto aceptar H1, deberemos encontrar valores grandes y positivos de esta medida, ya que los valores negativos de la T van a favor de H0.
  33. 33. • Este valor de la discrepancia También se establece en términos de la probabilidad de obtener una discrepancia mayor que la observada.• Esta probabilidad es la que se conoce como nivel p-crítico, y en la mayor parte de las investigaciones se rechazará H0 si este valor es menor de 0,05 o 0,01 (alpha).
  34. 34. Procedimiento para el contraste de hipótesis• La metodología del contraste de hipótesis es fruto de los trabajos de Fisher, Neyman y Pearson y su lógica recuerda a la de un juicio en un estado de derecho, en el cual el acusado siempre es inocente hasta que las pruebas no demuestren lo contrario.
  35. 35. Procedimiento para el contraste de hipótesis• En los contrastes de hipótesis, las pruebas son las evidencias recogidas en los datos muestrales provenientes de una investigación bien diseñada.• Si estos datos aportan resultados significativamente diferentes de los planteados en la hipótesis nula, ésta es rechazada y, en caso contrario, es aceptada.
  36. 36. • Los procedimientos para el cálculo de los intervalos de confianza -y buena parte de los contrastes de hipótesis- se basan en una serie de supuestos (v.gr., que la muestra procede de una población de puntuaciones que se distribuyen según una función de distribución conocida, como la curva normal, o sobre el nivel de medida de la variable, etc.).
  37. 37. • Estos procedimientos y otros que no se han presentado todavía (ANOVA, regresión múltiple, etc.), se engloban en lo que se conoce como “métodos paramétricos” ya que todos los cálculos matemáticos que se realizan dependen del supuesto de que las puntuaciones proceden de una familia de distribuciones paramétrica particular.
  38. 38. Ejemplos• Si en un contraste de hipótesis realizamos el supuesto de distribución según la curva normal, tendríamos toda una familia o conjunto de funciones de densidad de probabilidad (f.d.p.) que tienen todas la misma forma (campana de Gauss). Por consiguiente, cada elemento de este conjunto se diferenciaría del resto no por su forma sino por sus parámetros, es decir, por su media y su desviación típica
  39. 39. • La estadística paramétrica funciona realizando supuestos sobre los valores de y  En este . sentido, podemos decir que la estadística paramétrica toma en consideración un “espacio paramétrico”. En el caso del supuesto de normalidad este espacio paramétrico vendría dado por todos los valores posibles para y . Este espacio, se puede representar gráficamente
  40. 40. • Es importante señalar que valores como la mediana, el rango, etc., no son parámetros de una distribución normal. Así, los únicos parámetros de la distribución normal son y  ya que son los valores que aparecen en su definición analítica:
  41. 41. • Sin embargo, toda función normal tiene mediana (o cualquier estadístico de sesgo, curtosis, etc.). De forma sucinta, la mediana no es un parámetro de la función normal (ni ningún otro estadístico de posición) porque no aparece en la expresión analítica que la define.
  42. 42. • Pongamos otro ejemplo de familia paramétrica. Si asumimos que el fenómeno que estamos estudiando se distribuye según una Binomial, entonces tendremos que realizar una búsqueda en el espacio de todas las funciones binomiales. Estas funciones tienen dos parámetros: n y p (el número de ensayos o veces que se repite un experimento de Bernouilli y la probabilidad de éxito en cada ensayo, respectivamente).
  43. 43. • Sabemos que n tiene que ser un número natural y es igual al número de elementos muestreados. Por su parte, p se encuentra en el intervalo cerrado [0, 1], es decir, que puede tomar cualquier valor entre 0 y 1, incluyendo estos valores. Por ello el espacio de búsqueda paramétrico viene dado por los intervalos [0, 1] para cada n entero.• Dado un valor concreto de n, el espacio de búsqueda sería el intervalo desde 0 hasta 1.
  44. 44. • De la misma forma que antes, p y n son parámetros de la distribución binomial porque aparecen en su expresión analítica:
  45. 45. • Podemos decir que la aparición de una variable que no sea la variable independiente (v.g., x) en la expresión analítica de una función de densidad de probabilidad (f.p.d) la caracteriza como un parámetro de esa distribución porque define a la distribución.• Por su parte, los parámetros caracterizan unívocamente a la función.
  46. 46. • En definitiva, la denominación de “técnicas paramétricas” procede de la búsqueda de los parámetros subyacentes a unos datos asumiendo que éstos se distribuyen en la población según una función de probabilidad o de densidad de probabilidad concreta .• Todos los tests paramétricos asumen una determinada forma (normal, binomial, etc.) para la distribución poblacional de los datos observados en la muestra (variable dependiente) y esta forma depende de unos parámetros, distintos y propios de cada f.d.p.
  47. 47. • Pero a veces nos encontramos con datos, poblaciones o situaciones en que no podemos asumir los supuestos subyacentes a los tests paramétricos y necesitamos procedimientos cuya validez no dependa de esos supuestos. En este caso se nos hace necesario acudir a otro conjunto de técnicas que no exijan buscar los parámetros de la distribución poblacional de los datos.
  48. 48. • Por contraposición a los anteriores métodos, se los conoce como “métodos no paramétricos”.• Los contrastes de hipótesis no paramétricos se realizan con datos procedentes de una población en la que la variable de estudio no tiene una distribución de probabilidad conocida.
  49. 49. Las etapas de un contraste de hipótesis las vamos a resumir en los siguientes puntos:1. Condiciones de la investigación y supuestos que cumplen los datos observados.2. Formulación de la hipótesis nula y de la alternativa.3. Estadístico de contraste.4. Regla de decisión.
  50. 50. Condiciones de la investigación y supuestos que cumplen los datos observados• Al diseñar cualquier investigación se puede trabajar con una, dos, tres o más muestras, las cuales pueden ser independientes o relacionadas, seleccionadas por muestreo aleatorio o no y en los que se recoge información sobre una o más variables medidas con la misma o diferentes escalas de medida (nominal, ordinal, de intervalo o de razón).
  51. 51. Condiciones de la investigación y supuestos que cumplen los datos observados• Estos datos pueden provenir de poblaciones en la que la variable de estudio tiene una determinada distribución de probabilidad conocida o desconocida. Todas estas características tanto del diseño como de los datos condicionan tanto la hipótesis que se puede someter a contrastación empírica como el procedimiento de análisis de datos más adecuado para someter a contrastación empírica la hipótesis.
  52. 52. Formulación de la hipótesis nula y de la alternativa• De acuerdo a los objetivos de la investigación se formula la hipótesis que genera un contraste bilateral o unilateral.
  53. 53. Estadístico de contraste• El estadístico de contraste es un valor numérico que se calcula aplicando una fórmula especial a los datos muestrales y que asegura que la distribución muestral del mismo en todas las muestras posibles sigue una forma funcional conocida y tabulada.• El valor que adopta el estadístico de contraste se considera como una medida de la discrepancia entres los datos observados y los datos teóricos planteados en la hipótesis nula.
  54. 54. Estadístico de contraste• Esta medida es una variable aleatoria con una determinada distribución de probabilidad (normal, t, chi-cuadrado, etc.) que va a aportar información empírica sobre la afirmación hecha en H0. Su elección dependerá de las condiciones de investigación y los supuestos que cumplan los datos observados: nivel de medida de los datos, varianza poblacional conocida (o no), etc.
  55. 55. Regla de decisión• Una vez calculado el estadístico de contraste o discrepancia entre los datos empíricos observados en la muestra y los datos teóricos que planteamos en la hipótesis nula queda tomar una decisión respecto al rechazo o no de la hipótesis nula.
  56. 56. Regla de decisión• Para ello, hay que establecer el nivel de confianza (y su complementario, o nivel de significación alpha) que representa la probabilidad para no rechazar H0 siendo cierta y calcular la probabilidad de obtener unos resultados como los observados en la muestra bajo la hipótesis de la veracidad de H0.• Esta última probabilidad recibe el nombre de nivel p- crítico. Si el nivel p-crítico es muy pequeño en comparación con  rechazamos la H0 y en caso , contrario la mantenemos.
  57. 57. • Si, bajo el supuesto de que H0 es cierta, se calcula la probabilidad de obtener unos resultados como los observados en la muestra (nivel p-crítico):• Si esta probabilidad es muy pequeña en comparación con alpha, pueden ocurrir dos cosas: – o bien la hipótesis nula es cierta y se ha producido una situación muy poco probable (pero no imposible) – o bien la hipótesis nula es falsa.
  58. 58. Parece más lógico (o probable) inclinarse por esta segunda opción y ante la evidencia que proporcionan los datos obtenidos en la investigación, se opta por rechazar la hipótesis nula, asumiendo que esta afirmación tiene un cierto riesgo o probabilidad de equivocarnos.
  59. 59. • Por otra parte, al fijar el nivel de significación, automáticamente se fija el valor o valores críticos de la distribución muestral que marcará la máxima diferencia que podemos admitir, por simple azar, entre el valor teórico planteado en H0 y el valor obtenido en la muestra.
  60. 60. • Este valor, o valores críticos, definen -en la distribución muestral del estadístico de contraste- los límites entre la zona de rechazo o no de la H0-.
  61. 61. • La zona de rechazo depende del nivel de significación, 1- y es el , área de la distribución muestral que corresponde a un valor de la discrepancia tan alejado de H0 que la probabilidad de que se produzca es muy baja, si efectivamente H0 es verdadera.
  62. 62. • La región de no rechazo, complementaria a la anterior depende del nivel de confianza y es el área de la distribución muestral que corresponde a valores pequeños de la discrepancia tan poco alejados la H0 que la probabilidad de que se produzca es alta si efectivamente la H0 es verdadera, por lo que no representa evidencia suficiente para rechazarla.
  63. 63. • Por tanto, el valor o valores críticos corresponden a la máxima diferencia teórica que cabe esperar por simple azar entre los datos empíricos y los datos teóricos, de tal forma que si el estadístico de contraste se sitúa en la zona de NO rechazo, podemos concluir que la diferencia observada no es significativa y se debe a los errores aleatorios por lo que no podemos rechazar la hipótesis nula con un determinado nivel de confianza.
  64. 64. • De forma similar si el estadístico de contraste se sitúa en la zona de rechazo indicaría que la diferencia observada entre los datos empíricos y los datos teóricos no puede atribuirse a errores aleatorias y concluimos que la diferencia observada es significativa, lo que nos lleva a rechazar la hipótesis nula con un determinado nivel de confianza.
  65. 65. • Con independencia de la forma de la función de distribución del estadístico de contraste, si el contraste es bilateral tendremos tres zonas delimitadas por los dos valores críticos de la distribución muestral
  66. 66. • Si el contraste es unilateral izquierdo solo tendremos dos zonas, siendo la región de rechazo la situada en la parte izquierda de la distribución.
  67. 67. • Si el contraste es unilateral derecho, la región de rechazo se situará en la parte derecha de la distribución muestral
  68. 68. • En cualquier caso, ya sea comparando el estadístico de contraste con el valor crítico o comparando el nivel p-crítico con el nivel de significación, la decisión que se toma respecto a la H0 es la misma.
  69. 69. Ejemplo
  70. 70. Valores críticos
  71. 71. Ejemplo: si T = 1.93, H0
  72. 72. Ejemplo: si T = 2.5, No H0
  73. 73. • Puesto que no hay verdades absolutas y siempre existe un riesgo de error, formalmente la hipótesis nula NUNCA se acepta (solo No se rechaza).
  74. 74. Conclusión• Formulada la hipótesis nula, que es la que sometemos a contrastación empírica asumiendo que es provisionalmente verdadera y una vez calculado el estadístico de contraste, se concluye rechazando o no la hipótesis nula (lógica “crisp”).• Si no tenemos evidencia suficiente para rechazarla, se está señalando que la hipótesis se mantiene porque es compatible con la evidencia muestral (el acusado en el juicio no es culpable), y si se rechaza se quiere significar que la evidencia muestral no avala la hipótesis (las pruebas están en contra del acusado) y por tanto se rechaza.
  75. 75. Interpretación• La conclusión en términos de rechazo o no de la hipótesis nula tiene su correspondiente interpretación dentro del contexto de la investigación y de la hipótesis y objetivos que el investigador formula en su trabajo.
  76. 76. Ordalía • Yo que ponía la mano dentro del fuego por ti, mira como me he quemado de tanta fé que te dí.• Diana Navarro, Una y no más. (2.20 seg.)
  77. 77. JOKE OF THE DAYStatistics play an important role in genetics. For instance, statistics prove that numbers of offspring is an inherited trait. If your parent didnt have any kids, odds are you wont either.
  78. 78. JOKE OF THE DAYStatistics play an important role in genetics. For instance, statistics prove that numbers of offspring is an inherited trait. If your parent didnt have any kids, odds are you wont either.
  79. 79. Joke of the day• Checking some questionnaires that had just been filled in, a census clerk was amazed to note that one of them contained figures 121 and 125 in the spaces for "Age of Mother, If Living" and "Age of Father, if Living." "Surely your parents cant be as old as this?" asked the incredulous clerk.• "Well no," was the answer, "but they would be IF LIVING!"

×