SlideShare a Scribd company logo
1 of 22
Download to read offline
Instituto tecnológico de piedras
negras
2
Maria Del Carmen Alonzo Sánchez
Índice general
4.1 Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Análisis Ji- cuadrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
4.1.2 Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Prueba de la bondad del ajuste. . . . . . . . ... . . . . . . . . .
4.1.4 Tabla de contingencia . . . . . . . . . . . . . . . . . .. . . . . . . . . .
4.2 Pruebas no paramétricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Escala de medición . . . . . . . . . . . . . . . . . . . . .. . . . . . .
4.2.2 Métodos estadísticos contra no paramétricos. . . . . . . . ..
4.2.3 Prueba de kolmogorov y Smirnov . . . . . . . . . . . . . . . . . ....
4.2.4 Prueba de Anderson y Darling . . . . . . . . . . . . . . . . . . . . . . . .
4.2.5 Prueba de Ryan y Jonier . . . . . . . . . . . . . . . . . . . . . . . .. . ..
4.2.6 Prueba de Shappiro y Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . .
Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
5
6
8
9
10
12
13
14
16
17
18
19
20
3
Maria Del Carmen Alonzo Sánchez
índice de tablas e imágenes
o 4.1 Bondad de ajuste, imágenes . . . . . . . . . . . . . . . . . . . . ..
o 4.1.1 Análisis Ji- cuadrada, imagen. . . . . . . . . . . . . . . . . . . . .
o 4.1.1 imagen 2
o 4.1.2 Prueba de independencia, tabla. . . . . . . . . . . . . . . . .
o 4.1.2 tablas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
o 4.1.4 Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . ..
o 4.2 Pruebas no paramétricas. . . . . . . . . . . . . . . . . . . . . . . ..
o 4.2.2 Métodos estadísticos contra no paramétricos. Tabla.
o 4.2.3 Prueba de kolmogorov y Smirnov. tabla . . . . . . . . . . . .
o 4.2.4 Prueba de Anderson y Darling tabla. . . . . . . . . . . . . . .
o 4.2.5 Prueba de Ryan y Jonier. tabla. . . . . .. . . . . . . . . . .
5
6
7
8
9
10
13
14
17
16
18
4
Maria Del Carmen Alonzo Sánchez
introducción.
En el presente trabajo de investigación de la unidad 4 de Estadística Inferencial I, se llevó a cabo
porque era necesario conocer y analizar las diversas formas en que se pueden resolver problemas
matemáticos, ya sea porque las distribuciones no son de forma exacta o no es conocida, entonces se
necesitan técnicas estadísticas las cuales sean aplicables sin tener en cuenta la forma de la densidad.
Estas técnicas se les conocen como técnicas no paramétricas. Como ejemplo se podría suponer
simplemente que las observaciones constituyen una muestra aleatoria de una distribución continua,
sin especificar la forma de esta distribución con mayor detalle así investigar la posibilidad de que se
trate de una distribución dada.
Existe una variedad de procedimiento para el procesamiento y análisis estadístico de datos, una vez
recogidos los datos, procesados son convertidos en información valiosa para el estudio que se realiza,
pueden utilizarse varias técnicas que permitan sacar el máximo provecho de la información disponible,
sin embargo, la utilización de técnicas de Estadística son poco utilizada, a pesar de la potencia y
certeza de sus resultados, y que por lo general no se dispone de información suficiente sobre la
población de la cual se extrajeron los datos que den soporte la realización de inferencia con base en
la muestra observada.
En esta investigación se desarrollan algunas técnicas de análisis estadístico tales como la prueba de
independencia, las pruebas de homogeneidad, etc.
y se hace un estudio sobre el análisis de varianza.
5
Maria Del Carmen Alonzo Sánchez
Definiciones.
Por bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos
originales y los valores teóricos que se obtienen de la regresión. Obviamente cuanto mejor
sea el ajuste, más útil será la regresión a la pretensión de obtener los valores de la
variable regresando a partir de la información sobre la variable regresora.
Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una
regresión de un determinado tipo u otro.
Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste
(no puede ser el error medio) será el error cuadrático medio, o varianza del residuo,
o varianza residual:
Considerando la regresión Y/X:
Que será una cantidad mayor o igual que cero. De forma que cuanto más baja sea mejor será
el grado de ajuste. Si la varianza residual vale cero el ajuste será perfecto (ya que no existirá
ningún error).
Del hecho de que yi=y*i+ei, y de que las variables y*
ý e están incorrelacionadas se tiene que:
Donde S2
y* es la llamada varianza de la regresión y supone la varianza de la
variable regresión:
Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede
descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión)
y otra parte no explicada (la varianza residual).
Considerando que la varianza nos mide la dispersión de los datos este hecho hay que
entenderlo como que la dispersión total inicial queda, en parte explicada por la regresión y
en parte no. Cuanto mayor sea la proporción de varianza explicada (y menor la no explicada)
tanto mejor será el ajuste y tanto más útil la regresión.
A la proporción de varianza explicada por la regresión se le llama coeficiente de
determinación (en nuestro caso lineal):
que evidentemente estará siempre comprendido entre 0 y 1 y, en consecuencia, da cuenta del
tanto por uno explicado por la regresión.
Una consecuencia importante en la práctica es que la varianza residual será obviamente:
6
Maria Del Carmen Alonzo Sánchez
Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinación
coincide con el cuadrado del coeficiente de correlación: R2
= r2
Con lo cual la varianza residual y la varianza debida a la regresión pueden calcularse a partir
del coeficiente de correlación:
La prueba chi-cuadrado, también llamada Ji cuadrado (Χ2), se encuentra dentro de las pruebas
pertenecientes a la estadística descriptiva, concretamente la estadística descriptiva aplicada al estudio
de dos variables. Por su parte, la estadística descriptiva se centra en extraer información sobre la
muestra. En cambio, la estadística inferencial extrae información sobre la población.
El nombre de la prueba es propio de la distribución Chi-cuadrado de la probabilidad en la que se basa.
Esta prueba fue desarrollada en el año 1900 por Karl Pearson.
La prueba chi-cuadrado es una de las más conocidas y utilizadas para analizar variables nominales o
cualitativas, es decir, para determinar la existencia o no de independencia entre dos variables. Que
dos variables sean independientes significa que no tienen relación, y que por lo tanto una no depende
de la otra, ni viceversa.
Así, con el estudio de la independencia, se origina también un método para verificar si las frecuencias
observadas en cada categoría son compatibles con la independencia entre ambas variables.
La prueba chi-cuadrado, a diferencia de otras pruebas, no establece restricciones sobre el número de
modalidades por variables, y no es necesario que el número de filas y el número de columnas de las
tablas coincida.
Sin embargo, sí es necesario que se aplique a estudios basados en muestras independientes, y
cuando todos los valores esperados sean mayores de 5. Como ya hemos mencionado, los valores
esperados son aquellos que indican la independencia absoluta entre ambas variables.
Además, para utilizar la prueba chi-cuadrado, el nivel de medida debe ser nominal o superior. No tiene
un límite superior, es decir, no nos permite conocer la intensidad de la correlación. Dicho de otro modo,
el chi-cuadrado toma valores entre 0 e infinito.
7
Maria Del Carmen Alonzo Sánchez
8
Maria Del Carmen Alonzo Sánchez
Comenzaría definiendo lo que quieres decir con independencia. Por ejemplo, Si dos variables son
independientes, esto significa que conocer el valor de una variable no le dice nada sobre el valor de
la otra variable. Entonces describiría la prueba:
Para probar la independencia, construimos una tabla de valores que esperaríamos ver si las variables
fueran independientes. Si observamos algo "muy" diferente de estos valores esperados, concluiríamos
que es poco probable que las variables sean independientes.
Más bien no cambia su conocimiento sobre la distribución de otra variable. Definición de
independencia: P (Y | X) = P (Y). Conocemos el valor de otra variable solo en casos raros de predicción
perfecta (la correlación es igual a 1 o -1).
Una prueba de independencia evalúa si las observaciones emparejadas sobre dos variables,
expresadas en una tabla de contingencia, son independientes entre sí, por ejemplo, si las personas
de diferentes regiones difieren en la frecuencia con la que informan que apoyan a un candidato político
Un uso muy frecuente de la prueba de χ2χ2 es la de probar si dos características son independientes
o tienen una asociación de manera que las frecuencias elevadas en una de ellas suelen ser
acompañado con frecuencias altas en la otra.
Digamos que estamos haciendo una encuesta de opinión y preguntamos a 1230 argentinas y a 961
argentinos si están a favor o en contra de la ley del aborto o no. Queremos saber si en género de la
persona está asociado con esa opinión. Entonces nuestros datos se pueden desplegar en una tabla 2
por 2
La hipótesis nula es que no hay asociación entre las dos variables, es decir que el género de la persona
no se asocia con su opinión política sobre este tema. Para calcular los valores esperados tenemos
que calcular las sumas de las filas y las columnas y además el total de ellos.
Opiniones sobre la ley del aborto.
A favor En contra total
Mujeres 762 468 1230
Hombres 484 477 961
total 1246 945 2191
El valor esperado es la cantidad de las observaciones que caen en cada celda si las distribuimos
proporcionalmente. Esto se calcula multiplicando las sumas de la fila y columna de la celda respectiva
y dividir por el total de las observaciones. Por ejemplo, el valor esperado de mujeres a favor sería:
E=1230×12462191=699,48E=1230×12462191=699,48
A favor En contra
Mujeres 762 468
Hombres 484 477
9
Maria Del Carmen Alonzo Sánchez
Si calculamos esto para todas las celdas obtenemos:
Valores esperados: opiniones sobre la ley
del aborto.
A favor En contra total
Mujeres 699,49 530,51 1230
Hombres 546,51 414,49 961
total 1246,00 945,00 2191
Con este único valor podemos rellenar las demás celdas, ya que su contenido está dato por la
diferencia entre ese valor y los totales marginales. Esto quiere decir que en esta tabla hay un solo
valor que se pueda asignar arbitrariamente, el resto está dado por este valor. Por ello decimos que
tenemos un solo grado de libertad.
En capítulos anteriores hemos visto que los grados de libertad a menudo son N-1. Podemos usar un
ejemplo sencillo para demostrar por qué tiene que ser así. Si hacemos un conjunto de tres números
y queremos que la suma sea diez, podemos asignar cualquier número en las primeras dos
posiciones, pero cuando vamos a asignar el tercero ya no tenemos libertad de elegir. Entonces
tenemos dos grados de libertad.
Para una tabla de contingencia la fórmula general para calcular los grados de libertad es: (c−1) ×
(f−1) (c−1) ×(f−1) es decir número de columnas menos uno por número de filas menos uno. Si
la tabla es de 3×33×3, tendríamos 4 grados de libertad.
La prueba de bondad de ajuste es una prueba de hipótesis estadística para ver qué tan bien los
datos de la muestra se ajustan a una distribución de una población con una distribución normal.
Dicho de otra manera, esta prueba muestra si los datos de su muestra representan los datos que
esperaría encontrar en la población real o si de alguna manera están sesgados. la bondad de ajuste
establece la discrepancia entre los valores observados y los que se esperarían del modelo en un
caso de distribución normal.
Existen múltiples métodos para determinar la bondad de ajuste. Algunos de los métodos más
populares utilizados en estadística incluyen el chi-cuadrado, la prueba de Kolmogórov-Smirnov, la
prueba de anderson-darling y la prueba de Shapiro-Wilk.
Conclusiones clave
Las pruebas de bondad de ajuste son pruebas estadísticas cuyo objetivo es determinar si un
conjunto de valores observados coincide con los esperados según el modelo aplicable.
Existen múltiples tipos de pruebas de bondad de ajuste, pero la más común es la prueba de chi-
cuadrado.
Estas pruebas pueden mostrarle si sus datos de muestra se ajustan a un conjunto esperado de
datos de una población con distribución normal.
Comprender la bondad de ajuste
10
Maria Del Carmen Alonzo Sánchez
Las pruebas de bondad de ajuste a menudo se utilizan en la toma de decisiones comerciales. Para
calcular una bondad de ajuste de chi-cuadrado, es necesario establecer primero la hipótesis nula y la
hipótesis alternativa, elegir un nivel de significancia (como α = 0.5) y determinar el valor crítico.
La prueba de bondad de ajuste más común es la prueba de chi-cuadrado, que generalmente se usa
para distribuciones discretas. la prueba de chi-cuadrado se usa exclusivamente para datos puestos
en clases (bins), y requiere un tamaño de muestra suficiente para producir resultados precisos.
Las pruebas de bondad de ajuste se usan comúnmente para evaluar la normalidad de los residuos o
para determinar si dos muestras se obtienen de distribuciones idénticas.
Ejemplo de una prueba de bondad de ajuste
Por ejemplo, un pequeño gimnasio comunitario podría estar funcionando bajo el supuesto de que
tiene la mayor asistencia los lunes, martes y sábados, la asistencia promedio los miércoles y jueves,
y la asistencia más baja los viernes y domingos. Con base en estos supuestos, el gimnasio emplea a
un cierto número de miembros del personal cada día para registrar a los miembros, limpiar las
instalaciones, ofrecer servicios de capacitación y dar clases.
Sin embargo, el gimnasio no tiene un buen desempeño financiero y el propietario quiere saber si
estos supuestos de asistencia y niveles de personal son correctos. el propietario decide contar la
cantidad de asistentes al gimnasio cada día durante seis semanas. luego puede comparar la
asistencia supuesta del gimnasio con la asistencia observada utilizando, por ejemplo, una prueba de
bondad al ajuste de chi-cuadrado. Con los nuevos datos, puede determinar la mejor manera de
administrar el gimnasio y mejorar la rentabilidad.
Una tabla de contingencia es una tabla que cuenta las observaciones por múltiples variables
categóricas. Las filas y columnas de las tablas corresponden a estas variables categóricas.
Por ejemplo, después de una elección reciente entre dos candidatos, una encuesta de salida registró
el sexo y el voto de 100 electores seleccionados de manera aleatoria y los datos se tabularon de la
siguiente manera:
Candidato A Candidato B Todos
Hombre 28 20 48
Mujer 39 13 52
Todos 67 33 100
Esta tabla de contingencia cuenta las respuestas según sexo y voto. El conteo en la intersección de
la fila i y la columna j se denota como nij, y representa el número de observaciones que muestra esa
11
Maria Del Carmen Alonzo Sánchez
combinación de niveles. Por ejemplo, n1,2 muestra el número de encuestados masculinos que votaron
por el Candidato B.
La tabla también incluye los totales marginales para cada nivel de las variables. Los totales marginales
para las filas muestran que 52 de los encuestados fueron mujeres. Los totales marginales para las
columnas muestran que 67 encuestados votaron por el Candidato A. Además, la total general muestra
que el tamaño de la muestra es 100.
Las tablas de contingencia también pueden revelar asociaciones entre las dos variables. Utilice una
prueba de chi-cuadrada o una prueba exacta de Fisher para determinar si los conteos observados
difieren significativamente de los conteos esperados bajo la hipótesis nula de que no existe asociación.
Por ejemplo, usted podría probar si existe una asociación entre sexo y voto.
Las tablas de contingencia más simples son tablas de dos factores que cuentan las respuestas según
dos variables. Usted puede categorizar las observaciones según tres o más variables al "cruzarlas".
En el ejemplo de votación anterior, las respuestas también podrían clasificarse según el estatus de
empleo de la manera siguiente:
Candidato A Candidato B Total
Hombre / empleado 18 19 37
Hombre / desempleado 10 1 11
Mujer / empleada 33 10 43
Mujer / desempleada 6 3 9
Total 67 33 100
Un análisis de correspondencia simple puede detectar asociaciones en las tablas de
contingencia que categorizan los datos por más de dos variables. Para realizar un
análisis de correspondencia simple en Minitab, elija Estadísticas > Análisis
multivariado > Análisis de correspondencia simple.
12
Maria Del Carmen Alonzo Sánchez
Las pruebas no paramétricas, también conocidas como pruebas de distribución libre, son
las que se basan en determinadas hipótesis, pero lo datos observados no tienen una
organización normal. Generalmente, las pruebas no paramétricas contienen resultados
estadísticos que provienen de su ordenación, lo que las vuelve más fáciles de comprender.
Las pruebas no paramétricas tienen algunas limitaciones, entre ellas se encuentra que no
son lo suficientemente fuertes cuando se cumple una hipótesis normal. Esto puede
provocar que no sea rechazada, aunque sea falsa. Otra de sus limitaciones es que necesitan
que la hipótesis se cambie cuando la prueba no corresponde a la pregunta del
procedimiento si la muestra no es proporcional.
Algunas de las características de las pruebas no paramétricas son:
o Es un método de medición difícil de aplicar.
o Es necesario realizar pruebas de hipótesis.
o Las hipótesis son estrictas.
o Las observaciones deben de ser independientes.
o Quizá te interese también conocer sobre las pruebas paramétricas.
Tipos de pruebas no paramétricas y su aplicación
Los tipos de pruebas no paramétricas son:
o Prueba de signos de una muestra
o Prueba de los rangos con signo de Wilcoxon
o Prueba U de Mann-Whitney
o Prueba de Kruskal-Wallis
o Prueba de la mediana de Mood
o Prueba de Friedman
o Ventajas de las pruebas no paramétricas
Las ventajas de las pruebas no paramétricas son:
o Pueden utilizarse en diferentes situaciones, ya que no deben de cumplir con parámetros
estrictos.
o Generalmente, sus métodos son más sencillos, lo que las hace más fácil de entender.
o Se pueden aplicar en datos no numéricos.
13
Maria Del Carmen Alonzo Sánchez
o Facilita la obtención de información particular más importante y adecuada para el
proceso de investigación.
ejemplos
Un determinado tumor pulmonar se clasifica en cinco tipos distintos. En cuanto a la diferenciación
celular, se cree que las cinco se presentan en la misma proporción, es decir, un veinte por ciento. Se
selecciona una muestra al azar de veinte tumores, obteniéndose las siguientes frecuencias
absolutas.
.. . . . . .
Tipo celular: 1 2 3 4 5
Frecuencia: 4 8 2 2 4
Resolver el contraste con 5% de significancia
Hipótesis estadística:
{H0:H1: Los cinco tipos de tumor celular se presentan en la misma proporción.
Los cinco tipos de tumor celular no se presentan en la misma proporción.
{H0:Los cinco tipos de tumor celular se presentan en la misma proporción.H1:Los cinco tipos de tum
or celular no se presentan en la misma proporción.
Nivel de significancia: α=0.05α=0.05
Estadística de prueba y contraste, Kolmogórov-Smirnov.
La dirección general de tránsito asegura que hay dos veces más accidentes automovilísticos los
sábados y domingos que cualquier otro día de la semana. A partir de los registros se seleccionaron
108 accidentes, independientes uno de otro. De acuerdo con los datos, ¿se confirma o rechaza la
afirmación?, Use α=0.01α=0.01.
Días de la
semana
Lunes Martes Miércoles Jueves Viernes Sábado Domingo
Núm. de
accidentes
8 12 10 14 11 28 25
Hipótesis estadística:
{H0:H1: Se asegura que los accidentes no exedenSe asegura que los accidentes exeden. {H0:
Se asegura que los accidentes no exedenH1:Se asegura que los accidentes exeden.
Nivel de significancia: α=0.01α=0.01
Estadística de prueba y contraste, Kolmogórov-Smirnov.
Las escalas de medición son procesos de comparación cuantitativa, en los que se asignan símbolos
o números, positivos y/o negativos, a las características de un elemento para determinar cuántas
veces ese patrón está contenido en el total del conjunto. En investigación de mercados, facilitan el
análisis estadístico de los datos y la posterior comprensión de los resultados para resolver el problema
planteado.
14
Maria Del Carmen Alonzo Sánchez
Un elemento u objeto puede ser cualquier cosa, porque todo es susceptible a ser medido. Los
elementos están formados por características o propiedades que se infieren a partir de la medición de
indicadores. Los indicadores o reactivos determinan el comportamiento del objeto. El comportamiento
se describe en variables o constructos.
Una variable como su mismo nombre lo indica, es un elemento que varía (cambia) y que al hacer parte
de un conjunto puede afectarlo. Un constructo es una variable latente que no es fácilmente visible o
identificable, debe encontrarse a través del análisis factorial y el análisis estructural de covarianza.
Las escalas de medición siguen unas normas preestablecidas que facilitan la creación de grupos de
asociaciones mutuamente excluyentes. Esta condición hace que los objetos de un conjunto sean
similares entre sí, pero desiguales comparados con otros subconjuntos. Cuando una escala de
medición se realiza de forma correcta, definiendo claramente todos sus componentes, se dice que la
prueba es acertada; cuando es incorrecta, se dice que la prueba es pobre
ejemplos.
Si en un plano de una ciudad, dos localidades están separadas por 25 cm. ¿Cuál sería la distancia
entre las dos, si la escala del plano es 1:50000?
Solución:
Si 1 cm en el plano --- 50000 cm reales
25 cm en el plano -----X
𝑋 = 25 𝑐𝑚 ∗ 50000 𝑐𝑚 /1 𝑐𝑚 = 1.250.000 𝑐𝑚 𝑞𝑢𝑒 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛 𝑎 12,5 𝐾m
Un alumno va a realizar un plano de su habitación a escala 1:20. Si su habitación tiene 5m de largo.
¿Cuánto deberá medir el plano?
Solución:
Si 1 cm en el plano-------- 20 cm reales
X --------- 5 m (500 cm) reales
𝑋 = 1 𝑐𝑚 ∗ 500 𝑐𝑚 /20 𝑐𝑚 = 25 𝑐𝑚 𝑞𝑢𝑒 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛 𝑎 0,25 𝑚
Es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no
se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos
observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede
asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como
mínimo, de intervalo.
PRUEBA DE LOS SIGNOS
Se usa para una prueba de n para indicar la preferencia por las marcas,
Caso de pruebas pequeñas: Siempre n será menor igual a 20, Valor p menos igual a alfa la Hipótesis se
rechaza.
Caso de muestras grandes: La Ho: p= 0,50, n es mayor a 20.
2. PRUEBA DE LOS RANGOS CON SIGNO DE WILCOXON
Son las alternativas no paramétricas al método de las muestras por pares, en la situación de las muestras por
pares, cada unidad experimental genera dos observaciones.
15
Maria Del Carmen Alonzo Sánchez
3. PRUEBA DE MANN-WHITNEY-WILCOXON
Es una prueba de un método no paramétrico que se usa para determinar si hay diferencia entre dos
poblaciones. La hipótesis en las pruebas de este método son las siguientes:
4. PRUEBA DE KRUSKAL- WALLIS
Esta prueba se usa para probar si las poblaciones son idénticas para k mayor igual a 3 poblaciones se
expresa como:
Ho Todas las poblaciones son idénticas
Ha: No todas las poblaciones son idénticas
5. PRUEBA DE SIGNIFICANCIA DE LA CORRELACIÓN DE RANGOS
Esta prueba es acerca de la correlación por rangos poblacional "Ps", ya que se debe probar la hipótesis
siguiente:
Ho: Ps = 0
Ha: Ps diferencia 0
5.3 PRUEBA DE CORRIDAS PARA ALEATORIEDAD
Esta prueba es un método que nos ayuda a evaluar el carácter de aleatoriedad de una secuencia de números
estadistcamente independientes y dando una serie de números para determinar si son aleatorios o
no. Existen dos versiones de la prueba de corridas:
Prueba de corridas, arriba y abajo (ascendente y descendente)
Esta prueba es como una secuencia de números de tal manera que a cada uno de los números siga otro
mayor la secuencia dada será ascendente (arriba). SI cada número va seguido por otro menor, la secuencia
será descendente (abajo).
La fórmula de este tipo de prueba es:
5.4 PRUEBA DE SIGNOS
Esta prueba es una prueba para comparar el rango de dos muestras relacionadas y determinar si existen
diferencias entre ellas, por ejemplo: Se usa una muestra de n clientes para que indiquen su preferencia por
una de dos marcas de un producto como de un café o de un refresco.
16
Maria Del Carmen Alonzo Sánchez
La n de expresiones de preferencia son datos nominales, ya que el consumidor simplemente nombra
una preferencia.
En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica
que determina la bondad de ajuste de dos distribuciones de probabilidad entre sí.
En el caso de que queramos verificar la normalidad de una distribución, la prueba de Lilliefors conlleva
algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en general, el test de Shapiro–Wilk o la
prueba de Anderson-Darling son alternativas más potentes.
Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos
a la mediana que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual
sensibilidad con valores extremos.
Su nombre proviene de los matemáticos rusos Andrey Kolmogorov y Nikolai Smirnov.
La prueba de Kolmogorov–Smirnoff (K-S) es un contraste no paramétrico que tiene como objetivo
determinar si la frecuencia de dos conjuntos de datos distintos sigue la misma distribución alrededor
de su media.
En otras palabras, la prueba Kolmogorov–Smirnoff (K-S) es un test que se adapta a la forma de los
datos y se utiliza para comprobar si dos muestras distintas siguen la misma distribución.
¿Por qué es un contraste no paramétrico?
La gracia de la característica “no paramétrica” es que se adapta a los datos y, en consecuencia, a
las distribuciones que puedan seguir la frecuencia de los datos. Además, esta característica nos
ahorra tener que suponer a priori qué distribución sigue la muestra.
Importancia de la prueba K-S
¿Cuántas veces nos han dado dos muestras y hemos calculado el coeficiente de correlación de
Pearson sin pensarlo dos veces? En otras palabras, si queremos ver la relación lineal entre dos
conjuntos de datos, sería lícito calcular la correlación, ¿no?
Esta deducción sería cierta si las distribuciones de las dos muestras siguen una distribución normal.
El coeficiente de correlación asume que las distribuciones son normales, si nos saltamos esta
asunción, el resultado del coeficiente de correlación es erróneo. Para los contrastes de hipótesis y
los intervalos de confianza también asumimos que la población se distribuye mediante una
distribución normal.
¿Qué es el estadístico de Anderson-Darling?
El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución específica. Para
un conjunto de datos y distribución en particular, mientras mejor se ajuste la distribución a los datos,
menor será este estadístico. Por ejemplo, usted puede utilizar el estadístico de Anderson-Darling para
determinar si los datos cumplen el supuesto de normalidad para una prueba t.
Las hipótesis para la prueba de Anderson-Darling son:
17
Maria Del Carmen Alonzo Sánchez
H0: Los datos siguen una distribución especificada
H1: Los datos no siguen una distribución especificada
Utilice el valor p correspondiente (si está disponible) para probar si los datos provienen de la
distribución elegida. Si el valor p es menor que un nivel de significancia elegido (por lo general 0.05 o
0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución. Minitab no
siempre muestra un valor p para la prueba de Anderson-Darling, porque este no existe
matemáticamente para ciertos casos.
También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste de varias
distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para concluir que una distribución
es la mejor, el estadístico de Anderson-Darling debe ser sustancialmente menor que los demás.
Cuando los estadísticos están cercanos entre sí, se deben usar criterios adicionales, como las gráficas
de probabilidad, para elegir entre ellos.
Distribución Anderson-Darling Valor p
Exponencial 9.599 p < 0.003
Normal 0.641 p < 0.089
Weibull de 3 parámetros 0.376 p < 0.432
La prueba de Ryan - Jonier es usada para probar si una muestra viene de una distribución específica.
Esta prueba es una modificación de la prueba de Kolmogórov-Smirnov donde se les da más peso a
las colas de la distribución que la prueba de Kolmogórov-Smirnov. En estadística, la prueba de Ryan
- Jonier es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución
específica. La fórmula para el estadístico determina si los datos (observar que los datos se deben
ordenar) vienen de una distribución con función acumulativa F.
El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución específica. Para
un conjunto de datos y distribución en particular, mientras mejor se ajuste la distribución a los datos,
menor será este estadístico. Por ejemplo, usted puede utilizar el estadístico de Anderson-Darling
para determinar si los datos cumplen el supuesto de normalidad para una prueba t.
Las hipótesis para la prueba de Anderson-Darling son:
H0: Los datos siguen una distribución especificada
H1: Los datos no siguen una distribución especificada
Utilice el valor p correspondiente (si está disponible) para probar si los datos provienen de la
distribución elegida. Si el valor p es menor que un nivel de significancia elegido (por lo general 0.05 o
0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución. Minitab no
siempre muestra un valor p para la prueba de Anderson-Darling, porque este no existe
matemáticamente para ciertos casos.
18
Maria Del Carmen Alonzo Sánchez
También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste de varias
distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para concluir que una
distribución es la mejor, el estadístico de Anderson-Darling debe ser sustancialmente menor que los
demás. Cuando los estadísticos están cercanos entre sí, se deben usar criterios adicionales, como
las gráficas de probabilidad, para elegir entre ellos.
Distribución Anderson-Darling Valor p
Exponencial 9.599 p < 0.003
Normal 0.641 p < 0.089
Weibull de 3 parámetros 0.376 p < 0.432
Exponencial Normal Weibull de 3 parámetros
Ejemplo de comparación de distribuciones
Estas gráficas de probabilidad son para los mismos datos. Tanto la distribución normal como la
distribución de Weibull de 3 parámetros ofrecen un ajuste adecuado a los datos.
Minitab calcula el estadístico de Anderson-Darling usando la distancia al cuadrado ponderada entre
la línea ajustada de la gráfica de probabilidad (con base en la distribución elegida y usando el
método de estimación de máxima verosimilitud o las estimaciones de mínimos cuadrados) y la
función de paso no paramétrica. El cálculo tiene mayor ponderación en las colas de la distribución.
Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con la prueba
de shapiro Shapiro-Wilk. Para efectuarla se calcula la media y la varianza muestral, S2, y se ordenan
las observaciones de menor a mayor. A continuación, se calculan las diferencias entre: el primero y
el último; el segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con unos
coeficientes tabulados por Shapiro y Wilk. El estadístico de prueba es:
donde D es la suma de las diferencias corregidas.
Se rechazará la hipótesis nula de normalidad si el estadístico W es menor que el valor crítico
proporcionado por la tabla elaborada por los autores para el tamaño muestral y el nivel de
significación dado.
La secuencia para realizar los contrastes de normalidad es:
19
Maria Del Carmen Alonzo Sánchez
Analiza
Estadísticos Descriptivos
Explorar
En el cuadro de diálogo que aparece al activar el botón Gráficos se activa la opción Gráficos con
pruebas de normalidad.
Ejemplo 1.
Con los datos correspondientes a la variable Trans de la encuesta Enctrans.sav y con referencia a
los encuestados que viven en Barcelona, se quiere comprobar si su distribución en cuanto al tipo de
transporte utilizado se adapta a los resultados de un estudio realizado por el Ayuntamiento de
Barcelona, que son los siguientes: el 40% de los desplazamientos al trabajo se realizan en metro; el
30% en autobús; el 20% en transporte privado y 10% otros medios.
La distribución de frecuencias de la variable Trans es:
En este caso para realizar el contraste Chi-cuadrado es necesario definir las cuatro categorías
contempladas en la hipótesis nula. Para ello, se crea una nueva variable, Trans2, a partir de Trans
con las siguientes categorías: Metro, Bus, Privado (que resultará de agregar Coche y Moto) y Otros
(que agrupará Tren y Otros).Una vez creada la nueva variable, con la secuencia Analizar > Pruebas
no paramétricas > Chicuadrado se llega al cuadro de diálogo en donde se selecciona la variable
Trans2 y se introduce en Valores esperados las frecuencias relativas de cada categoría según la
hipótesis nula correctamente ordenadas: 0,4 para la categoría 1; 0,3 para la 2; 0,2 para la 3 y 0,10
para la 4. Al aceptar se obtienen los siguientes resultados:
Como todas las categorías presentan frecuencia esperada mayor que 5 se puede aplicar el contraste
Chicuadrado sin modificar el número de categorías. El valor del estadístico Chi-cuadrado permite
rechazar la hipótesis nula para niveles de significación superiores al 2,7%. Así pues, al 5% de
significación se llega a la conclusión de que la distribución del tipo de transporte que utilizan los
alumnos no se adapta a la publicada por el ayuntamiento.
Ejemplo 2.
Con la información correspondiente a la variable Pla de la base de datos Encinf.sav, se desea
comprobar si la valoración que realizan los alumnos del plan de estudios sigue una distribución
uniforme.
Para realizar la prueba de bondad de ajuste Kolmogórov-Smirnov la secuencia a seguir es Analizar >
Pruebas no paramétricas> K-S de 1 muestra. Se selecciona la variable Pla de la base de datos
Encinf.sav y se indica que la Distribución de contraste es uniforme.
Los resultados son:
A la vista de los resultados se concluye que no se puede rechazar la hipótesis de que la valoración
asignada por este grupo de alumnos al plan de estudios es uniforme para cualquier nivel de
significación inferior al 7,1%.
20
Maria Del Carmen Alonzo Sánchez
Conclusion
En esta unidad me he dado cuenta que existe una variedad de procedimiento para el análisis
estadístico de datos y una vez recogidos los datos, procesados y convertidos en información valiosa
para el estudio que se realiza ya se pueden utilizarse varias técnicas que permitan sacar el máximo
provecho de la información disponible, sin embargo, la utilización de técnicas de Estadística No
Paramétricas son poco utilizada, a pesar de la potencia y certeza de sus resultados, y que por lo
general no se dispone de información suficiente sobre la población de la cual se extrajeron los datos
que den soporte la realización de inferencia con base en la muestra observada. Del tema 4.1 Prueba
de bondad nos dice que La prueba de bondad de ajuste se aplica en diseños de investigación en los
que se estudia un único grupo que prueba compara la distribución de frecuencias observada el
subtema 4.1.1 Análisis de Ji cuadrada nos dice que en realidad la distribución ji-cuadrada es la
distribución muestral. Ósea que, si se extraen todas las muestras posibles de una población normal y
a cada muestra se le calcula su varianza, esto haría que se obtenga la distribución muestral de
varianzas. Este tema me pareció de interés ya que el tema 4.1.4 Tablas de contingencia nos explica
que las tablas de contingencia son una tabla de doble entrada, donde en cada casilla figurará el
número de casos o individuos que poseen un nivel de uno de los factores o características analizadas
y otro nivel del otro factor analizado Para analizar la relación de dependencia o independencia entre
dos variables cualitativas nominales o factores, es necesario estudiar su distribución conjunta o tabla
de contingencia. En fin, esa es mi conclusión acerca de esta unidad.
21
Maria Del Carmen Alonzo Sánchez
bibiografias
o Bondad de ajuste para identificación de distribución individual - Minitab
o Prueba de chi-cuadrado (χ²): qué es y cómo se usa en estadística
(psicologiaymente.com)
o 9.2 Prueba de independencia o asociación | Métodos Cuantitativos (bookdown.org)
o Tablas de contingencia - Minitab
o RPubs - Ejemplos Estadística no paramétrica
o ESTADISTICA UNIDAD 5 (adhararamirez.blogspot.com)
o Prueba de Kolmogórov-Smirnov - Wikipedia, la enciclopedia libre
o El estadístico de Anderson-Darling - Minitab
o Prueba De Shapiro-Wilk [4wl7dg7gmz26] (vbook.pub)
22
Maria Del Carmen Alonzo Sánchez

More Related Content

What's hot

Pruebas de hipótesis para una muestra
Pruebas de hipótesis para una muestraPruebas de hipótesis para una muestra
Pruebas de hipótesis para una muestra
Alejandro Ruiz
 
Planteamiento de hipotesis -f fisher
Planteamiento de hipotesis -f fisherPlanteamiento de hipotesis -f fisher
Planteamiento de hipotesis -f fisher
laura ochoa
 
Unidad 8 Eleccion de la prueba de significacion estadistica
Unidad 8 Eleccion de la prueba de significacion estadisticaUnidad 8 Eleccion de la prueba de significacion estadistica
Unidad 8 Eleccion de la prueba de significacion estadistica
Ricardo Ruiz de Adana
 
Tema 2.1 regresión lineal
Tema 2.1  regresión linealTema 2.1  regresión lineal
Tema 2.1 regresión lineal
Anthony Maule
 
Coeficiente de correlacion
Coeficiente de correlacionCoeficiente de correlacion
Coeficiente de correlacion
Cleofé Zavaleta
 
Clase de estimacion puntual y intervalo
Clase de estimacion puntual y intervaloClase de estimacion puntual y intervalo
Clase de estimacion puntual y intervalo
Ivan Nuñez Salinas
 
Test retest y metodo de las mitades divididas.
Test retest y metodo de las mitades divididas.Test retest y metodo de las mitades divididas.
Test retest y metodo de las mitades divididas.
Mouna Touma
 

What's hot (20)

Pruebas de unilaterales y bilaterales
Pruebas de unilaterales y bilateralesPruebas de unilaterales y bilaterales
Pruebas de unilaterales y bilaterales
 
Pruebas de hipótesis para una muestra
Pruebas de hipótesis para una muestraPruebas de hipótesis para una muestra
Pruebas de hipótesis para una muestra
 
Planteamiento de hipotesis -f fisher
Planteamiento de hipotesis -f fisherPlanteamiento de hipotesis -f fisher
Planteamiento de hipotesis -f fisher
 
Validez y confiabilidad 2014
Validez y confiabilidad 2014Validez y confiabilidad 2014
Validez y confiabilidad 2014
 
Unidad 8 Eleccion de la prueba de significacion estadistica
Unidad 8 Eleccion de la prueba de significacion estadisticaUnidad 8 Eleccion de la prueba de significacion estadistica
Unidad 8 Eleccion de la prueba de significacion estadistica
 
Tema 2.1 regresión lineal
Tema 2.1  regresión linealTema 2.1  regresión lineal
Tema 2.1 regresión lineal
 
Análisis de los datos cuantitativos
Análisis de los datos cuantitativosAnálisis de los datos cuantitativos
Análisis de los datos cuantitativos
 
Tamaño muestra
Tamaño muestraTamaño muestra
Tamaño muestra
 
Coeficiente de correlacion
Coeficiente de correlacionCoeficiente de correlacion
Coeficiente de correlacion
 
Taller 2 investigacion correlacional
Taller 2 investigacion correlacionalTaller 2 investigacion correlacional
Taller 2 investigacion correlacional
 
Tamaño de la muestra
Tamaño de la muestraTamaño de la muestra
Tamaño de la muestra
 
DIAGRAMAS DE DISPERSIÓN, CORRELACIÓN Y REGRESIÓN. Bioestadística. LolaFFB
DIAGRAMAS DE DISPERSIÓN, CORRELACIÓN Y REGRESIÓN. Bioestadística. LolaFFBDIAGRAMAS DE DISPERSIÓN, CORRELACIÓN Y REGRESIÓN. Bioestadística. LolaFFB
DIAGRAMAS DE DISPERSIÓN, CORRELACIÓN Y REGRESIÓN. Bioestadística. LolaFFB
 
EstadíStica Inferencial
EstadíStica InferencialEstadíStica Inferencial
EstadíStica Inferencial
 
Clase de estimacion puntual y intervalo
Clase de estimacion puntual y intervaloClase de estimacion puntual y intervalo
Clase de estimacion puntual y intervalo
 
Estadistica no parametrica
Estadistica no parametricaEstadistica no parametrica
Estadistica no parametrica
 
Correlación
CorrelaciónCorrelación
Correlación
 
Pruebas de Hipótesis
Pruebas de HipótesisPruebas de Hipótesis
Pruebas de Hipótesis
 
Capítulo 10 análisis de los datos cuantitativos
Capítulo 10 análisis de los datos cuantitativosCapítulo 10 análisis de los datos cuantitativos
Capítulo 10 análisis de los datos cuantitativos
 
Distribución normal y t de student
Distribución normal y t de studentDistribución normal y t de student
Distribución normal y t de student
 
Test retest y metodo de las mitades divididas.
Test retest y metodo de las mitades divididas.Test retest y metodo de las mitades divididas.
Test retest y metodo de las mitades divididas.
 

Similar to Investigacion tema 4 estadistica inferencial

Chapter 15 Marketing Research Malhotra
Chapter 15 Marketing Research MalhotraChapter 15 Marketing Research Malhotra
Chapter 15 Marketing Research Malhotra
AADITYA TANTIA
 
marketing research & applications on SPSS
marketing research & applications on SPSSmarketing research & applications on SPSS
marketing research & applications on SPSS
ANSHU TIWARI
 
Spss cross tab n chi sq bivariate analysis
Spss  cross tab n chi sq bivariate analysisSpss  cross tab n chi sq bivariate analysis
Spss cross tab n chi sq bivariate analysis
Raja Azrul Raja Ahmad
 
Parametric vs non parametric test
Parametric vs non parametric testParametric vs non parametric test
Parametric vs non parametric test
ar9530
 
Biostatistics
BiostatisticsBiostatistics
Biostatistics
priyarokz
 

Similar to Investigacion tema 4 estadistica inferencial (20)

2016 ANALISIS STATISTIK.ppt
2016 ANALISIS STATISTIK.ppt2016 ANALISIS STATISTIK.ppt
2016 ANALISIS STATISTIK.ppt
 
Categorical Data and Statistical Analysis
Categorical Data and Statistical AnalysisCategorical Data and Statistical Analysis
Categorical Data and Statistical Analysis
 
Non Parametric Test by Vikramjit Singh
Non Parametric Test by  Vikramjit SinghNon Parametric Test by  Vikramjit Singh
Non Parametric Test by Vikramjit Singh
 
Freq distribution
Freq distributionFreq distribution
Freq distribution
 
Parametric & non parametric
Parametric & non parametricParametric & non parametric
Parametric & non parametric
 
Different types of distributions
Different types of distributionsDifferent types of distributions
Different types of distributions
 
Nonparametric tests assignment
Nonparametric tests assignmentNonparametric tests assignment
Nonparametric tests assignment
 
10.Analysis of Variance.ppt
10.Analysis of Variance.ppt10.Analysis of Variance.ppt
10.Analysis of Variance.ppt
 
Chapter 15 Marketing Research Malhotra
Chapter 15 Marketing Research MalhotraChapter 15 Marketing Research Malhotra
Chapter 15 Marketing Research Malhotra
 
marketing research & applications on SPSS
marketing research & applications on SPSSmarketing research & applications on SPSS
marketing research & applications on SPSS
 
Spss cross tab n chi sq bivariate analysis
Spss  cross tab n chi sq bivariate analysisSpss  cross tab n chi sq bivariate analysis
Spss cross tab n chi sq bivariate analysis
 
Inorganic CHEMISTRY
Inorganic CHEMISTRYInorganic CHEMISTRY
Inorganic CHEMISTRY
 
Parametric vs non parametric test
Parametric vs non parametric testParametric vs non parametric test
Parametric vs non parametric test
 
4 1 probability and discrete probability distributions
4 1 probability and discrete    probability distributions4 1 probability and discrete    probability distributions
4 1 probability and discrete probability distributions
 
Biostatistics
BiostatisticsBiostatistics
Biostatistics
 
INFERENTIAL STATISTICS.pdf
INFERENTIAL STATISTICS.pdfINFERENTIAL STATISTICS.pdf
INFERENTIAL STATISTICS.pdf
 
uji normalitas, uji homogen, korelasi pearson produk moment, korelasi rank or...
uji normalitas, uji homogen, korelasi pearson produk moment, korelasi rank or...uji normalitas, uji homogen, korelasi pearson produk moment, korelasi rank or...
uji normalitas, uji homogen, korelasi pearson produk moment, korelasi rank or...
 
ders 5 hypothesis testing.pptx
ders 5 hypothesis testing.pptxders 5 hypothesis testing.pptx
ders 5 hypothesis testing.pptx
 
DSE-2, ANALYTICAL METHODS.pptx
DSE-2, ANALYTICAL METHODS.pptxDSE-2, ANALYTICAL METHODS.pptx
DSE-2, ANALYTICAL METHODS.pptx
 
TEST OF SIGNIFICANCE.pptx
TEST OF SIGNIFICANCE.pptxTEST OF SIGNIFICANCE.pptx
TEST OF SIGNIFICANCE.pptx
 

Recently uploaded

Online crime reporting system project.pdf
Online crime reporting system project.pdfOnline crime reporting system project.pdf
Online crime reporting system project.pdf
Kamal Acharya
 
21P35A0312 Internship eccccccReport.docx
21P35A0312 Internship eccccccReport.docx21P35A0312 Internship eccccccReport.docx
21P35A0312 Internship eccccccReport.docx
rahulmanepalli02
 
Performance enhancement of machine learning algorithm for breast cancer diagn...
Performance enhancement of machine learning algorithm for breast cancer diagn...Performance enhancement of machine learning algorithm for breast cancer diagn...
Performance enhancement of machine learning algorithm for breast cancer diagn...
IJECEIAES
 
Final DBMS Manual (2).pdf final lab manual
Final DBMS Manual (2).pdf final lab manualFinal DBMS Manual (2).pdf final lab manual
Final DBMS Manual (2).pdf final lab manual
BalamuruganV28
 

Recently uploaded (20)

Online crime reporting system project.pdf
Online crime reporting system project.pdfOnline crime reporting system project.pdf
Online crime reporting system project.pdf
 
Worksharing and 3D Modeling with Revit.pptx
Worksharing and 3D Modeling with Revit.pptxWorksharing and 3D Modeling with Revit.pptx
Worksharing and 3D Modeling with Revit.pptx
 
21P35A0312 Internship eccccccReport.docx
21P35A0312 Internship eccccccReport.docx21P35A0312 Internship eccccccReport.docx
21P35A0312 Internship eccccccReport.docx
 
Performance enhancement of machine learning algorithm for breast cancer diagn...
Performance enhancement of machine learning algorithm for breast cancer diagn...Performance enhancement of machine learning algorithm for breast cancer diagn...
Performance enhancement of machine learning algorithm for breast cancer diagn...
 
analog-vs-digital-communication (concept of analog and digital).pptx
analog-vs-digital-communication (concept of analog and digital).pptxanalog-vs-digital-communication (concept of analog and digital).pptx
analog-vs-digital-communication (concept of analog and digital).pptx
 
Involute of a circle,Square, pentagon,HexagonInvolute_Engineering Drawing.pdf
Involute of a circle,Square, pentagon,HexagonInvolute_Engineering Drawing.pdfInvolute of a circle,Square, pentagon,HexagonInvolute_Engineering Drawing.pdf
Involute of a circle,Square, pentagon,HexagonInvolute_Engineering Drawing.pdf
 
Linux Systems Programming: Semaphores, Shared Memory, and Message Queues
Linux Systems Programming: Semaphores, Shared Memory, and Message QueuesLinux Systems Programming: Semaphores, Shared Memory, and Message Queues
Linux Systems Programming: Semaphores, Shared Memory, and Message Queues
 
Raashid final report on Embedded Systems
Raashid final report on Embedded SystemsRaashid final report on Embedded Systems
Raashid final report on Embedded Systems
 
Seismic Hazard Assessment Software in Python by Prof. Dr. Costas Sachpazis
Seismic Hazard Assessment Software in Python by Prof. Dr. Costas SachpazisSeismic Hazard Assessment Software in Python by Prof. Dr. Costas Sachpazis
Seismic Hazard Assessment Software in Python by Prof. Dr. Costas Sachpazis
 
Geometric constructions Engineering Drawing.pdf
Geometric constructions Engineering Drawing.pdfGeometric constructions Engineering Drawing.pdf
Geometric constructions Engineering Drawing.pdf
 
CLOUD COMPUTING SERVICES - Cloud Reference Modal
CLOUD COMPUTING SERVICES - Cloud Reference ModalCLOUD COMPUTING SERVICES - Cloud Reference Modal
CLOUD COMPUTING SERVICES - Cloud Reference Modal
 
"United Nations Park" Site Visit Report.
"United Nations Park" Site  Visit Report."United Nations Park" Site  Visit Report.
"United Nations Park" Site Visit Report.
 
What is Coordinate Measuring Machine? CMM Types, Features, Functions
What is Coordinate Measuring Machine? CMM Types, Features, FunctionsWhat is Coordinate Measuring Machine? CMM Types, Features, Functions
What is Coordinate Measuring Machine? CMM Types, Features, Functions
 
Low Altitude Air Defense (LAAD) Gunner’s Handbook
Low Altitude Air Defense (LAAD) Gunner’s HandbookLow Altitude Air Defense (LAAD) Gunner’s Handbook
Low Altitude Air Defense (LAAD) Gunner’s Handbook
 
Dynamo Scripts for Task IDs and Space Naming.pptx
Dynamo Scripts for Task IDs and Space Naming.pptxDynamo Scripts for Task IDs and Space Naming.pptx
Dynamo Scripts for Task IDs and Space Naming.pptx
 
AI in Healthcare Innovative use cases and applications.pdf
AI in Healthcare Innovative use cases and applications.pdfAI in Healthcare Innovative use cases and applications.pdf
AI in Healthcare Innovative use cases and applications.pdf
 
Augmented Reality (AR) with Augin Software.pptx
Augmented Reality (AR) with Augin Software.pptxAugmented Reality (AR) with Augin Software.pptx
Augmented Reality (AR) with Augin Software.pptx
 
Final DBMS Manual (2).pdf final lab manual
Final DBMS Manual (2).pdf final lab manualFinal DBMS Manual (2).pdf final lab manual
Final DBMS Manual (2).pdf final lab manual
 
Instruct Nirmaana 24-Smart and Lean Construction Through Technology.pdf
Instruct Nirmaana 24-Smart and Lean Construction Through Technology.pdfInstruct Nirmaana 24-Smart and Lean Construction Through Technology.pdf
Instruct Nirmaana 24-Smart and Lean Construction Through Technology.pdf
 
NEWLETTER FRANCE HELICES/ SDS SURFACE DRIVES - MAY 2024
NEWLETTER FRANCE HELICES/ SDS SURFACE DRIVES - MAY 2024NEWLETTER FRANCE HELICES/ SDS SURFACE DRIVES - MAY 2024
NEWLETTER FRANCE HELICES/ SDS SURFACE DRIVES - MAY 2024
 

Investigacion tema 4 estadistica inferencial

  • 1. Instituto tecnológico de piedras negras
  • 2. 2 Maria Del Carmen Alonzo Sánchez Índice general 4.1 Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Análisis Ji- cuadrada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.1.2 Prueba de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.3 Prueba de la bondad del ajuste. . . . . . . . ... . . . . . . . . . 4.1.4 Tabla de contingencia . . . . . . . . . . . . . . . . . .. . . . . . . . . . 4.2 Pruebas no paramétricas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Escala de medición . . . . . . . . . . . . . . . . . . . . .. . . . . . . 4.2.2 Métodos estadísticos contra no paramétricos. . . . . . . . .. 4.2.3 Prueba de kolmogorov y Smirnov . . . . . . . . . . . . . . . . . .... 4.2.4 Prueba de Anderson y Darling . . . . . . . . . . . . . . . . . . . . . . . . 4.2.5 Prueba de Ryan y Jonier . . . . . . . . . . . . . . . . . . . . . . . .. . .. 4.2.6 Prueba de Shappiro y Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5 6 8 9 10 12 13 14 16 17 18 19 20
  • 3. 3 Maria Del Carmen Alonzo Sánchez índice de tablas e imágenes o 4.1 Bondad de ajuste, imágenes . . . . . . . . . . . . . . . . . . . . .. o 4.1.1 Análisis Ji- cuadrada, imagen. . . . . . . . . . . . . . . . . . . . . o 4.1.1 imagen 2 o 4.1.2 Prueba de independencia, tabla. . . . . . . . . . . . . . . . . o 4.1.2 tablas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. o 4.1.4 Tabla de contingencia . . . . . . . . . . . . . . . . . . . . . . . .. o 4.2 Pruebas no paramétricas. . . . . . . . . . . . . . . . . . . . . . . .. o 4.2.2 Métodos estadísticos contra no paramétricos. Tabla. o 4.2.3 Prueba de kolmogorov y Smirnov. tabla . . . . . . . . . . . . o 4.2.4 Prueba de Anderson y Darling tabla. . . . . . . . . . . . . . . o 4.2.5 Prueba de Ryan y Jonier. tabla. . . . . .. . . . . . . . . . . 5 6 7 8 9 10 13 14 17 16 18
  • 4. 4 Maria Del Carmen Alonzo Sánchez introducción. En el presente trabajo de investigación de la unidad 4 de Estadística Inferencial I, se llevó a cabo porque era necesario conocer y analizar las diversas formas en que se pueden resolver problemas matemáticos, ya sea porque las distribuciones no son de forma exacta o no es conocida, entonces se necesitan técnicas estadísticas las cuales sean aplicables sin tener en cuenta la forma de la densidad. Estas técnicas se les conocen como técnicas no paramétricas. Como ejemplo se podría suponer simplemente que las observaciones constituyen una muestra aleatoria de una distribución continua, sin especificar la forma de esta distribución con mayor detalle así investigar la posibilidad de que se trate de una distribución dada. Existe una variedad de procedimiento para el procesamiento y análisis estadístico de datos, una vez recogidos los datos, procesados son convertidos en información valiosa para el estudio que se realiza, pueden utilizarse varias técnicas que permitan sacar el máximo provecho de la información disponible, sin embargo, la utilización de técnicas de Estadística son poco utilizada, a pesar de la potencia y certeza de sus resultados, y que por lo general no se dispone de información suficiente sobre la población de la cual se extrajeron los datos que den soporte la realización de inferencia con base en la muestra observada. En esta investigación se desarrollan algunas técnicas de análisis estadístico tales como la prueba de independencia, las pruebas de homogeneidad, etc. y se hace un estudio sobre el análisis de varianza.
  • 5. 5 Maria Del Carmen Alonzo Sánchez Definiciones. Por bondad del ajuste hay que entender el grado de acoplamiento que existe entre los datos originales y los valores teóricos que se obtienen de la regresión. Obviamente cuanto mejor sea el ajuste, más útil será la regresión a la pretensión de obtener los valores de la variable regresando a partir de la información sobre la variable regresora. Obtener indicadores de esta bondad de ajuste es fundamental a la hora de optar por una regresión de un determinado tipo u otro. Puesto que la media de los residuos se anula, el primer indicador de la bondad del ajuste (no puede ser el error medio) será el error cuadrático medio, o varianza del residuo, o varianza residual: Considerando la regresión Y/X: Que será una cantidad mayor o igual que cero. De forma que cuanto más baja sea mejor será el grado de ajuste. Si la varianza residual vale cero el ajuste será perfecto (ya que no existirá ningún error). Del hecho de que yi=y*i+ei, y de que las variables y* ý e están incorrelacionadas se tiene que: Donde S2 y* es la llamada varianza de la regresión y supone la varianza de la variable regresión: Igualdad fundamental anterior de la que se deduce que la varianza total de la variable y puede descomponerse en dos partes una parte explicada por la regresión (la varianza de la regresión) y otra parte no explicada (la varianza residual). Considerando que la varianza nos mide la dispersión de los datos este hecho hay que entenderlo como que la dispersión total inicial queda, en parte explicada por la regresión y en parte no. Cuanto mayor sea la proporción de varianza explicada (y menor la no explicada) tanto mejor será el ajuste y tanto más útil la regresión. A la proporción de varianza explicada por la regresión se le llama coeficiente de determinación (en nuestro caso lineal): que evidentemente estará siempre comprendido entre 0 y 1 y, en consecuencia, da cuenta del tanto por uno explicado por la regresión. Una consecuencia importante en la práctica es que la varianza residual será obviamente:
  • 6. 6 Maria Del Carmen Alonzo Sánchez Es sencillo probar que en el caso lineal que nos ocupa el coeficiente de determinación coincide con el cuadrado del coeficiente de correlación: R2 = r2 Con lo cual la varianza residual y la varianza debida a la regresión pueden calcularse a partir del coeficiente de correlación: La prueba chi-cuadrado, también llamada Ji cuadrado (Χ2), se encuentra dentro de las pruebas pertenecientes a la estadística descriptiva, concretamente la estadística descriptiva aplicada al estudio de dos variables. Por su parte, la estadística descriptiva se centra en extraer información sobre la muestra. En cambio, la estadística inferencial extrae información sobre la población. El nombre de la prueba es propio de la distribución Chi-cuadrado de la probabilidad en la que se basa. Esta prueba fue desarrollada en el año 1900 por Karl Pearson. La prueba chi-cuadrado es una de las más conocidas y utilizadas para analizar variables nominales o cualitativas, es decir, para determinar la existencia o no de independencia entre dos variables. Que dos variables sean independientes significa que no tienen relación, y que por lo tanto una no depende de la otra, ni viceversa. Así, con el estudio de la independencia, se origina también un método para verificar si las frecuencias observadas en cada categoría son compatibles con la independencia entre ambas variables. La prueba chi-cuadrado, a diferencia de otras pruebas, no establece restricciones sobre el número de modalidades por variables, y no es necesario que el número de filas y el número de columnas de las tablas coincida. Sin embargo, sí es necesario que se aplique a estudios basados en muestras independientes, y cuando todos los valores esperados sean mayores de 5. Como ya hemos mencionado, los valores esperados son aquellos que indican la independencia absoluta entre ambas variables. Además, para utilizar la prueba chi-cuadrado, el nivel de medida debe ser nominal o superior. No tiene un límite superior, es decir, no nos permite conocer la intensidad de la correlación. Dicho de otro modo, el chi-cuadrado toma valores entre 0 e infinito.
  • 7. 7 Maria Del Carmen Alonzo Sánchez
  • 8. 8 Maria Del Carmen Alonzo Sánchez Comenzaría definiendo lo que quieres decir con independencia. Por ejemplo, Si dos variables son independientes, esto significa que conocer el valor de una variable no le dice nada sobre el valor de la otra variable. Entonces describiría la prueba: Para probar la independencia, construimos una tabla de valores que esperaríamos ver si las variables fueran independientes. Si observamos algo "muy" diferente de estos valores esperados, concluiríamos que es poco probable que las variables sean independientes. Más bien no cambia su conocimiento sobre la distribución de otra variable. Definición de independencia: P (Y | X) = P (Y). Conocemos el valor de otra variable solo en casos raros de predicción perfecta (la correlación es igual a 1 o -1). Una prueba de independencia evalúa si las observaciones emparejadas sobre dos variables, expresadas en una tabla de contingencia, son independientes entre sí, por ejemplo, si las personas de diferentes regiones difieren en la frecuencia con la que informan que apoyan a un candidato político Un uso muy frecuente de la prueba de χ2χ2 es la de probar si dos características son independientes o tienen una asociación de manera que las frecuencias elevadas en una de ellas suelen ser acompañado con frecuencias altas en la otra. Digamos que estamos haciendo una encuesta de opinión y preguntamos a 1230 argentinas y a 961 argentinos si están a favor o en contra de la ley del aborto o no. Queremos saber si en género de la persona está asociado con esa opinión. Entonces nuestros datos se pueden desplegar en una tabla 2 por 2 La hipótesis nula es que no hay asociación entre las dos variables, es decir que el género de la persona no se asocia con su opinión política sobre este tema. Para calcular los valores esperados tenemos que calcular las sumas de las filas y las columnas y además el total de ellos. Opiniones sobre la ley del aborto. A favor En contra total Mujeres 762 468 1230 Hombres 484 477 961 total 1246 945 2191 El valor esperado es la cantidad de las observaciones que caen en cada celda si las distribuimos proporcionalmente. Esto se calcula multiplicando las sumas de la fila y columna de la celda respectiva y dividir por el total de las observaciones. Por ejemplo, el valor esperado de mujeres a favor sería: E=1230×12462191=699,48E=1230×12462191=699,48 A favor En contra Mujeres 762 468 Hombres 484 477
  • 9. 9 Maria Del Carmen Alonzo Sánchez Si calculamos esto para todas las celdas obtenemos: Valores esperados: opiniones sobre la ley del aborto. A favor En contra total Mujeres 699,49 530,51 1230 Hombres 546,51 414,49 961 total 1246,00 945,00 2191 Con este único valor podemos rellenar las demás celdas, ya que su contenido está dato por la diferencia entre ese valor y los totales marginales. Esto quiere decir que en esta tabla hay un solo valor que se pueda asignar arbitrariamente, el resto está dado por este valor. Por ello decimos que tenemos un solo grado de libertad. En capítulos anteriores hemos visto que los grados de libertad a menudo son N-1. Podemos usar un ejemplo sencillo para demostrar por qué tiene que ser así. Si hacemos un conjunto de tres números y queremos que la suma sea diez, podemos asignar cualquier número en las primeras dos posiciones, pero cuando vamos a asignar el tercero ya no tenemos libertad de elegir. Entonces tenemos dos grados de libertad. Para una tabla de contingencia la fórmula general para calcular los grados de libertad es: (c−1) × (f−1) (c−1) ×(f−1) es decir número de columnas menos uno por número de filas menos uno. Si la tabla es de 3×33×3, tendríamos 4 grados de libertad. La prueba de bondad de ajuste es una prueba de hipótesis estadística para ver qué tan bien los datos de la muestra se ajustan a una distribución de una población con una distribución normal. Dicho de otra manera, esta prueba muestra si los datos de su muestra representan los datos que esperaría encontrar en la población real o si de alguna manera están sesgados. la bondad de ajuste establece la discrepancia entre los valores observados y los que se esperarían del modelo en un caso de distribución normal. Existen múltiples métodos para determinar la bondad de ajuste. Algunos de los métodos más populares utilizados en estadística incluyen el chi-cuadrado, la prueba de Kolmogórov-Smirnov, la prueba de anderson-darling y la prueba de Shapiro-Wilk. Conclusiones clave Las pruebas de bondad de ajuste son pruebas estadísticas cuyo objetivo es determinar si un conjunto de valores observados coincide con los esperados según el modelo aplicable. Existen múltiples tipos de pruebas de bondad de ajuste, pero la más común es la prueba de chi- cuadrado. Estas pruebas pueden mostrarle si sus datos de muestra se ajustan a un conjunto esperado de datos de una población con distribución normal. Comprender la bondad de ajuste
  • 10. 10 Maria Del Carmen Alonzo Sánchez Las pruebas de bondad de ajuste a menudo se utilizan en la toma de decisiones comerciales. Para calcular una bondad de ajuste de chi-cuadrado, es necesario establecer primero la hipótesis nula y la hipótesis alternativa, elegir un nivel de significancia (como α = 0.5) y determinar el valor crítico. La prueba de bondad de ajuste más común es la prueba de chi-cuadrado, que generalmente se usa para distribuciones discretas. la prueba de chi-cuadrado se usa exclusivamente para datos puestos en clases (bins), y requiere un tamaño de muestra suficiente para producir resultados precisos. Las pruebas de bondad de ajuste se usan comúnmente para evaluar la normalidad de los residuos o para determinar si dos muestras se obtienen de distribuciones idénticas. Ejemplo de una prueba de bondad de ajuste Por ejemplo, un pequeño gimnasio comunitario podría estar funcionando bajo el supuesto de que tiene la mayor asistencia los lunes, martes y sábados, la asistencia promedio los miércoles y jueves, y la asistencia más baja los viernes y domingos. Con base en estos supuestos, el gimnasio emplea a un cierto número de miembros del personal cada día para registrar a los miembros, limpiar las instalaciones, ofrecer servicios de capacitación y dar clases. Sin embargo, el gimnasio no tiene un buen desempeño financiero y el propietario quiere saber si estos supuestos de asistencia y niveles de personal son correctos. el propietario decide contar la cantidad de asistentes al gimnasio cada día durante seis semanas. luego puede comparar la asistencia supuesta del gimnasio con la asistencia observada utilizando, por ejemplo, una prueba de bondad al ajuste de chi-cuadrado. Con los nuevos datos, puede determinar la mejor manera de administrar el gimnasio y mejorar la rentabilidad. Una tabla de contingencia es una tabla que cuenta las observaciones por múltiples variables categóricas. Las filas y columnas de las tablas corresponden a estas variables categóricas. Por ejemplo, después de una elección reciente entre dos candidatos, una encuesta de salida registró el sexo y el voto de 100 electores seleccionados de manera aleatoria y los datos se tabularon de la siguiente manera: Candidato A Candidato B Todos Hombre 28 20 48 Mujer 39 13 52 Todos 67 33 100 Esta tabla de contingencia cuenta las respuestas según sexo y voto. El conteo en la intersección de la fila i y la columna j se denota como nij, y representa el número de observaciones que muestra esa
  • 11. 11 Maria Del Carmen Alonzo Sánchez combinación de niveles. Por ejemplo, n1,2 muestra el número de encuestados masculinos que votaron por el Candidato B. La tabla también incluye los totales marginales para cada nivel de las variables. Los totales marginales para las filas muestran que 52 de los encuestados fueron mujeres. Los totales marginales para las columnas muestran que 67 encuestados votaron por el Candidato A. Además, la total general muestra que el tamaño de la muestra es 100. Las tablas de contingencia también pueden revelar asociaciones entre las dos variables. Utilice una prueba de chi-cuadrada o una prueba exacta de Fisher para determinar si los conteos observados difieren significativamente de los conteos esperados bajo la hipótesis nula de que no existe asociación. Por ejemplo, usted podría probar si existe una asociación entre sexo y voto. Las tablas de contingencia más simples son tablas de dos factores que cuentan las respuestas según dos variables. Usted puede categorizar las observaciones según tres o más variables al "cruzarlas". En el ejemplo de votación anterior, las respuestas también podrían clasificarse según el estatus de empleo de la manera siguiente: Candidato A Candidato B Total Hombre / empleado 18 19 37 Hombre / desempleado 10 1 11 Mujer / empleada 33 10 43 Mujer / desempleada 6 3 9 Total 67 33 100 Un análisis de correspondencia simple puede detectar asociaciones en las tablas de contingencia que categorizan los datos por más de dos variables. Para realizar un análisis de correspondencia simple en Minitab, elija Estadísticas > Análisis multivariado > Análisis de correspondencia simple.
  • 12. 12 Maria Del Carmen Alonzo Sánchez Las pruebas no paramétricas, también conocidas como pruebas de distribución libre, son las que se basan en determinadas hipótesis, pero lo datos observados no tienen una organización normal. Generalmente, las pruebas no paramétricas contienen resultados estadísticos que provienen de su ordenación, lo que las vuelve más fáciles de comprender. Las pruebas no paramétricas tienen algunas limitaciones, entre ellas se encuentra que no son lo suficientemente fuertes cuando se cumple una hipótesis normal. Esto puede provocar que no sea rechazada, aunque sea falsa. Otra de sus limitaciones es que necesitan que la hipótesis se cambie cuando la prueba no corresponde a la pregunta del procedimiento si la muestra no es proporcional. Algunas de las características de las pruebas no paramétricas son: o Es un método de medición difícil de aplicar. o Es necesario realizar pruebas de hipótesis. o Las hipótesis son estrictas. o Las observaciones deben de ser independientes. o Quizá te interese también conocer sobre las pruebas paramétricas. Tipos de pruebas no paramétricas y su aplicación Los tipos de pruebas no paramétricas son: o Prueba de signos de una muestra o Prueba de los rangos con signo de Wilcoxon o Prueba U de Mann-Whitney o Prueba de Kruskal-Wallis o Prueba de la mediana de Mood o Prueba de Friedman o Ventajas de las pruebas no paramétricas Las ventajas de las pruebas no paramétricas son: o Pueden utilizarse en diferentes situaciones, ya que no deben de cumplir con parámetros estrictos. o Generalmente, sus métodos son más sencillos, lo que las hace más fácil de entender. o Se pueden aplicar en datos no numéricos.
  • 13. 13 Maria Del Carmen Alonzo Sánchez o Facilita la obtención de información particular más importante y adecuada para el proceso de investigación. ejemplos Un determinado tumor pulmonar se clasifica en cinco tipos distintos. En cuanto a la diferenciación celular, se cree que las cinco se presentan en la misma proporción, es decir, un veinte por ciento. Se selecciona una muestra al azar de veinte tumores, obteniéndose las siguientes frecuencias absolutas. .. . . . . . Tipo celular: 1 2 3 4 5 Frecuencia: 4 8 2 2 4 Resolver el contraste con 5% de significancia Hipótesis estadística: {H0:H1: Los cinco tipos de tumor celular se presentan en la misma proporción. Los cinco tipos de tumor celular no se presentan en la misma proporción. {H0:Los cinco tipos de tumor celular se presentan en la misma proporción.H1:Los cinco tipos de tum or celular no se presentan en la misma proporción. Nivel de significancia: α=0.05α=0.05 Estadística de prueba y contraste, Kolmogórov-Smirnov. La dirección general de tránsito asegura que hay dos veces más accidentes automovilísticos los sábados y domingos que cualquier otro día de la semana. A partir de los registros se seleccionaron 108 accidentes, independientes uno de otro. De acuerdo con los datos, ¿se confirma o rechaza la afirmación?, Use α=0.01α=0.01. Días de la semana Lunes Martes Miércoles Jueves Viernes Sábado Domingo Núm. de accidentes 8 12 10 14 11 28 25 Hipótesis estadística: {H0:H1: Se asegura que los accidentes no exedenSe asegura que los accidentes exeden. {H0: Se asegura que los accidentes no exedenH1:Se asegura que los accidentes exeden. Nivel de significancia: α=0.01α=0.01 Estadística de prueba y contraste, Kolmogórov-Smirnov. Las escalas de medición son procesos de comparación cuantitativa, en los que se asignan símbolos o números, positivos y/o negativos, a las características de un elemento para determinar cuántas veces ese patrón está contenido en el total del conjunto. En investigación de mercados, facilitan el análisis estadístico de los datos y la posterior comprensión de los resultados para resolver el problema planteado.
  • 14. 14 Maria Del Carmen Alonzo Sánchez Un elemento u objeto puede ser cualquier cosa, porque todo es susceptible a ser medido. Los elementos están formados por características o propiedades que se infieren a partir de la medición de indicadores. Los indicadores o reactivos determinan el comportamiento del objeto. El comportamiento se describe en variables o constructos. Una variable como su mismo nombre lo indica, es un elemento que varía (cambia) y que al hacer parte de un conjunto puede afectarlo. Un constructo es una variable latente que no es fácilmente visible o identificable, debe encontrarse a través del análisis factorial y el análisis estructural de covarianza. Las escalas de medición siguen unas normas preestablecidas que facilitan la creación de grupos de asociaciones mutuamente excluyentes. Esta condición hace que los objetos de un conjunto sean similares entre sí, pero desiguales comparados con otros subconjuntos. Cuando una escala de medición se realiza de forma correcta, definiendo claramente todos sus componentes, se dice que la prueba es acertada; cuando es incorrecta, se dice que la prueba es pobre ejemplos. Si en un plano de una ciudad, dos localidades están separadas por 25 cm. ¿Cuál sería la distancia entre las dos, si la escala del plano es 1:50000? Solución: Si 1 cm en el plano --- 50000 cm reales 25 cm en el plano -----X 𝑋 = 25 𝑐𝑚 ∗ 50000 𝑐𝑚 /1 𝑐𝑚 = 1.250.000 𝑐𝑚 𝑞𝑢𝑒 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛 𝑎 12,5 𝐾m Un alumno va a realizar un plano de su habitación a escala 1:20. Si su habitación tiene 5m de largo. ¿Cuánto deberá medir el plano? Solución: Si 1 cm en el plano-------- 20 cm reales X --------- 5 m (500 cm) reales 𝑋 = 1 𝑐𝑚 ∗ 500 𝑐𝑚 /20 𝑐𝑚 = 25 𝑐𝑚 𝑞𝑢𝑒 𝑒𝑞𝑢𝑖𝑣𝑎𝑙𝑒𝑛 𝑎 0,25 𝑚 Es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo. PRUEBA DE LOS SIGNOS Se usa para una prueba de n para indicar la preferencia por las marcas, Caso de pruebas pequeñas: Siempre n será menor igual a 20, Valor p menos igual a alfa la Hipótesis se rechaza. Caso de muestras grandes: La Ho: p= 0,50, n es mayor a 20. 2. PRUEBA DE LOS RANGOS CON SIGNO DE WILCOXON Son las alternativas no paramétricas al método de las muestras por pares, en la situación de las muestras por pares, cada unidad experimental genera dos observaciones.
  • 15. 15 Maria Del Carmen Alonzo Sánchez 3. PRUEBA DE MANN-WHITNEY-WILCOXON Es una prueba de un método no paramétrico que se usa para determinar si hay diferencia entre dos poblaciones. La hipótesis en las pruebas de este método son las siguientes: 4. PRUEBA DE KRUSKAL- WALLIS Esta prueba se usa para probar si las poblaciones son idénticas para k mayor igual a 3 poblaciones se expresa como: Ho Todas las poblaciones son idénticas Ha: No todas las poblaciones son idénticas 5. PRUEBA DE SIGNIFICANCIA DE LA CORRELACIÓN DE RANGOS Esta prueba es acerca de la correlación por rangos poblacional "Ps", ya que se debe probar la hipótesis siguiente: Ho: Ps = 0 Ha: Ps diferencia 0 5.3 PRUEBA DE CORRIDAS PARA ALEATORIEDAD Esta prueba es un método que nos ayuda a evaluar el carácter de aleatoriedad de una secuencia de números estadistcamente independientes y dando una serie de números para determinar si son aleatorios o no. Existen dos versiones de la prueba de corridas: Prueba de corridas, arriba y abajo (ascendente y descendente) Esta prueba es como una secuencia de números de tal manera que a cada uno de los números siga otro mayor la secuencia dada será ascendente (arriba). SI cada número va seguido por otro menor, la secuencia será descendente (abajo). La fórmula de este tipo de prueba es: 5.4 PRUEBA DE SIGNOS Esta prueba es una prueba para comparar el rango de dos muestras relacionadas y determinar si existen diferencias entre ellas, por ejemplo: Se usa una muestra de n clientes para que indiquen su preferencia por una de dos marcas de un producto como de un café o de un refresco.
  • 16. 16 Maria Del Carmen Alonzo Sánchez La n de expresiones de preferencia son datos nominales, ya que el consumidor simplemente nombra una preferencia. En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica que determina la bondad de ajuste de dos distribuciones de probabilidad entre sí. En el caso de que queramos verificar la normalidad de una distribución, la prueba de Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en general, el test de Shapiro–Wilk o la prueba de Anderson-Darling son alternativas más potentes. Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos a la mediana que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual sensibilidad con valores extremos. Su nombre proviene de los matemáticos rusos Andrey Kolmogorov y Nikolai Smirnov. La prueba de Kolmogorov–Smirnoff (K-S) es un contraste no paramétrico que tiene como objetivo determinar si la frecuencia de dos conjuntos de datos distintos sigue la misma distribución alrededor de su media. En otras palabras, la prueba Kolmogorov–Smirnoff (K-S) es un test que se adapta a la forma de los datos y se utiliza para comprobar si dos muestras distintas siguen la misma distribución. ¿Por qué es un contraste no paramétrico? La gracia de la característica “no paramétrica” es que se adapta a los datos y, en consecuencia, a las distribuciones que puedan seguir la frecuencia de los datos. Además, esta característica nos ahorra tener que suponer a priori qué distribución sigue la muestra. Importancia de la prueba K-S ¿Cuántas veces nos han dado dos muestras y hemos calculado el coeficiente de correlación de Pearson sin pensarlo dos veces? En otras palabras, si queremos ver la relación lineal entre dos conjuntos de datos, sería lícito calcular la correlación, ¿no? Esta deducción sería cierta si las distribuciones de las dos muestras siguen una distribución normal. El coeficiente de correlación asume que las distribuciones son normales, si nos saltamos esta asunción, el resultado del coeficiente de correlación es erróneo. Para los contrastes de hipótesis y los intervalos de confianza también asumimos que la población se distribuye mediante una distribución normal. ¿Qué es el estadístico de Anderson-Darling? El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución específica. Para un conjunto de datos y distribución en particular, mientras mejor se ajuste la distribución a los datos, menor será este estadístico. Por ejemplo, usted puede utilizar el estadístico de Anderson-Darling para determinar si los datos cumplen el supuesto de normalidad para una prueba t. Las hipótesis para la prueba de Anderson-Darling son:
  • 17. 17 Maria Del Carmen Alonzo Sánchez H0: Los datos siguen una distribución especificada H1: Los datos no siguen una distribución especificada Utilice el valor p correspondiente (si está disponible) para probar si los datos provienen de la distribución elegida. Si el valor p es menor que un nivel de significancia elegido (por lo general 0.05 o 0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución. Minitab no siempre muestra un valor p para la prueba de Anderson-Darling, porque este no existe matemáticamente para ciertos casos. También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos entre sí, se deben usar criterios adicionales, como las gráficas de probabilidad, para elegir entre ellos. Distribución Anderson-Darling Valor p Exponencial 9.599 p < 0.003 Normal 0.641 p < 0.089 Weibull de 3 parámetros 0.376 p < 0.432 La prueba de Ryan - Jonier es usada para probar si una muestra viene de una distribución específica. Esta prueba es una modificación de la prueba de Kolmogórov-Smirnov donde se les da más peso a las colas de la distribución que la prueba de Kolmogórov-Smirnov. En estadística, la prueba de Ryan - Jonier es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico determina si los datos (observar que los datos se deben ordenar) vienen de una distribución con función acumulativa F. El estadístico Anderson-Darling mide qué tan bien siguen los datos una distribución específica. Para un conjunto de datos y distribución en particular, mientras mejor se ajuste la distribución a los datos, menor será este estadístico. Por ejemplo, usted puede utilizar el estadístico de Anderson-Darling para determinar si los datos cumplen el supuesto de normalidad para una prueba t. Las hipótesis para la prueba de Anderson-Darling son: H0: Los datos siguen una distribución especificada H1: Los datos no siguen una distribución especificada Utilice el valor p correspondiente (si está disponible) para probar si los datos provienen de la distribución elegida. Si el valor p es menor que un nivel de significancia elegido (por lo general 0.05 o 0.10), entonces rechace la hipótesis nula de que los datos provienen de esa distribución. Minitab no siempre muestra un valor p para la prueba de Anderson-Darling, porque este no existe matemáticamente para ciertos casos.
  • 18. 18 Maria Del Carmen Alonzo Sánchez También puede utilizar el estadístico de Anderson-Darling para comparar el ajuste de varias distribuciones con el fin de determinar cuál es la mejor. Sin embargo, para concluir que una distribución es la mejor, el estadístico de Anderson-Darling debe ser sustancialmente menor que los demás. Cuando los estadísticos están cercanos entre sí, se deben usar criterios adicionales, como las gráficas de probabilidad, para elegir entre ellos. Distribución Anderson-Darling Valor p Exponencial 9.599 p < 0.003 Normal 0.641 p < 0.089 Weibull de 3 parámetros 0.376 p < 0.432 Exponencial Normal Weibull de 3 parámetros Ejemplo de comparación de distribuciones Estas gráficas de probabilidad son para los mismos datos. Tanto la distribución normal como la distribución de Weibull de 3 parámetros ofrecen un ajuste adecuado a los datos. Minitab calcula el estadístico de Anderson-Darling usando la distancia al cuadrado ponderada entre la línea ajustada de la gráfica de probabilidad (con base en la distribución elegida y usando el método de estimación de máxima verosimilitud o las estimaciones de mínimos cuadrados) y la función de paso no paramétrica. El cálculo tiene mayor ponderación en las colas de la distribución. Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con la prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la media y la varianza muestral, S2, y se ordenan las observaciones de menor a mayor. A continuación, se calculan las diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y el antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk. El estadístico de prueba es: donde D es la suma de las diferencias corregidas. Se rechazará la hipótesis nula de normalidad si el estadístico W es menor que el valor crítico proporcionado por la tabla elaborada por los autores para el tamaño muestral y el nivel de significación dado. La secuencia para realizar los contrastes de normalidad es:
  • 19. 19 Maria Del Carmen Alonzo Sánchez Analiza Estadísticos Descriptivos Explorar En el cuadro de diálogo que aparece al activar el botón Gráficos se activa la opción Gráficos con pruebas de normalidad. Ejemplo 1. Con los datos correspondientes a la variable Trans de la encuesta Enctrans.sav y con referencia a los encuestados que viven en Barcelona, se quiere comprobar si su distribución en cuanto al tipo de transporte utilizado se adapta a los resultados de un estudio realizado por el Ayuntamiento de Barcelona, que son los siguientes: el 40% de los desplazamientos al trabajo se realizan en metro; el 30% en autobús; el 20% en transporte privado y 10% otros medios. La distribución de frecuencias de la variable Trans es: En este caso para realizar el contraste Chi-cuadrado es necesario definir las cuatro categorías contempladas en la hipótesis nula. Para ello, se crea una nueva variable, Trans2, a partir de Trans con las siguientes categorías: Metro, Bus, Privado (que resultará de agregar Coche y Moto) y Otros (que agrupará Tren y Otros).Una vez creada la nueva variable, con la secuencia Analizar > Pruebas no paramétricas > Chicuadrado se llega al cuadro de diálogo en donde se selecciona la variable Trans2 y se introduce en Valores esperados las frecuencias relativas de cada categoría según la hipótesis nula correctamente ordenadas: 0,4 para la categoría 1; 0,3 para la 2; 0,2 para la 3 y 0,10 para la 4. Al aceptar se obtienen los siguientes resultados: Como todas las categorías presentan frecuencia esperada mayor que 5 se puede aplicar el contraste Chicuadrado sin modificar el número de categorías. El valor del estadístico Chi-cuadrado permite rechazar la hipótesis nula para niveles de significación superiores al 2,7%. Así pues, al 5% de significación se llega a la conclusión de que la distribución del tipo de transporte que utilizan los alumnos no se adapta a la publicada por el ayuntamiento. Ejemplo 2. Con la información correspondiente a la variable Pla de la base de datos Encinf.sav, se desea comprobar si la valoración que realizan los alumnos del plan de estudios sigue una distribución uniforme. Para realizar la prueba de bondad de ajuste Kolmogórov-Smirnov la secuencia a seguir es Analizar > Pruebas no paramétricas> K-S de 1 muestra. Se selecciona la variable Pla de la base de datos Encinf.sav y se indica que la Distribución de contraste es uniforme. Los resultados son: A la vista de los resultados se concluye que no se puede rechazar la hipótesis de que la valoración asignada por este grupo de alumnos al plan de estudios es uniforme para cualquier nivel de significación inferior al 7,1%.
  • 20. 20 Maria Del Carmen Alonzo Sánchez Conclusion En esta unidad me he dado cuenta que existe una variedad de procedimiento para el análisis estadístico de datos y una vez recogidos los datos, procesados y convertidos en información valiosa para el estudio que se realiza ya se pueden utilizarse varias técnicas que permitan sacar el máximo provecho de la información disponible, sin embargo, la utilización de técnicas de Estadística No Paramétricas son poco utilizada, a pesar de la potencia y certeza de sus resultados, y que por lo general no se dispone de información suficiente sobre la población de la cual se extrajeron los datos que den soporte la realización de inferencia con base en la muestra observada. Del tema 4.1 Prueba de bondad nos dice que La prueba de bondad de ajuste se aplica en diseños de investigación en los que se estudia un único grupo que prueba compara la distribución de frecuencias observada el subtema 4.1.1 Análisis de Ji cuadrada nos dice que en realidad la distribución ji-cuadrada es la distribución muestral. Ósea que, si se extraen todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza, esto haría que se obtenga la distribución muestral de varianzas. Este tema me pareció de interés ya que el tema 4.1.4 Tablas de contingencia nos explica que las tablas de contingencia son una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado Para analizar la relación de dependencia o independencia entre dos variables cualitativas nominales o factores, es necesario estudiar su distribución conjunta o tabla de contingencia. En fin, esa es mi conclusión acerca de esta unidad.
  • 21. 21 Maria Del Carmen Alonzo Sánchez bibiografias o Bondad de ajuste para identificación de distribución individual - Minitab o Prueba de chi-cuadrado (χ²): qué es y cómo se usa en estadística (psicologiaymente.com) o 9.2 Prueba de independencia o asociación | Métodos Cuantitativos (bookdown.org) o Tablas de contingencia - Minitab o RPubs - Ejemplos Estadística no paramétrica o ESTADISTICA UNIDAD 5 (adhararamirez.blogspot.com) o Prueba de Kolmogórov-Smirnov - Wikipedia, la enciclopedia libre o El estadístico de Anderson-Darling - Minitab o Prueba De Shapiro-Wilk [4wl7dg7gmz26] (vbook.pub)
  • 22. 22 Maria Del Carmen Alonzo Sánchez