Capitulo 2 validez y confiabilidad

Mag. Fernando Ramos Ramos
Docente de la UNFV – UIGV – USMP - PUCP – CPAL
VALIDEZ Y CONFIABILIDAD

ESCALAS O
INVENTARIOS
EJECUCIÓN
TÍPICA
TESTS
EJECUCIÓN
MÁXIMA
PROPIEDAD PSICOMÉTRICAS
CONFIABILIDAD – VALIDEZ
MUESTRAS DE CONDUCTA NO
ESTRUCTURADAS –
OBSERVACIONES - ENCUESTAS NO SON TESTS
TESTS
TESTS
TESTS

Constructos Psicológicos
Teóricos IndicadoresConstructos
Se asignan números y se
establecen relaciones empíricas
Observables
Constructos
Indicadores
Constructos
Constructos
Constructos
Constructos
Constructos
Indicadores
Indicadores
Indicadores
Ítems

Propiedades psicométricas de los tests
Predictiva Retrospectiva
Discriminante Puntuación
Observada
EvidenciasdeValidez
Concurrente
Convergente
CONSTRUCTO
CONTENIDO
VALIDEZ
CRITERIO
FIABILIDAD

Puntuación Observada
Test- Retest
Estabilidad -
Tiempo
Consistencia interna
Homogeneidad
División por mitades
Formas Paralelas
Propiedades psicométricas de los tests
VALIDEZ
FIABILIDAD

Validez y Fiabilidad.
Teoría de la Medición
Errores sistemáticos
Varianza de
factores irrelevantes
SESGO
Constructo
Puntuación
Verdadera
Puntuación
Observada
Error de Medición
asistemáticos
VALIDEZ
FIABILIDAD

Hogan 2004: Es el grado en que un
test mide lo que pretende medir, se
refiere al grado en que un
instrumento o conjunto de
operaciones mide lo que dice medir.
Martínez, 2006: Es una inferencia, se
presenta como el proceso de
determinar si la teoría y las
evidencias empíricas respaldan esta
inferencia.
DEFINICIÓN DE VALIDEZ

TIPOS DE VALIDEZ
Evidencias
de
Validez
VALIDEZ DE
CONSTRUCTO
VALIDEZ DE
CRITERIO
VALIDEZ DE
CONTENIDO

VALIDEZ GLOBAL DEL TEST
VALIDEZ DE
CONTENIDO
VALIDEZ
DE
CRITERIO
VALIDEZ DE
CONSTRUCTO
VALIDEZ
GLOBAL
ENTRE MAYOR EVIDENCIA DE VALIDEZ DE CONTENIDOS,
VALIDEZ DE CRITERIO Y VALIDEZ DE CONSTRUCTO TENGA
UN INSTRUMENTO DE MEDICIÓN, ÉSTE SE ACERCA MÁS A
REPRESENTAR LA VARIABLE O VARIABLES QUE PRETENDE
MEDIR.
UN INSTRUMENTO PUEDE SER FIABLE PERO NO VALIDO,
PUEDE MEDIR CONSISTENTEMENTE UN ASPECTO, MAS NO
MEDIR LO QUE PRETENDE MEDIR.

Grado en que un instrumento refleja un
dominio específico del contenido que se
mide.
Nunnally 1973: Es el grado en que los
ítems que constituyen el instrumento
tienen el dominio del contenido que se
mide.
Un instrumento de medición debe tener
representados a todos los ítems del
dominio de contenido de las variables a
medir.
VALIDEZ DE CONTENIDO

ILUSTRACIÓN DE UN INSTRUMENTO DE MEDICIÓN CON
VALIDEZ DE CONTENIDO VERSUS CON UNO QUE CARECE DE
ÉSTA
L R
E A
N M
A Z
U G
Ñ
DOMINIO DE VARIABLE
L R
E A
N M
A Z
U G
L E
INSTRUMENTO
CON VALIDEZ DE
CONTENIDO
INSTRUMENTO
SIN VALIDEZ DE
CONTENIDO
EL INSTRUMENTO DEBE CONTENER TODOS LOS ASPECTOS O ÍTEMS DEL DOMINIO DE LA VARIABLE QUE SE ESTA
MIDIENDO, Y SE CONSTRUYE DE ACUERDO CON LA TEORÍA.
SU FINALIDAD ES GARANTIZAR QUE EL TEST CONSTITUYE UNA MUESTRA ADECUADA Y REPRESENTATIVA DEL
CONTENIDO QUE ÉSTE PRETENDE EVALUAR.
SE REALIZA MEDIANTE JUICIO DE EXPERTOS.
SE USA LA TABLA DE ESPECIFICACIONES COMO UNA DE LAS TÉCNICAS PARA EVALUAR LA VALIDEZ DE CONTENIDO.

CALCULO DE LA VALIDEZ DE CONTENIDO
CRITERIO DE LOS JUECES
Es la proporción que existe entre los juicios que coinciden con
la definición propuesta por el autor (acuerdo A) y el total de
juicios emitidos (acuerdos A y desacuerdos D).
Tomándose como válidos los reactivos cuyos valores sean
iguales o mayores que 0,80 (Guilford, 1954).
IA = A / D
IA = Índice de acuerdo
A = Acuerdo
D = Desacuerdo
INDICE DE ACUERDO

Es un análisis estadístico que estudia la
probabilidad de obtener x objetos en una
categoría y n-x objetos en la otra (Hoel, 1976).
p = proporción de casos esperados en una de las categorías.
q = 1 – p proporción de casos esperado en la otra categoría.
D = Desacuerdo
PRUEBA BINOMIAL

Las categorías son p (acuerdos) y q
(desacuerdos) y se asume que p = q = 0,50. Se
elige esta prueba porque los datos son
dicotómicos y se tiene un solo grupo de sujetos
(Siegel, 1980).
El cálculo realizado nos da la probabilidad de
ocurrencia de manera directa de manera que si
es menor de 0,05 o 0,01 se asume que el ítem
posee validez de contenido.
PRUEBA BINOMIAL

COEFICIENTE DE VALIDEZ V
V DE AIKEN: 1985
Es un coeficiente que se computa como la
razón de un dato obtenido sobre la suma
máxima de la diferencia de los valores
posibles.
Puede ser calculado sobre la valoración de un
conjunto de jueces con relación a un ítem o
como valoraciones de un juez respecto a un
grupo de ítems. Asimismo las valoraciones
asignadas pueden ser dicotómicas (recibir
valores de 0 o 1) o politómicas (recibir valores
de 0 a 5).

V DE AIKEN: 1985
Este coeficiente puede obtener valores entre 0 y
1, a medida que se más elevado el valor
computado, el ítem tendrá una mayor validez de
contenido.
El resultado puede evaluarse estadísticamente
haciendo uso de la tabla de probabilidades
asociadas de cola derecha.
Es precisamente esta posibilidad de evaluar su
significación estadística lo que hace a este
coeficiente uno de los más apropiadas para
estudiar este tipo de validez,

V DE AIKEN: 1985

V = 9__ = 0,90 P= 0,001 VÁLIDO
10(2-1)

Establece la validez de un instrumento de
medición comparando entre nuestra situación
de medida y un estándar al que se le llama
criterio externo.
Este criterio es estándar con el que se juzga la
validez del instrumento.
Es disponer de otra situación de lo que conozco
su validez.
Pero se requiere de consenso entre la
comunidad científica, se trabaja en relación al
criterio o Gold Standard (patrón de oro).
VALIDEZ DE CRITERIO

EVIDENCIA RELACIONADA CON EL
CRITERIO
Validez Concurrente: Si el Criterio
se fija en el presente (a corto
plazo)
Validez Predictiva: Si
el criterio se fija en
el futuro (a largo
plazo)

Cuando el instrumento y el estándar
se miden al mismo tiempo.
Se lleva a cabo un análisis de
correlación y mientras más alta la
correlación, mayor será la validez de
criterio.
Por ejemplo: se administra el
instrumento a un grupo y seguido se
recoge una medida de desempeño.
Contesta la pregunta ¿Carlos es
exitoso?
VALIDEZ DE CRITERIO
CONCURRENTE

VALIDEZ DE CRITERIO
PREDICTIVA
Cuando el instrumento y el estándar no son
medidos a la vez, en este último caso,
debemos conocer previamente los datos
del estándar y lo que se obtiene es la
predicción. Se lleva a cabo un análisis de
correlación y mientras más alta la
correlación, mayor será la validez de
criterio.
Por ejemplo: Se administra el instrumento
a un grupo, se deja pasar un tiempo (6
meses) y se recoge la medida de
desempeño. Contesta la pregunta ¿Será
Carlos exitoso?

VALIDEZ DE CONSTRUCTO
La más importante desde una perspectiva
científica.
Se refiere a que tan exitosamente un
instrumento representa y mide un concepto
teórico.
Cuanto más elaborado y comprobado se
encuentre la teoría que apoya la hipótesis,
la validación de constructo arrojará mayor
luz sobre la validez general de un
instrumento de medición.
Se realiza mediante análisis de factores y
otras pruebas multivariadas.

Se hace necesario partir de un
modelo teórico que especifique
las relaciones teóricas, entre el
rasgo latente o constructo
teóricamente considerado y los
elementos e indicadores
específicos , que se deban
satisfacer empíricamente.

En este sentido un constructo hace
referencia a un rasgo, atributo o
cualidad no observable
directamente, sino que es inferirle a
través de una teoría. Ello implica
que la validez de constructo no
puede expresarse empíricamente
mediante indicadores básicos como
un coeficiente de correlación
simple.

TÉCNICAS DE LA VALIDEZ DE
CONSTRUCTO

ANÁLISIS FACTORIAL
El análisis factorial es una técnica
estadística que examina la estructura
interna de la unidad de medida, mide si
los indicadores tienen algo en común, es
decir si tienen un común denominador,
mide las correlaciones entre los
indicadores e intenta descubrir si hay
algo subyacente. Los ítems deben tener
un común denominador que debe
aflorar estadísticamente. La estructura
subyacente o común denominador se
llama factor

TÉCNICA DE LOS GRUPOS CONOCIDOS
Aplicar la validez a un criterio estándar, el
procedimiento consiste en aplicar el
instrumento a dos o más grupos y ver si
discrimina.
Ejemplo: Un grupo de pacientes crónicos
compuesto por un grupo de pacientes
hipertensos y otro grupo de pacientes con
esclerosis múltiple. Si el instrumento de
medida discrimina a ambos grupos (es decir
me dice que los hipertensos tienen mayor
calidad de vida que los pacientes con
esclerosis múltiple) es que tiene validez.

MATRIZ MULTIMÉTODO-MULTIRRASGO
El instrumento de medida introduce una
fuente de variación, es la racionalidad.
Ejemplo: medir el grado de satisfacción
mediante un cuestionario, una entrevista y la
observación y posteriormente se estudiará la
convergencia entre los tres resultados.
Que se debe esperar en las medidas, que
haya convergencia (es decir gran
concordancia entre lo que miden los tres
métodos).
MTMM nos permite medir varios métodos
con varias variables.

La confiabilidad (o
consistencia) de un test es la
precisión con que el test mide
lo que mide, en una
población determinada y en
las condiciones normales de
aplicación.
CONFIABILIDAD

La falta de confiabilidad de un
test psicométrico esta en
relación con la intervención del
error. Se considera que el error
es cualquier efecto irrelevante
para los fines o resultados de la
medición que influye sobre la
falta de confiabilidad de tal
medición
FALTA DE CONFIABILIDAD

El error es de dos tipos:
a) Error constante (sistemático),
que se produce cuando las
mediciones que se obtienen con
una escala son
sistemáticamente mayores o
menores que lo que realmente
deben ser.

b) Error causal (al azar o no
sistemático), que se produce
cuando las medidas son
alternativamente mayores o
menores de lo que realmente
deben ser. Este último tipo de
error interviene cuando se afecta
la confiabilidad de un test
psicométrico.

Este error tiene que ver con la
salud, fatiga, motivación, tensión
emocional, fluctuaciones de la
memoria, condiciones externas
de luz, humedad, ventilación,
calor, distracción por problemas
del momento, familiaridad con la
prueba, que presenta el
examinado al momento de dar el
test

MÉTODOS PARA OBTENER LA
CONFIABILIDAD DE UN TEST

MÉTODOS PARA OBTENER LA
CONFIABILIDAD DE UN TEST
1. Confiabilidad a través del tiempo
a. Test Retest
b. Formar alternas o equivalentes
2. Confiabilidad o consistencia interna
a. Método de la equivalencia
racional o Alfa de Cronbach
b. Método de la división por
mitades emparejadas:
Spearman Brown, Guttman y
Alfa de Cronbach
3. Confiabilidad entre evaluadores.

1. CONFIABILIDAD A TRAVÉS DEL TIEMPO
Se utiliza un grupo, donde se le administra
el instrumento en dos tiempo diferentes.
El tiempo entre la primera y la segunda
administración es un factor que hay que
tomar en consideración.
Mientras más tiempo pase entre la
primera y la segunda administración,
menor puede ser el coeficiente de
confiabilidad.
Los intervalos de tiempo pueden generar
problemas de mortalidad, efectos de
aprendizaje o de memoria y maduración.

A. TEST - RETEST
Se le administra el instrumento
a un grupo de personas, se deja
pasar un tiempo y luego se
administra el mismo
instrumento al mismo grupo.
Se correlacionan los pares de
puntuaciones, donde el índice
de correlación debe fluctuar
entre 0,70 a 1,00.

r = 0,7 a más
APLICACION
RESULTADOS
A. TEST - RETEST

B. FORMAR ALTERNAS O EQUIVALENTES
Se le administra dos o mas versiones
equivalentes similares al contenido
del instrumento de medición.
La forma A del instrumento a un
grupo de personas, se deja pasar un
tiempo y luego se administra la
forma B del instrumento al mismo
grupo.
Se correlacionan los pares de
puntuaciones, donde el índice de
correlación debe fluctuar entre 0,70
a más

r = 0,7 a más
APLICACION
RESULTADOS
B. FORMAR ALTERNAS O EQUIVALENTES

2. CONFIABILIDAD DE CONSISTENCIA
INTERNA
Ayuda a determinar el grado de
interrelación que existe entre los
reactivos de un instrumento.
La consistencia interna no contempla
los elementos que afectan a la
confiabilidad a través del tiempo por
lo que ambas técnicas son
complementarias y no son iguales.
En cierto modo trata de indagar
sobre el grado de homogeneidad de
las respuestas.

A. MÉTODO DE LA EQUIVALENCIA
RACIONAL O ALFA DE CRONBACH
Establece una relación entre
reactivos y la puntuación
total del instrumento.
Se usa mucho cuando hay
escalas de medición tipo
Likert.
La correlación debe ser de
0,7 a más.

ALFA DECRONBACH INTERPRETACION
0,53 a menos Confiabilidad nula
0,54 a 0,59 Confiabilidad baja
0,60 a 0,65 Confiable
0,66 a 0,71 Muy Confiable
0,72 a 0,79 Excelente Confiabilidad
0,80 a 1,0 Confiabilidad Perfecta
Los ítems cuyos coeficientes de correlación son
menores a 0,35 deben ser o recodificados
reformulados o desechados (Cohen- Manion,
1990).

B. MÉTODO DE LA DIVISIÓN POR MITADES
EMPAREJADAS: SPEARMAN BROWN, GUTTMAN Y
ALFA DE CRONBACH
Se divide la prueba en dos
mitades colocando los
reactivos impares a un lado y
los pares al otro.
Se correlacionan ambas
mitades.
Se usa la fórmula de corrección
de Spearman Brown.
El coeficiente de Correlación
debe ser de 0,70 en adelante.

B. MÉTODO DE LA DIVISIÓN POR MITADES
EMPAREJADAS: SPEARMAN BROWN, GUTTMAN Y
ALFA DE CRONBACH
2
4
6
8
10
1
3
5
7
9
Correlación de Spearman Brown
entre 0,7 a 1,0
NonesPares

3. CONFIABILIDAD ENTRE EVALUADORES.
Unos expertos en el contenido
del instrumento contestan el
instrumento.
Se supone que las
puntuaciones sean similares.
Se calcula un índice de
concordancia.
A mayor concordancia, más
confiable resultará ser el
instrumento.

Capitulo 2 validez y confiabilidad

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Capitulo 2 validez y confiabilidad

Similar to Capitulo 2 validez y confiabilidad (20)

Capitulo 2 validez y confiabilidad