2. Objetivos
• Presentar aspectos sicométricos esenciales en el
análisis de ítems.
• Trabajar algunos ejemplos de análisis de ítems
con el Programado Excel.
3. Consideraciones generales
• Conceptos básicos
• Prueba
• Según Bernard (1999), una prueba es una serie de tareas o
conjunto de ítemes, que las personas contestan en forma oral o
escrita y que permiten determinar diferencias específicas entre
ellas.
• Una prueba es un instrumento de medición utilizado para
describir numéricamente una característica bajo condiciones
uniformes (Thomas Haladyna, 1999).
4. Es una manera de medir el comportamiento o ejecución
de un individuo en una situación determinada que
permita recoger una información para usos variados
tales como:
• Diagnóstico de una situación
• Alcance de logros y anticipo de las posibilidades de éxito
en nuevas situaciones
5. Clasificación de las pruebas
• Según Anastasi (1968), son medidas normalizadas y objetivas
de una muestra de la conducta. Su clasificación se hace a base
de lo que se proponen medir así como también del tipo de
preguntas o ejercicios que se elaboran. Según el tipo de
preguntas o ejercicios, tenemos las pruebas objetivas y las
subjetivas. De acuerdo a su propósito, se clasifican como:
diagnóstica, de aprovechamiento académico, normativas y
estandarizadas, de ejecución y de criterio entre otras.
6. Pruebas de aprovechemiento académico
• Es un instrumento diseñado para medir el comportamiento
o logro relativo del estudiante en un área específica de
trabajo de una materia o curso. Estas pruebas suelen ser
tanto objetivas como subjetivas (o una combinación de
ambas). Determinan el progreso alcanzado por los
estudiantes a medida que se va llevando a cabo el proceso de
enseñanza y aprendizaje.
7. Pruebas objetivas
• Son aquellas cuyos ejercicios o preguntas tienen sólo una
respuesta precisa y en las que el juicio u opinión del(la)
maestro(a) en nada afecta o influye en las respuestas de los
estudiantes. Ejemplos: llenar blancos, pareo, cierto o falso,
selección múltiple, definir o todo tipo de ejercicio en que la
contestación o respuesta conlleva enumerar o señalar un dato
o hecho.
8. Prueba subjetiva
• Son aquellas cuyos ejercicios o preguntas pueden variar en sus
respuestas y están sujetas tanto a la opinión del maestro como
a la de los estudiantes. En este tipo de prueba tenemos los
ejercicios de preguntas abiertas, ensayo, solución de
problemas, análisis de situaciones e interpretación de casos,
entre otras. Son adecuadas para medir destrezas complejas de
pensamiento tales como el análisis, la síntesis y la evaluación.
9. • El diagnóstico no recibe calificación. Suele usarse
sobre todo en áreas específicas como en la lectura, la
ortografía o las operaciones matemáticas
fundamentales. El diagnóstico se puede hacer de
manera formativa.
10. Resumen del proceso de elaboración de
las pruebas
• Determinar el propósito de la prueba
• Preparación de una planilla de especificaciones (Validación del
contenido)
• Redacción de reactivos o ítems.
• Análisis de los ejercicios .
• Administración de la prueba
• Análisis de ítemes
• Desarrollo de índices (rangos percentiles, media, coeficiente de
confiabilidad, error estándar, coeficiente phi, índice de dificultad y
discriminación del ítem y otras estadísticas de un nivel de sofisticación
alto).
11. Consideraciones sobre las pruebas
• En la administración de una prueba se utilizan
procedimientos uniformes en su administración y
corrección de tal manera que se asegure
comparabilidad en los resultados de sujetos
diferentes.
• La selección del contenido para las pruebas de se
hace sobre la base de “cuán bien discrimina” el ítem
entre grupos de diferente nivel de habilidad (los de
alto aprovechamiento y los de bajo aprovechamiento).
12. • Los ítemes en una prueba deben organizarse
colocando los ítemes de dificultad menor al inicio e
ir aumentando el nivel de dificultad.
• El nivel de dificultad promedio de la prueba debe
ser moderado. Por ejemplo en una escala Delta de
6 a 19, (donde 6 es el nivel de dificultad menor y 19
es el nivel de dificultad mayor) un nivel moderado
es aproximadamente entre 12 y 13.
13. ¿Qué significa un puntaje en una prueba?
Xo = Xt + Xe
Donde: Xo = Valor observado
Xt = valor verdadero
Xe = componente de error
El propósito básico del desarrollo de pruebas es reducir el componente de error a un mínimo.
14. Nivel de dificultad de los ítems
Porcentaje de estudiantes que
Delta responden correctamente
6 95
7 92 Muy Fácil
8 90
9 85
10 80 Fácil
11 70
12 60
13 50
Mediana
14 40
15 30
16 20
17 15 Difícil
18 10
19 5
15. Validez de contenido
• Se refiere al grado en que las preguntas o ítemes de
un instrumento representan las destrezas, contenido
o conceptos de un área específica.
• Se examina el plan o proceso que se siguió en la
construcción del instrumento (respaldado por la
revisión de literatura, el contenido curricular, etc.)
• ¿Representan esos ítemes una muestra adecuada del
contenido o rasgo que se desea medir?
16. Planilla de cernimiento
Sirve para iniciar el proceso de validación de
un instrumento por los expertos en esa área de
contenido de la disciplina o del constructo que
se pretende medir.
17. Reactivo / Ítem Adecuado No es Observación Recomendación
adecuado de cambio
1.
2.
3.
4.
5.
6.
7.
8.
9.
18. Modelo de planilla
Nivel / Memoria Comprensión Aplicación Análisis
Contenido
Filosofía
Sociología
Metodología
Evaluación
Crecimiento
y Desarrollo
19. Validez de constructo
El instrumento mide adecuadamente ese constructo
para el que fue creado. (Ej. Inteligencia, auto concepto,
auto estima, etc.)
Es necesario realizar una prueba de análisis de
factores (“Factor Analysis”) y un análisis de las
intercorrelaciones de los ítemes.
Se puede correlacionar con otro instrumento
previamente validado en ese mismo constructo (validez
concurrente).
Para el análisis de factores se necesita tener por lo
menos 5 sujetos por ítem. (Ej: si tenemos un
instrumento de 50 ítemes, necesitamos para su
validación 250 sujetos).
¿Se provee información adecuada y suficiente (válida)
que indique que ese constructo está relacionado al
propósito de la prueba?
¿Cuán bien apoyan los datos empíricos esas
conclusiones?
20. Validez predictiva
El instrumento de medición predice
adecuadamente (ejecución, éxito académico,
etc.).
Se refiere a cuán válidas son nuestras
inferencias sobre los resultados de ese
instrumento para predecir comportamiento
futuro.
Se debe recopilar evidencia posterior sobre la
ejecución de los individuos y correlacionarla con
los resultados de la prueba.
Realizar, de ser posible, análisis de regresión y
presentar tablas de expectativas.
21. Confiabilidad
Grado de consistencia con que un
instrumento mide lo que intenta medir.
Algunos índices:
Kuder – Richardson (KR21, KR20)
Estabilidad
Alpha de Cronbach
División por mitades (“Split-Half”)
Consistencia interna
Alpha de Cronbach, KR21, KR20
22. Escala para los niveles de confiabilidad
Coeficiente (r) Interpretación
1.00 Positiva perfecta
0.90
0.80 Positiva alta
0.70
0.60 Moderada
0.50
0.40
0.30 Baja
0.20
0.10 Débil
0.00 Ausencia de confiabilidad
23. Análisis de ítemes
• Índice de dificultad del ítem (p)
• Nos indica cuán difícil resulta ser el ítem para el grupo de
examinados.
• Se determina dividiendo el número de contestaciones correctas
entre el total de sujetos que contestaron el ítem.
P= # ítems correctos/ Total de estudiantes
24. Índice (p) Nivel de dificultad
.90 + Muy fácil
.61-.89 Fácil
.40-.60 Mediana dificultad
< .39 Difícil
25. Índice de discriminación
• Nos indica cuán bien discrimina el ítem entre el grupo
de mayor habilidad y el grupo de menor habilidad.
• Para el grupo de mayor y menor habilidad se toma el 27
% más alto y el 27 % más bajo.
• CA = Número de sujetos en el grupo de habilidad alta.
• CB = Número de sujetos en el grupo de habilidad baja.
• N = Número de sujetos que contestó el ítem.
26. Fórmula para índice de
discriminación
ID = (CA – CB)
N/2
Ejemplo: En un grupo 4 estudiantes obtuvieron puntuaciones altas
y 2 obtuvieron puntuaciones bajas de un total de 30 sujetos que
tomaron la prueba. El índice de discriminación es: 0.11
27. Interpretación del índice
Índice Discriminación
0.40 + Muy buena discriminación
.30-.39 Discrimina bien
.20-.29 Puede revisarse
< .19 No debe usarse
Negativo No discrimina y debe eliminarse
28. Recomendaciones
A la luz del análisis estadístico se pueden eliminar o
revisar los ítemes.
Considerar diferentes enfoques en el cómputo de la
confiabilidad para determinar la contribución de
diferentes fuentes de error de medición.
Considerar tamaños de muestras adecuadas al
realizar cómputos estadísticos y análisis de ítemes.
Considerar posibles sesgos culturales al redactar
ítemes.
Revisar fuentes de referencia con evidencia técnica y
psicométrica (Buros’ Mental Measurement Yearbook)