Psicometria

  • 19,923 views
Uploaded on

 

More in: Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
No Downloads

Views

Total Views
19,923
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
340
Comments
1
Likes
6

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Indicadores de calidad de un instrumento para evaluación por competencias.
    Carlos Gabriel Contreras S.
    Estadístico
    UCLA
  • 2. Agenda de trabajo.
    Confiabilidad.
    Validez.
  • 3. Confiabilidad.
    La confiabilidad (o consistencia) de un test es la precisión con que el test mide lo que mide, en una población determinada y en las condiciones normales de aplicación. (Anastasi, 1982; Aiken, 1995) (Las condiciones normales de aplicación se refieren a las condiciones especificadas en el manual del test).
  • 4. Confiabilidad.
    La falta de confiabilidad de un test psicométrico esta en relación con la intervención del error. Se considera que el error es cualquier efecto irrelevante para los fines o resultados de la medición que influye sobre la falta de confiabilidad de tal medición.
  • 5. Error.
    El error es de dos tipos: a) Error constante (sistemático), que se produce cuando las mediciones que se obtienen con una escala son sistemáticamente mayores o menores que lo que realmente deben ser. b) Error causal (al azar o no sistemático), que se produce cuando las medidas son alternativamente mayores o menores de lo que realmente deben ser.
  • 6. Error causal.
    Interviene cuando se afecta la confiabilidad de un test psicométrico. Este error tiene que ver con la salud, fatiga, motivación, tensión emocional, fluctuaciones de la memoria, condiciones externas de luz, humedad, ventilación, calor, distracción por problemas del momento, familiaridad con la prueba, que presenta el examinado al momento de dar el test (Rey, 1972; Brown,1982)
  • 7. Representaciones estadísticas de la confiabilidad.
    Error estándar de medida.
    Coeficiente de confiabilidad.
  • 8. Coeficiente de confiabilidad.
    Es un coeficiente de correlación entre dos grupos de puntajes e indica el grado en que los individuos mantienen sus posiciones dentro de un grupo. Abarca valores desde 0 a 1. Cuanto más se acerque el coeficiente a 1, más confiable será la prueba.
  • 9. Coeficiente de confiabilidad.
    El coeficiente de confiabilidad señala la cuantía en que las medidas del test están libres de errores casuales o no sistemáticos. Por ejemplo, un coeficiente de 0.95 quiere decir que en la muestra y condiciones fijadas de aplicación del test el 95% de la varianza de los puntajes directos se debe a la auténtica medida, y sólo el 5%, a errores aleatorios.
  • 10. Obtención del coeficiente.
    Método de las formas equivalentes
    Método del test-retest
    Método de la división por mitades emparejadas o "splithalf method“
    Método de la equivalencia racional o de Kuder-Richardson.
  • 11. Formas equivalentes.
    Se aplican dos formas equivalentes o paralelas del test al mismo grupo de individuos, y las dos series de puntajes resultantes se correlacionan con el coeficiente producto de los momentos de Pearson (r).
  • 12. Test Retest.
    Se aplica dos veces el mismo test (el lapso entre las aplicaciones se determina previamente), a una misma muestra de individuos. Las dos series de puntajes resultantes se correlacionan con el coeficiente de correlación "r" de Pearson.
  • 13. Split half
    Se aplica el test una sola vez a una muestra. Luego, se califica por separado los ítemes pares (2, 4, 6, ..., n) y los ítemes impares (1, 3, 5, ..., n). A continuación, las dos series de puntajes resultantes se correlacionan con el coeficiente "r" de Pearson, pero por haberse dividido el test en dos partes (ítemes pares e ítemes impares), el "r" resultante debe ser "corregido" para arrojar el "r“ para todo el test. Esta corrección se efectúa con la fórmula de profecía de Spearman-Brown:
  • 14. Equivalencia racional.
    Método de la equivalencia racional: En este método se considera que si un test esta formado por un conjunto de ítemes estos pueden ser considerados como un conjunto de tests paralelos (tantos como ítemes tenga el test). Luego se deriva una ecuación para computar el coeficiente de confiabilidad. Kuder y Richardson derivaron varias fórmulas para el cálculo del coeficiente de confiabilidad, son las más conocidas la KR20 y la KR21. Actualmente,un coeficiente más utilizado es el coeficiente alfa de Cronbach(1972; Anastasi, 1982; Aiken, 1995).
  • 15. Error estándar de medida.
    Por medio de este error estándar de medida se estima el intervalo probable de puntajes en el cual se encontrará el puntaje verdadero de un sujeto examinado con un test psicométrico.
  • 16. Error estándar de medida.
    s = Desviación estándar de los puntajes de la distribución.
    rxx = Coeficiente de confiabilidad del test.
    1 = Constante.
    Obtenido el EEM, debemos escoger el nivel de confianza:
    - Nivel de confianza del 68% = PD ± 1 EEM.
    - Nivel de confianza del 95% = PD ± 2 EEM.
  • 17. EEM
    Para el nivel de confianza del 68% la interpretación es la siguiente: "Podemos concluir, con un 68% de confianza, que el puntaje verdadero de un sujeto está en la zona o intervalo comprendido entre su puntaje directo u obtenido (PD) y ± 1 EEM".
    El nivel de confianza más usado en psicometría es el del 95%: "el puntaje verdadero de un sujeto se encontrara en el intervalo comprendido entre su puntaje obtenido o directo (PD) y ± 2 EEM"
  • 18. Validez.
    Si tenemos una prueba “X” nos equivocaríamos al creer que su titulo nos dice lo que la prueba mide, pues cualquier persona puede reunir un conjunto de reactivos y esperar a obtener una medida, por ejemplo, de razonamiento numérico o de las estrategias de aprendizaje. La averiguación de lo que la prueba mide no responde a la pregunta ¿cómo llama el autor a la prueba?, sino más bien ¿a qué hacen referencia los puntajes obtenidos en esta?, ¿es válido el uso o la interpretación de las puntuaciones de este test?, ¿qué generalizaciones se pueden hacer apropiadamente a partir de la puntuación en esta prueba? (Thorndike, 1989).
  • 19. Distinción entre validez y confiabilidad.
    La distinción entre confiabilidad y validez se basa en lo que consideramos como error. En la validez interesan los errores constantes o sistemáticos y en la confiabilidad los errores aleatorios o no sistemáticos. El siguiente ejemplo nos permitirá precisar la diferencia entre ambos tipos de error: Supongamos que un reloj es adelantado 20 minutos. Si se trata de un buen cronometro el tiempo que marca será confiable (es decir consecuente), pero no será valido en comparación con el tiempo estándar (hora GMT).
  • 20. Definición de validez
    En términos estadísticos la validez se define como la proporción de la varianza verdadera que es relevante para los fines del examen. Con el término relevante nos referimos a lo que es atribuible a la variable, características o dimensión que mide la prueba.
  • 21. Definición de validez.
    Generalmente la validez de un test se define ya sea por medio de (1) la relación entre sus puntuaciones con alguna medida de criterio externo, o bien (2) la extensión con la que la prueba mide un rasgo subyacente específico hipotético o “constructo”.
  • 22. Definición de validez.
    En términos psicométricos, la validez es un concepto que ha pasado por un largo proceso evolutivo, desde aquella posición que sostenía que “un test es válido para aquello con lo que correlaciona” (Guilford, 1946, citado en Muñiz, 1996, p. 52), hasta la más reciente que la entiende como un juicio evaluativo global en que la evidencia empírica y los supuestos teóricos respaldan la suficiencia y lo apropiado de las interpretaciones y acciones en base a los puntajes de las pruebas, que son función no sólo de los ítemes sino también de la forma de responder de las personas así como del contexto de la evaluación.
  • 23. Definición de validez
    Es decir, lo que se valida no es la prueba sino las inferencias hechas a partir de la misma, lo que tiene dos importantes consecuencias: a) el responsable de la validez de una prueba ya no es solo su constructor sino también el usuario, y b) la validez de una prueba no se establece de una vez por todas sino que es resultado del acopio de evidencias y supuestos teóricos que se dan en un proceso evolutivo y continuo que comprende todas las cuestiones
  • 24. En síntesis….
    En este contexto, el concepto validez refiere a la adecuación, significado y utilidad de las inferencias específicas hechas con las puntuaciones del los tests.
  • 25. La validez no se puede resumir en un solo indicador o índice numérico, al igual que ocurre con la confiabilidad (p.e., el coeficiente de confiabilidad), sino que la validez de las puntuaciones de un test se asegura mediante la acumulación de evidencia teórica, estadística, empírica y conceptual del uso de las puntuaciones.
  • 26. Validez de contenido.
    ¿Los ítems que constituyen el test son realmente una muestra representativa del dominio de contenido o dominio conductual que nos interesa?
    La validez de contenido consiste en determinar lo adecuado del muestreo de reactivos del universo de reactivos posibles; en este sentido, es una “medida” de lo adecuado del muestreo.
  • 27. Validez de constructo.
    Grado en que la medida refleja el constructo.
    Se enfoca en la relación de una medida con otras medidas y características del funcionamiento del cual puede ser parte del concepto subyacente a la medida
  • 28. Validez concurrente.
    La correlación de una medida con el rendimiento en otra medida o criterio en el mismo momento de tiempo.
  • 29. Validez predictiva.
    La correlación de una medida en un punto en el tiempo con otra medición del rendimiento o criterio en algún momento del futuro.
  • 30. Validez de criterio.
    Correlación de una medida con algún otro criterio. Esto puede abarcar la validez concurrente y la predictiva.
  • 31. Validez aparente.
    El grado en el que una medida parece valorar el constructo de interés. Este no es un tipo formal de validación o parte de la investigación psicometrica o evaluación de la medida.
  • 32. Validez convergente.
    El grado en el que dos medidas valoran constructos similares o relacionados. La validez de una medida dada sugiere si las medidas se correlacionan con otras, con las cuales se espera correlacionen, la correlación entre las medidas se espera con base en la coincidencia o relación de constructos, una forma de validez concurrente tiene significado en relación con la validez discriminante.
  • 33. Validez discriminante.
    La correlación entre medidas que se espera que no se relacionen una con otra o que evalúen constructos diferentes no relacionados. La validez de una medida dada se sugiere si la medida muestra poca o ninguna correlación con las medidas con las cuales no se espera que se correlacione. La ausencia de correlación se espera con base en diversos constructos conceptualmente diferenciados.
  • 34. Estimación de la validez de construcción.
    Métodos intra-pruebas.
    Métodos inter-pruebas.
    Relaciones a criterios.
    Estudios de capacidad de generalización.