Doctorado salamanca

1,804 views

Published on

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,804
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
47
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Doctorado salamanca

  1. 1. Eduardo Gª Cueto
  2. 2. I don’t think so
  3. 3. ¿Qué medimos? – Inteligencia – Rendimiento – Personalidad – Intereses – Actitudes – Objetos (Thurstone)
  4. 4. ¿A qué nivel medimos? • Nominal • Ordinal • Intervalo • Razón
  5. 5. ¿Qué utilizamos para medir la conducta humana? –Tests Proyectivos – Tests Psicométricos
  6. 6. Tests proyectivos:• Exploran el conjunto de la personalidad de una manera global• Se fundan en la noción de proyección• Utilizan materiales vagos y poco estructurados• Dan lugar a una variedad cuasi-infinita de respuestas interpretables
  7. 7. La tarea del paciente consiste, no tanto endescribir la lámina, como en contar unahistoria en relación con la figura que lalámina le presenta.
  8. 8. Test de frustración de Rosenzweig
  9. 9. Test de Szondi
  10. 10. Tests psicométricos• La Real Academia Española de la Lengua define a los tests como exámenes o pruebas psicológicas para el estudio de alguna función.• Si se acude a la etimología del término la palabra test proviene del latín: testis que significa testigo y cuyo semantema está presente en palabras como testimonio, testículo, etc.• La enciclopedia más consultada del mundo (Wikipedia) dice:
  11. 11. Wikipedia• La Psicometría es la disciplina que se encarga de la medición en psicología. Medir es asignar un valor numérico a las características de las personas, es usada esta función pues es más fácil trabajar y comparar los atributos intra e interpersonales con números y/o datos objetivos. Así, no se usa para medir personas en sí mismas, sino sus diferentes aspectos psicológicos, tales como conocimiento, habilidades, capacidades, o personalidad.• La medida de estos aspectos es difícil, y gran parte de la investigación y técnicas acumuladas en esta disciplina están diseñadas para definirlos de manera fiable antes de cuantificarlos. Los críticos argumentan que tales definiciones y cuantificaciones son imposibles y que las mediciones a menudo son tergiversadas.• Los contenidos de la psicometría se articulan, fundamentalmente, en dos grandes bloques: teoría de los test, que hace referencia a la construcción, validación y aplicación de los test y escalamiento, que incluye los métodos para la elaboración de escalas psicofísicas y psicológicas.• A su vez, la teoría de los test se divide en dos ramas: la teoría clásica de los tests y la más reciente teoría de respuesta a los ítems.• Los conceptos clave de la teoría clásica de los tests son: fiabilidad y validez. “Fiabilidad" es medir algo de forma consistente, es decir, que la aplicación de un instrumento dé medidas estables; mientras que "validez" es medir lo que realmente se mide el atributo que el test pretende medir.• Ambas propiedades, fiabilidad y validez, admiten un tratamiento matemático.
  12. 12. Tests psicométricos:• Se pueden definir los tests psicométricos como instrumentos de medida• Se basan en modelos matemáticos• Intentan estimar el nivel de habilidad de las personas en rasgos diferenciados, sus aptitudes, actitudes y su personalidad.• Las respuestas dadas a estos tests se valoran y evalúan cuantitativamente• La puntuación final obtenida puede interpretarse basándose en modelos formalizados• Intentan dar una medida objetiva de múltiples aspectos de la conducta humana.
  13. 13. Tipo de ítems– Respuesta abierta– Verdadero falso– Si - No– Elección múltiple– Elección forzada (Ipsativos)– Tipo “Likert”– Preguntas de respuesta breve– Preguntas a desarrollar– Tareas para realizar– Preguntas de emparejamiento– Clasificaciones– Comparaciones
  14. 14. Respuesta abierta• ¿Cuál es la capital de Brasil?• 23 x 2=• ¿Quién escribió “El sueño de una noche de verano”?
  15. 15. Verdadero - falso• 20-(12+9)+1=0 V F• La media es un estadístico de tendencia central V F• Me gusta el futbol V F
  16. 16. Elección múltiple• Las Capitulaciones de Santa Fe fueron en a)1.491 b)1.492 c)1.493
  17. 17. Si-No• Tengo teléfono móvil SI NO• En las próximas elecciones votaré al P.P. SI NO• La fórmula del agua es H2O SI NO
  18. 18. Elección forzadaElija una de las dos opciones, la que mejor describa su forma de ser:• Soy una persona A) Perezosa B) Desordenada
  19. 19. Tipo Likert• Falto a clase 1) Nunca 2) A veces 3) Normalmente 4) Casi siempre 5) Siempre
  20. 20. Preguntas a desarrollar• Describa la influencia de la superstición en la literatura española del siglo XIX
  21. 21. Preguntas de respuesta breve• Defina los siguientes accidentes geográficos: – Isla – Cabo – Golfo – Río – Lago – Cordillera
  22. 22. Tareas para realizar• Construir un rompecabezas• Interpretar una pieza de piano• Ver el número de pulsaciones por minuto para escribir un texto en un procesador de textos.
  23. 23. Preguntas de emparejamiento• Empareja cada persona con su oficio o profesión: Salvador Dalí Cine Pablo Picasso Medicina Antonio Gaudí Psicología Mario Vargas Llosa Matemáticas Santiago Ramón y Cajal Física José Luís Pinillos Arquitectura Santiago Calatrava Literatura Eduardo Noriega Pintura
  24. 24. Clasificaciones• Ordene las siguientes actividades según su preferencia: Leer: __________ Hacer deporte:_________ Escuchar música:_________ Ver televisión:______________
  25. 25. Comparaciones• De cada par subraye la actividad que más le guste: – Hacer deporte – Leer – Ver televisión – Escuchar música – Leer – Ver televisión – Escuchar música – Hacer deporte – Leer – Escuchar música – Hacer deporte – Ver televisión
  26. 26. 12 pasos para la construcción de un test1. Plan general • ¿Qué quiero medir? • ¿Para qué voy a usar los resultados? • ¿Cómo se interpretarán los resultados? • ¿Qué formato va a tener el test? • ¿Cuál va a ser la modalidad de aplicación? • ¿Qué características tiene la población diana? • ¿Quién va a elaborar los ítems? • ¿Quién va a revisar los ítems?
  27. 27. 12 pasos para la construcción de un test2. Definición del contenido • Definición operativa del constructo • Definición del universo de ítems • Definición de las características del grupo de expertos que van a valorar la validez de contenido del test • Método de valoración de la validez de contenido
  28. 28. 12 pasos para la construcción de un test3. Especificaciones sobre el test (El blueprinting) • Tipo de formato del test • Número total de ítems • Modelo teórico en el que se basa • Tipo de estímulos que puede contener el test (visuales, auditivos, etc.) • Normas de puntuación de los ítems • Si la interpretación va a ser referida a la norma o al criterio • Tiempo de aplicación
  29. 29. 12 pasos para la construcción de un test4. Desarrollo de los ítems • Asegurar en el constructor de ítems:  La habilidad y los conocimientos psicométricos de quienes vayan a desarrollar los ítems.  El conocimiento del constructo medido.  Conocimiento sobre el universo de ítems del constructo
  30. 30. 12 pasos para la construcción de un test5. Diseño del test • Ensamblaje de los ítems tiene tal importancia que se ha demostrado la relación entre esto y la validez y/o la fiabilidad del test.
  31. 31. 12 pasos para la construcción de un test6. “Producción” del test • Téngase en cuenta que:  Erratas  Forma de presentación  Control de calidad  Facilidad de lecturaInciden directamente sobre la validez de la prueba
  32. 32. 12 pasos para la construcción de un test7. Administración del test • Establecer normas claras de administración. • Seguir un protocolo establecido • Unificar las instrucciones en todas las aplicaciones
  33. 33. 12 pasos para la construcción de un test8. Puntuaciones del test • Exactitud de las plantillas • Adecuación de la puntuación final del test • Equivalencia entre puntuaciones observadas y baremos • Confirmación empírica de la posibilidad de equiparación de puntuaciones, si esta se lleva a cabo
  34. 34. 12 pasos para la construcción de un test9. Puntos de corte • Cuando los tests exigen tener un punto de corte o se va a establecer niveles o grados entre quienes los responden, con consecuencias importantes para su futuro es imprescindible probar la validez de los puntos de cortes para los distintos niveles.
  35. 35. 12 pasos para la construcción de un test10. Informes de los resultados • Cualquier error que aparezca en los informes sobre los resultados de una aplicación de un tests, aunque sea un error tipográfico puede servir para degradar todo el proceso del programa de medida llevado a cabo. Ese informe siempre será un arma contra los tests, su validez y la toma de decisiones seguida de su aplicación
  36. 36. 12 pasos para la construcción de un test11. El “banco de ítems” • Tras la elaboración de los ítems y su aplicación, conviene tener un “almacen” donde se guarden con todas sus características. Los mejores siempre cabe la posibilidad de que pueden ser reutilizados. Señalar la confidencialidad de los bancos de ítems es inútil por su obviedad
  37. 37. 12 pasos para la construcción de un test12. Informe técnico • Cualquier test ha de ser acompañado de un exhaustivo informe técnico en donde se de cuenta de:  Objetivo de la prueba  Definición del constructo  Todos los parámetros psicométricos del test  Una buena idea puede ser utilizar estos doce pasos como “guión” del informe técnico
  38. 38. Principales índices de los ítemsEntre las características que pueden ayudar a seleccionar losmejores ítems para mejorar las propiedades psicométricas deltest, así como para ayudar a conseguir mejor sus objetivos deevaluación se pueden señalar los siguientes: -Impacto -DIF -Dificultad -Discriminación -Homogeneidad -Distractores -Azar -Fiabilidad -Validez
  39. 39. Impacto• Se dice que un ítem tiene impacto cuando personas de grupos diferentes tienen probabilidades distintas de acertar el ítem
  40. 40. D.I.F• Un ítem funciona diferencialmente (presenta DIF) cuando personas de diferentes grupos tienen distintas probabilidades de acertar el item en función del grupo de pertenencia:• Y = b0 + b1TOTAL + b2SEXO + b3TOTAlxSEXO  pi Ln   B0  B1total  B2 grupo  B3 (totalxgrup o) 1  p i 
  41. 41. Dificultad de los ítemsUn ítem será fácil o difícil en función del número de personas que lo acierteno lo fallen. Los ítems fáciles serán acertados por más personas que los ítemsdifíciles. También resulta elemental que, saber simplemente el número depersonas que acierten o fallen un ítem sería inútil por sí mismo. Es decir, si sedice que un ítem es acertado por 300 personas y otro por 500 no se puede, deesa información, deducir cuál de los dos ítems es más fácil o más difícil. Ladificultad va a depender, no sólo del número de personas que acierten (ofallen) el ítem, sino también del número de personas que intentenresponderlo. Cualquiera podría deducir que si ambos ítems fueron aplicados amuestras con características similares, el primero fue respondido por 600personas y el segundo por 1.000, ambos ítems son igual de fáciles o difíciles,ya que la proporción de personas que lo responden adecuadamente es lamisma.
  42. 42. El índice de dificultad del ítem El índice de dificultad de un ítem es un indicador de la dificultad del mismo. En este sentido, la dificultad del ítem vendría dada por la proporción de personas que aciertan el ítem entre todas las que intentan responderlo. A A F ID  k 1 N ID  NA: Número de personas que aciertan el ítemN: Número de personas que intentaron resolver o responder al ítemF: Número de personas que fallan el ítemk: Número de alternativas del ítem
  43. 43. El índice de dificultad, como indicador de lo difícil que puede seracertar o fallar un ítem, sólo tiene sentido calcularlo en los tests dondeexistan respuestas correctas o incorrectas, no en los tests depersonalidad o escalas de actitudes. En este tipo de cuestionarios, la dificultad sólo podría interpretarsecomo la probabilidad de dar una respuesta determinada (afirmativa,negativa, de mayor o menor acuerdo o desacuerdo con la afirmacióndel ítem) en función del grado o de la posición relativa de la personaen el rasgo o actitud que se esté midiendo. Es decir, cuanto másintrovertida sea una persona, más probable es que respondaafirmativamente al ítem: Me sonrojo si un desconocido me pegunta la hora por la calle De igual modo, sería muy difícil, que alguien con una fuerteactitud en contra de cualquier extranjero se mostrara totalmente deacuerdo con el contenido del siguiente ítem: Me gustaría que mi hija se casara con un extranjero.
  44. 44. Discriminación de los ítemsUna de las finalidades fundamentales de un test es lade poder discriminar entre todas las personas que loresponden y ordenarlas, o escalarlas, en función delatributo que mida el test, la capacidad que puedan, ono, tener los ítems para discriminar resulta de unaenorme importancia. Efectivamente, cada uno de losítems o los elementos que compongan el test debende contribuir de forma adecuada a diferenciar entreaquellas personas que han obtenido en éste unaelevada puntuación y aquellas cuya puntuación hasido más baja o peor (según el caso).
  45. 45. Discriminación de los ítemsUn buen ítem, tiene que ser acertado por unaproporción mayor de los individuos queobtengan mejor puntuación, o puntuación máselevada en el test, que aquellos conpuntuaciones bajas. Dicho con otras palabras, siel ítem es “bueno” tenderá a ser acertado porquienes obtengan buena puntuación en el test yserá fallado (o tenderá a ser fallado) por quienesobtengan puntuaciones bajas
  46. 46. Índice de discriminaciónSegún este índice, la capacidad de un ítem para discriminarviene dada por la diferencia entre la proporción de acertantesentre las mejores y las peores puntuaciones en el test. La muestratotal se divide en dos grupos, siendo el 27% superior y el 27%inferior lo que configuraran los dos grupos extremos. A estaforma de estimar el poder de discriminación de un ítem se ladenomina D (discriminación) y su formulación es la siguiente: D  p  pDonde: p+ : Proporción de acertantes al ítem del grupo superior yp- : Proporción de acertantes del grupo inferior. Siendo -1 ≤ D ≤ +1.
  47. 47. Índice de discriminación basado en grupos extremos Por ejemplo, un grupo de 400 personas responden a un test. De las 108 con mejores puntuaciones en el test (27% superior) 81 aciertan cierto ítem. De las 108 con peores puntuaciones en el test (27% inferior) sólo lo aciertan 27, por consiguiente: 81 27 p   0,75 p   0,25 D = 0,75 – 0,25 = 0,50 108 108 Para ayudar a la interpretación de esta forma de estimación de ladiscriminación de los ítems, Ebel (1965) propone la siguiente tabla: Valores Interpretación ≥ 0,40 El ítem discrimina muy bien Entre 0,30 y 0,39 El ítem discrimina bien Entre 0,20 y 0,29 El ítem discrimina poco Entre 0,10 y 0,19 Ítem límite. Se debe mejorar < 0,10 El ítem carece de utilidad para discriminar
  48. 48. Índice de discriminaciónEs necesario tener en cuenta que para calcular la puntuación totalen el test, el ítem que se está analizando debe ser eliminado. Esdecir, es necesario calcular tantas puntuaciones “totales” comoítems tenga el test, ya que el ítem analizado no debe de contribuira la puntuación total de los individuos en el test, antes dedeterminar las personas que forman parte de los grupos extremos.
  49. 49. Índice de homogeneidad Nos indica lo homogéneo que es cada ítem en relación a los otrosítems del test, es decir, en que modo contribuye a medir lo mismo quemide el test total. Su estima mediante la correlación item-test Esta correlación se denomina índice de homogeneidad, ya que señalahasta qué punto el ítem es homogéneo con el test y tiende a medir lamisma variable que el test.
  50. 50. Índice de homogeneidadConviene señalar y dejar muy claro que el índice de homogeneidad vieneexpresado por la correlación entre dos variables: la puntuación en unítem y la puntuación en un test. Se da por supuesto que el ítem analizado,a la hora de calcular la correlación, es eliminado del test, bien seadescontándolo antes de calcular la puntuación total, o mediante unmétodo estadístico apropiado que corrija de forma adecuada los efectosque sobre el valor de la correlación tiene el hecho de incluir lapuntuación del ítem dentro de la puntuación total del test. Si al calcular lacorrelación ítem-test no se descontasen del test las puntuacionescorrespondientes al ítem, se estaría inflando de forma espuria el valor dela correlación
  51. 51. Índice de homogeneidadEl tipo de correlación que se utilice para el cálculo del índice dehomogeneidad va a depender de las características que tengan lasvariables entre las que va a hallarse la correlación, es decir, a lascaracterísticas de medida que tengan el ítem y el test. En principio elcoeficiente de correlación producto-momento de Pearson permitecalcular este índice. Claro que el cálculo del coeficiente de correlación dePearson requiere escalas continuas y distribuciones normales bivariadas.Recuérdese que el valor máximo empírico del coeficiente de correlaciónde Pearson depende de la distribución conjunta de las variables que sequieran correlacionar.
  52. 52. Índice de homogeneidad La siguiente tabla puede aclarar qué tipo de correlación puede ser el más adecuado en cada caso. La primera columna muestra el nivel de medida del ítem y la primera fila, el del test. Así si el ítem está dicotomizado y el test es una variable continua se utilizaría la correlación biserial. Ítem Test Nivel de Dicotómica Dicotomizada Continua medidaDicotómico Correlación Φ Correlación Φ Correlación biserial- puntualDicotomizado Correlación Correlación biserial tetracóricaContinuo Correlación de Pearson
  53. 53. Corrección de la correlación Como ya se había indicado, si no se ha eliminado el ítem para el cálculo de la correlación de la puntuación en el test, con la puntuación en el ítem, debe aplicarse la siguiente fórmula de corrección para la obtención del índice de discriminación: rix sx  si I . D. s  s  2rix sx si 2 x 2 iSiendo:rix: La correlación del ítem con el test.sx: La desviación típica del test.si: La desviación típica del ítem.
  54. 54. Análisis de los distractoresSe denominan distractores a las distintasalternativas falsas o posibilidades de respuestaincorrectas que tiene un ítem. Todas ellas deberíanresultar igualmente atractivas para las personasevaluadas que desconocieren la respuesta correcta.Para comprobarlo, una prueba de independenciapuede ayudar a tomar decisiones sobre laequiprobabilidad de las alternativas incorrectaspropuestas para cualquier ítem
  55. 55. El índice de fiabilidad de los ítemsEste índice se utiliza para estimar la fiabilidad con la que cada ítem midela característica o la variable que mide el test total. Es decir, dainformación sobre la contribución que el ítem hace para medir lo que eltest total midaEl índice de fiabilidad (IF) del ítem es función del índice dediscriminación y la desviación típica del ítem, es decir: IF  S ID i iSiendo: Si: La desviación típica de las puntuaciones en el ítem i IDi: El índice de discriminación del ítem i. Es decir, lacorrelación ítem-test corregida, eliminada la influencia del ítem en lapuntuación total del test.
  56. 56. Índice de validezSe entiende por índice de validez del ítem al coeficiente decorrelación entre las puntuaciones en el ítem y laspuntuaciones obtenidas en el criterio. Es decir, la correlaciónítem-criterio. Formalmente podría expresarse: I.V. = rjySiendo: rjy la correlación entre las puntuaciones en elítem y las puntuaciones en el criterio externo.
  57. 57. Supuestos básicos de la T.C.T.V = E(X) 0 ve Modelo: X = V + e e j ek 0
  58. 58. Definición de tests paralelos• Dos tests, j y k, se denominan paralelos si la varianza de los errores es la misma en ambos y cada sujeto obtiene en ellos la misma puntuación verdadera
  59. 59. Fiabilidad• En general, se dice que una medida es fiable cuando está libre de error.• Un test es fiable cuando es constante en su medida• Un test es fiable si tiene consistencia interna.
  60. 60. Coeficiente de fiabilidad• La fiabilidad de un test se expresa mediante su coeficiente de fiabilidad:  2  XX  v  2 x
  61. 61. Coeficiente de fiabilidad Puesto que  2 x   2v   2e   x  2 2 2  e 2 XX e   v  1 2   x 2 x 2  x No obstante ninguna de las dos fórmulas vale para el calculo del coeficiente de fiabilidad ya que ni la varianza de los errores ni la de las puntuaciones verdaderas se puede calcular empíricamente
  62. 62. Índice de fiabilidad• Se denomina índice de fiabilidad de un test a la correlación entre sus puntuaciones empíricas y sus puntuaciones verdaderas. Matemáticamente es la raíz cuadrada del coeficiente de fiabilidad: v  xv  x
  63. 63. Métodos clásicos para la estimación empírica del coeficiente de fiabilidad• Test-retest – Coeficiente de estabilidad• Formas paralelas – Coeficiente de equivalencia• Dos mitades – Consistencia interna
  64. 64. Estimación de las puntuaciones verdaderas• Ecuaciones de regresión – Puntuaciones directas V  (X  X)  X xx – Puntuaciones diferenciales: v  xx x – Puntuaciones típicas: zv  xx . z x
  65. 65. El coeficiente α• El coeficiente α de Conbrach es, sin duda, el método más conocido y más utilizado para el estudio de la consistencia interna del test como estimación de su fiabilidad.• Su valor se estima a partir de la siguiente ecuación:  2  n   j  n  j 1    1 2  n 1 x      
  66. 66. Fórmulas basadas en el análisis factorial• Coeficiente θ de Carmines – En 1979 Carmines y Zeller propusieron el coeficiente θ como una aproximación al coeficiente α. n  1  1      n 1  1Donde λ1 es el primer autovalor de la matriz dedatos sometida a análisis factorial
  67. 67. Fórmulas basadas en el análisis factorial• Coeficiente Ω de Heise y Bohrnstedt n nh i 2   1 n i 1   i , j 1 ji i jDonde h2 es la comunalidad estimada de los ítems del test yρ es la correlación entre los ítems del test
  68. 68. Fórmulas basadas en el análisis factorial• Se puede demostrar que: α≤θ≤Ω≤ρxx
  69. 69. Fiabilidad de una batería de tests• Para el cálculo de la fiabilidad de una batería de tests Yela (1987) propone la siguiente fórmula: n n  j  2   2  jj j 1 j j 1 Rn  1   2 x
  70. 70. Definición• Un test, como cualquier otro instrumento de medida, es válido si sirve para medir adecuadamente aquello para lo que fue pensado como tal instrumento de medida
  71. 71. Clasificación de la validez Contenido Criterio Constructo Multirrasgo-Aparente Muestral Curricular Predictiva Concurrente Retrospectiva multimétodo Factorial Convergente Divergente Sesgos Método
  72. 72. Validez de contenido• Indica el grado en que los ítems del test representan una muestra adecuada de las conductas o capacidades relevantes para lo que se pretende medir. Requiere un análisis racional del contenido de los ítems, no suele expresarse cuantitativamente, y tiene varias facetas
  73. 73. Validez de contenido• la validez aparente refleja el grado en que el test parece medir lo que pretende.• la validez muestral se refiere a la relevancia de los contenidos del test.• La validez curricular se refiere a los contenidos curriculares de un programa de formación reflejados en el test.
  74. 74. Validez relativa a un criterio• Indica el grado en que las puntuaciones del test tienen utilidad para predecir otras variables que actúan como criterio.• Se cuantifica a través del coeficiente de validez, rXY, que es la correlación de Pearson entre el test (X) y el criterio (Y). Según el momento temporal a que se aplique, la validez relativa a un criterio se denomina: – validez concurrente, cuando el criterio representa una variable que se mide a la vez que se aplica el test; – validez predictiva, cuando el criterio representa una variable que se medirá en el futuro; – validez retrospectiva, cuando el criterio representa una variable cuyo valor se conoce con (mucha) anterioridad a la aplicación del test.
  75. 75. Validez de constructo• Indica en qué grado un test mide qué variable psicológica (constructo).• Requiere un marco teórico que especifique qué relaciones guardan unos constructos con otros y que permita establecer hipótesis acerca de cómo deben ser las relaciones con otros constructos
  76. 76. Matrices multirrasgo- multimétodo• Validez Convergente – un test tiene validez convergente cuando presenta correlaciones altas con otros tests que miden el mismo constructo con distinto método• Validez Divergente o discriminante – un test tiene validez divergente o discriminante cuando presenta correlaciones bajas con tests que miden otros constructos con el mismo método• Sesgo debido al método – Se da si las correlaciones entre tests que miden distintos rasgos con distintos métodos son más bajas que las de los tests que miden distintos rasgos con el mismo método
  77. 77. TEST ENTREVISTA JUECES Satisfacción Implic. Motiv Satisf. Impl. Mot. Satis. Impl. Mot1.TestA. Satisfacción (.95)B. Implicación .31 (.90)C. Motivación .28 .20 (.92)2. EntrevistaA. Satisfacción .86 .10 .57 (.95)B. Implicación .10 .90 .13 .11 (.92)C. Motivación .11 .09 .86 .10 .11 (.89)3. JuecesA. Satisfacción .73 .10 .06 .87 .05 .06 (.95)B. Implicación .10 .80 .12 .09 .88 .10 .15 (.93C. Motivación .09 .08 .80 .12 .17 .85 .07 .02 (.90)
  78. 78. Validez Factorial• Un test tiene validez factorial cuando el tratamiento de las puntuaciones mediante análisis factorial revela las dimensiones relevantes del constructo.
  79. 79. Validez y predicción• Cálculo empírico del coeficiente de validez – El coeficiente de validez del test se define, según ya se ha dicho, como el coeficiente de correlación entre el test y un criterio externo al mismo. – En general se puede suponer que el test será una variable continua y «normal», es decir, que seguirá una distribución gaussiana.
  80. 80. Sin embargo, el criterio, en muchas ocasiones puede ser unavariable discreta. No es raro que si se pide a un grupo deentrenadores en un programa determinado que evalúen a susalumnos estos dicotomicen la evaluación dividiendo al grupoen dos categorías: rendimiento satisfactorio versusrendimiento insatisfactorio. Lo mismo puede ocurrir con losjefes que han de evaluar en rendimiento laboral a sussubordinados, etc. La medida subyacente a esta evaluaciónes en realidad una variable continua, ya que el rendimiento enun programa de entrenamiento o en una empresa no podrádefinirse como «blanco» o «negro», como sí rendimiento, ono rendimiento, sino que se rendirá más o menos en uncontinuo real de rendimiento y será el evaluador el quedicotomiza la variable para dar una «calificación» derendimiento aceptable o no aceptable.
  81. 81. El coeficiente de correlación adecuado cuandonos encontramos con una variable continua ynormal (test o instrumento de pronóstico) y unavariable subyacente continua y normal; perodicotomizada, es el coeficiente de correlaciónbiserial, cuya formulación matemática es lasiguiente:
  82. 82. Si el criterio es una variable realmente dicotómica y el test se sigue considerando como una variable continua y normal, el coeficiente de correlación adecuado entre ambos tipos de variables es la correlación biserial puntual, y su expresión matemática es la siguiente:
  83. 83. Si test y criterio se pueden considerar variables normales, el coeficiente de correlación adecuado para el cálculo de la validez es el coeficiente de correlación momento-producto de Pearson y su expresión matemática puede escribirse de la siguiente forma:
  84. 84. Relación fiabilidad-validez Fórmula general x y x x  y y  1 1 1 1 1 1 x y 2 2 x x  y y 2 2 2 2
  85. 85. Relación fiabilidad-validez• Mejora de la fiabilidad del test x y x x  y y  1 1 1 1 1 1 x y 2 2 x x  y y 2 2 2 2
  86. 86. Relación fiabilidad-validez• Mejora de la fiabilidad del criterio x y x x  y y 1 1  1 1 1 1 x y 2 2 x x  y y 2 2 2 2
  87. 87. Relación fiabilidad-validez
  88. 88. Relación fiabilidad-validez
  89. 89. Límite del coeficiente de validez• Para un test concreto• Límite máximo para cualquier test
  90. 90. Coeficiente de validez y longitud del test• Una forma de mejorar el coeficiente de validez del test es aumentando su longitud, puesto que aumentar la longitud del test es una forma de mejorar su fiabilidad y tal y como se ha visto, una forma de mejorar la validez es, precisamente, mejorando la fiabilidad
  91. 91. Coeficiente de validez y longitud del test• Expresión matemática de la relación coeficiente de validez-longitud:  xy Rxy  1   xx   xx nSiendo: Rxy el coeficiente de validez del test una vez aumentada su longitudρxy el coeficiente de validez del test primitivoρ xx el coeficiente de fiabilidad del test primitivon el número de veces que se aumenta la longitud del test
  92. 92. Coeficiente de validez y longitud del test• Despejando n de la anterior fórmula puede estimarse el número de veces que habría que aumentar la longitud del test para conseguir un determinado coeficiente de validez: (1   xx ) R 2 n xy   R  xx 2 xy 2 xy
  93. 93. Coeficiente de validez y homogeneidad de la muestra• Como es sabido el coeficiente de correlación de Pearson no es independiente de la homogeneidad de la muestra en la que se estime.• El coeficiente de validez de un test, al igual que ocurría con el de fiabilidad, también depende, obviamente, de la homogeneidad de la muestra en la que se estime.
  94. 94. Coeficiente de validez y homogeneidad de la muestra• A partir de dos supuestos: – 1. El error típico de estimación es independiente de la homogeneidad de la muestra – 2. La pendiente de la recta de regresión es independiente de la homogeneidad de la muestra• Se puede deducir la siguiente ecuación que pone en relación validez- homogeneidad
  95. 95. Coeficiente de validez y homogeneidad de la muestra S x  xyRxy  S   (1   ) 2 2 x xy 2 xy 2 x
  96. 96. Otros indicativos de la validez• El coeficiente de validez de un test da información de hasta qué punto pueden estimarse las puntuaciones en un criterio, conocidas las puntuaciones en el test. Esto puede verse con claridad a partir de: – El coeficiente de determinación = d – El coeficiente de alienación = k – El coeficiente de valor predictivo = e
  97. 97. El coeficiente de determinación• El coeficiente de determinación d es el cuadrado del coeficiente de validez del test. Ya que     2 y 2 y 2 y. x• Formalmente se define:  2  2  y d xy  2 y Es la proporción de varianza pronosticada que hay en la varianza total del criterio, o dicho de otra forma, es la varianza del criterio que es pronosticable a partir del test
  98. 98. El coeficiente de alienación• El coeficiente de alienación k indica la proporción de error que se comete utilizando la recta de regresión para hacer predicciones.  y. x k  1   xy 2 y• Viene expresado por la proporción de error típico de estimación que hay en la desviación típica de las puntuaciones en el criterio.
  99. 99. El coeficiente de valor predictivo• El coeficiente de valor predictivo, “e” indica la seguridad en los pronósticos cuando se utiliza la regresión para llevarlos a cabo.• e=1–k• Es el complemento con respecto a 1 del coeficiente de alienación
  100. 100. Estimación del criterio a partir de un test• Si la relación existente entre dos variables, X e Y es una relación lineal, esta relación puede ser expresada bajo la forma de un modelo lineal• Y = β0 + β1Xi• Siendo β0 y β1 dos valores constantes, X la variable explicativa, variable control, test, variable endógena, variable independiente o regresor, mientras Y recibe los nombres de variable explicada, respuesta, variable exógena, variable dependiente o criterio
  101. 101. Estimación del criterio a partir de un test• Ecuaciones de regresión Directas ˆ y Y   xy (X  X ) Y x Diferencia les y y   xy ˆ x x Típicas z y   xy z x ˆ
  102. 102. Validez y selecciónModelos de selección - Compensatorio. - Conjuntivo. - Disyuntivo.
  103. 103. Validez y selección Modelo compensatorio Lleva a cabo una combinación aditiva de las distintas puntuaciones de los sujetos, dejando a éstos ordenados según su puntuación globalModelo conjuntivo Se seleccionan aquellos sujetos que superan en todos y cada uno de los predictores un cierto nivel de competencia prefijadoModelo disyuntivo Se seleccionan aquellos que superan cierto nivel de competencia en al menos un predictor, es decir, o se supera uno o se supera otro, al menos uno
  104. 104. Validez y selección A la hora de evaluar la eficacia de una selección no sólo se ha de tener en cuenta la validez de los predictores, sino que han de contemplarse, además, aspectos como la razón de seleccíón, la razón de eficacia y la razón de idoneidad. Se denomina razón de selección a la proporción de personas seleccionadas del total de aspirantesLa razón de eficacia es la proporción de seleccionados queefectivamente tíenen éxíto posterior en el criterio. La razón de idoneidad la proporción de aspirantes cualificados para tener éxito en el criterioTaylor y Russell (1939) elaboraron unas tablas, que para un valorestimado de la razón de idoneidad, y conocida la validez y la razón deselección, permiten estimar cuál sería la razón de eficacia o probabilidadde que un sujeto seleccionado bajo esas circunstancias tenga éxito.
  105. 105. Validez y selección
  106. 106. Puntuacionesnormativas del test
  107. 107. Cocientes Intelectuales Clásicos El Cociente Intelectual da información sobre la inteligencia de los sujetos en función de la adecuación entre su edad mental y su edad cronológica.Es el tipo de escala utilizada en los primeros Tests de Inteligencia, como elBinet-Simon, etc. Su cálculo es muy sencillo, basta con conocer lapuntuación esperada para la realización de ciertas tareas de un gruponormativo de sujetos de una edad determinada. Cualquier sujeto, que paralas mismas pruebas, llegue a alcanzar dicha puntuación, tiene como edadmental la edad del grupo normativo. La edad cronológica es la edad delsujeto. Edad _ Mental CI  100 Edad _ Crono log ica
  108. 108. Cocientes Intelectuales Clásicos Ventajas 1. Son de uso universal. La práctica totalidad de la población puede tener unaidea muy aproximada sobre su interpretación. 2. Son fáciles de calcular, no conllevan procedimientos de cálculocomplicados. Inconvenientes 1. El desarrollo mental, y por lo tanto la edad mental de los individuos, no esel mismo a lo largo de toda la existencia. No se sigue la misma pauta en eldesarrollo, por ejemplo de los O a los 2 años que de los 16 a los 18. Un retrasoen las primeras edades no significa lo mismo que un retraso en edades másavanzadas, por eso la interpretación del CI depende de la edad cronológica. 2. No tienen ningún tipo de aplicación en edades adultas cuando ya eldesarrollo mental se ha llevado a cabo de forma prácticamente total.
  109. 109. Escalas centilesLas escalas centiles o percentiles son escalas de tipo ordinal. Un percentil seinterpreta como el porcentaje de sujetos que quedan por debajo de él en el gruponormativo. Es decir un sujeto con un percentil de 48 deja por debajo de sí al 48 %de los sujetos de su grupo normativoMatemáticamente se define como: siendo: fai: Frecuencia acumulada por debajo de lapuntuación de interés. fi: Frecuencia de sujetos con la mismapuntuación que aquella para la que se busca el percentil. n: Número de sujetos de la muestra.
  110. 110. Escalas centiles La puntuación en un test se dará redondeada al entero más próximo. No es tanto lo que las ciencias sociales pueden afinar en el proceso de la medida como para que se justifique el poder decir que la puntuación centil de un individuo en extraversión sea de 44,748. Resulta al menos extraño cuando no petulante.VentajasAl igual que las anteriores son muy fáciles de calcular y de una interpretaciónmuy sencilla.Inconvenientes1. Son menos estables (y, por lo tanto, menos «fiables») en la parte central de lasdistribuciones que en los extremos de las mísmas.2. No permiten comparaciones interindividuales ni siquiera dentro del mismo testya que las distancias no son similares a lo largo de toda la distribución.3. Para este tipo de escalas no es adecuado el cálculo de ningún tipo deestadístico para establecer comparaciones entre individuos o entre grupos, talescomo la media, etcétera.
  111. 111. Escalas típicasLas escalas típicas son transformaciones lineales de laspuntuaciones primitivas con media cero y desviación típica 1.Su definición matemática es:Ventajas1. Son fáciles de calcular.2. Son transformaciones lineales de las puntuaciones primitivas con lo que no semodifica en absoluto la forma de la distribución de origen.3. Su unidad de medida es constante con lo que permiten cualquier tipo decomparación intragrupo entre las puntuaciones de los sujetos.Inconvenientes1. El hecho de tener el cero como punto medio origina puntuaciones negativas yno deja de «sonar» un poco extraño el decirle a alguien que su puntuación eninteligencia es de - 1.2. Aunque, en principio, sus límites son ± ∞en general, en la práctica, en un rangode 6 puntos están comprendidas todas las puntuaciones de una distribución, estoorigina puntuaciones decimales.
  112. 112. Escalas típicas derivadas El mayor inconveniente de tipo práctico para el uso de las típicas radica en lossignos negativos y números decimales. Para evitarlo, las puntuaciones típicas setransforman a su vez en otras escalas que evitan estos dos inconvenientes,denomi-nadas típicas derivadas (D). Las típicas derivadas se obtienen a partir de las típicas primitivas mediante latransformación: Donde: XD: Media para la nueva escala. SD: Desviación típica elegida para la nueva escala. Zx: Puntuación típica primitiva.
  113. 113. Escalas típicas derivadasLa media y la desviación típica elegidas sonarbitrarias y sólo obedecen a exigencias prácticas.Son muy populares, por ejemplo, las llamadaspuntuaciones T de McCall, que ubican la media en50 y la desviación típica en 10, denominándoseasí, al parecer, en honor a Terman y Thorndike.Muchos tests al uso utilizan este tipo depuntuaciones derivadas; por ejemplo, el MMPI en50 y 10, siguiendo a McCall.
  114. 114. Escalas típicas normalizadas Las puntuaciones típicas normalizadas son las puntuacionestípicas que le corresponderían a las puntuaciones originarias de lossujetos si su distribución fuera normal. Implican una transformación «no lineal» de la distribución empíricade las puntuaciones obtenidas por el grupo normativo en el test, amenos, que estas tuvieran una distribución totalmente normal, locual no suele ocurrir en la práctica, «nunca». El hecho de tener que transformar de una forma no lineal ladistribución de las puntuaciones empíricas hace que se modifique laforma de ésta y puede llegarse a falsear totalmente los resultadosobtenidos en el test por los sujetos llegando a ordenarlos de unaforma totalmente artificial en lo que respecta a las distanciasgeométricas entre ellos. Por esta razón «nunca» debennormalizarse distribuciones sin justificar previamente (mediante unaprueba de bondad de ajuste) que su desviación de la distribuciónnormal no es estadísticamente significativa.
  115. 115. Escalas típicas normalizadasVentajas:Presentan todas las características que ya se mencionaronen el caso de las puntuaciones típicas; pero además:1. Conocida la puntuación típica normalizada basta conmirar la tabla de la distribución normal para conocer elpercentil.2. Permite todo tipo de comparaciones de puntuaciones tantoentre intragrupo como entre distintos grupos de sujetos y condistintos tests.InconvenientesEstos son los mismos que los ya mencionados en el casoanterior. Para evitar tanto las puntuaciones negativas comolos decimales, este tipo de escalas pueden transformarse.
  116. 116. Escalas típicas normalizadas y derivadasEneatiposLos eneatipos o estaninos son puntuaciones típicasnormalizadas y transformadas con media 5 y desviación típica 2.Su expresión matemática es la siguiente: Es decir a un sujeto con una puntuación típica normalizada de 0,58 le corresponde un eneatipo de 6,16. Como los eneatipos deben expresarse siempre en puntuaciones enteras, su eneatipo será de 6 puntos. La escala de eneatipos es una escala de 9 puntos. Sus límites están entre 1 y 9.
  117. 117. Escalas típicas normalizadas y derivadas Cocientes Intelectuales Típicos Los «Cocientes Intelectuales Típicos» son escalas típicasnorma-lizadas y transformadas con media 100 y desviacióntípica 15 ó 16. Su expresión matemática es: C.I.T. = 15Zn + 100 Su límite inferior es 0 y no tiene límite superior. Laspuntuaciones se dan siempre redondeadas al entero máspróximo.
  118. 118. Escalas
  119. 119. THUSRTONE Ley del Juicio ComparativoThurstone fue el primero en mostrar que losmétodos de escalamiento psicofísico se podíanadaptar para la medición de actitudes. Por ejemplo,mostró que era posible ubicar un conjunto de delitosen un continuo psicológico de “gravedad percibida”,pidiéndole a un grupo de jueces que examinarantodas las parejas posibles entre los delitos de unalista (e. g., asesinato y robo; asesinato y violación,etc.). Thurstone también desarrolló procedimientosestadísticos que permitían examinar si los valoresescalares de los estímulos estaban en una escala deintervalos
  120. 120. Ley del Juicio Comparativo• La Ley de Thurstone es un sistema de ecuaciones que permite estimar los valores escalares de un conjunto de estímulos, a partir de los juicios comparativos realizados sobre todas las parejas posibles de estímulos
  121. 121. Ley del Juicio ComparativoCada test o escala formadosiguiendo el modelo de Thurstone n(n  1)va a tener ítems 2Así pues, con los 4 estímulossiguientes se puede formar unaescala de 6 ítems
  122. 122. Ley del Juicio Comparativo
  123. 123. Ley del Juicio ComparativoMétodo Comparaciones Binarias ( n=100.) aula cafet gim biblio teatroaula - 20 30 35 10cafet 80 - 30 40 20gim 70 70 - 45 15biblio 65 60 55 - 25teatro 90 80 85 75 -∑ 305 230 200 195 70Cada entrada de la matriz indica el número de veces que elobjeto de la columna es preferido sobre el objeto de la fila.
  124. 124. Ley del Juicio ComparativoMatriz de frecuencias ordenadas. teatrobiblio gim cafet aulateatro- 75 85 80 90biblio 25 - 55 60 65gim 15 45 - 70 70cafet 20 40 30 - 80aula 10 35 30 20 -∑ 70 195 200 230 305
  125. 125. Ley del Juicio ComparativoMatriz de proporciones. teatro biblio gim cafet aulateatro .50 .75 .85 .80 .90biblio .25 .50 .55 .60 .65gim .15 .45 .50 .70 .70cafet .20 .40 .30 .50 .80aula .10 .35 .30 .20 .50
  126. 126. Ley del Juicio Comparativo Matriz de puntuaciones típicas (Z). 1 2 3 4 5 teatro biblio gim cafet aula teatro .00 .67 1.03 .84 1.28 biblio -.67 .00 .13 .25 .38 gim -1.03 -.13 .00 .52 .52 cafet -.84 -.25 -.52 .00 .84 aula -1.28 -.38 -.52 - .84 .00
  127. 127. Ley del Juicio ComparativoMatriz de puntuaciones típicas (z). 1 2 3 4 5 teatro biblio gim cafet aulateatro .00 .67 1.04 .84 1.28biblio -.67 .00 .13 .25 .39gim -1.04 -.13 .00 .52 .52cafet -.84 -.25 -.52 .00 .84aula -1.28 -.39 -.52 - .84 .0__________________________________________Media -.766 -.018 .026 .154 .604+.766 = 0 .748 .792 .920 1.370
  128. 128. Ley del Juicio ComparativoMétodo Comparaciones Binarias ( n=100.) Una representación gráfica de los valores de cada objeto a lo largo delcontinuo puede realizarse de la siguiente manera: gi teatro m biblio cafet aula 0 .746 .920 1 1.370 .5 .792
  129. 129. Objetivos• Proporcionar mediciones invariantes respecto al instrumento de medida utilizado• Disponer de instrumentos cuyas propiedades no dependan de los objetos medidos
  130. 130. Diferencias TCT-TRI TCT TRIModelo Lineal No linealSupuestos Débiles FuertesInvarianza Med. No SíInv.Prop.Psic. No SíEscala 0-n -∞ a +∞Énfasis Test ÍtemRel. Ítem-Test No especificada CCIsÍtems ID, IDiscrimin. a, b, cError de medida Global FIMuestra N≥200 N≥500
  131. 131. Comprobación de los modelos1. Definición rigurosa de la variable2. Elaboración de los ítems3. Aplicación de los ítems a una muestra4. Depurar los ítems de acuerdo a la TCT5. Comprobar la unidimensionalidad6. Elegir un modelo de TRI7. Estimar los parámetros8. Ajuste del modelo
  132. 132. El rasgo latente• La variable que se desea medir es lo que, habitualmente, se conoce como el rasgo latente; pero que se podría denominar, Inteligencia, Neuroticismo o Personalidad Autoritaria. Este rasgo latente no es observable de forma directa; pero puede estudiarse a través de las respuestas a los ítems de un test.
  133. 133. La C.C.I.• La probabilidad de cada una de las respuestas dadas a cualquier ítem es función del rasgo latente y de las características del ítem. Estas características vienen definidas por los parámetros del ítem. La C. C. I. es la función que expresa la relación entre los valores de la variable que mide el ítem y la probabilidad de que dicho ítem sea acertado.
  134. 134. Item Response Function and Item Information Subtest 1: TEST0001; Item 8: 0008 a = 4.03; b = 0.03; c = 0.00; 1.0 12 0.9 11 10 0.8 9 0.7PROB (Correct) 8 Information... 0.6 7 0.5 6 0.4 5 4 0.3 3 0.2 2 0.1 1 b 0 0 -3 -2 -1 0 1 2 3 Scale Score Metric Type Normal
  135. 135. Item Response Function and Item Information Subtest 1: TEST0001; Item 14: 0014 a = 3.46; b = 0.92; c = 0.00; 1.0 12 0.9 11 10 0.8 9 0.7PROB (Correct) 8 Information... 0.6 7 0.5 6 0.4 5 4 0.3 3 0.2 2 0.1 1 b 0 0 -3 -2 -1 0 1 2 3 Scale Score Metric Type Normal
  136. 136. Item Response Function and Item Information Subtest 1: TEST0001; Item 4: 0004 a = 3.19; b = -0.96; c = 0.00; 1.0 12 0.9 11 10 0.8 9 0.7PROB (Correct) 8 Information... 0.6 7 0.5 6 0.4 5 4 0.3 3 0.2 2 0.1 1 b 0 0 -3 -2 -1 0 1 2 3 Scale Score Metric Type Normal
  137. 137. C. C. I.• Parámetro a => Discriminación – Su valor es proporcional a la pendiente de la recta tangente a la CCI en el punto de máxima pendiente.• Parámetro b => Dificultad – Valor de θ correspondiente al punto de máxima pendiente de la CCI• Parámetro c => Azar – Valor asintótico de la CCI cuando θ →∞
  138. 138. Modelos de la ojiva normal Modelos de 1, 2, 3 y 4 parámetros   biPi ( )    ( 1 2 )e (  z2 /2) dz   biPi ( )    ( 1 2 )e (  z2 /2) dz   biPi ( )  ci  (1  ci )  ( 1 2 )e (  z2 /2) dz    biPi ( )  ci  (i  ci )  ( 1 2 )e (  z2 /2) dz 
  139. 139. Modelos logísticos e=2‟718281828 1Pi ( )   D (  bi ) 1 e 1Pi ( )   Da (  bi ) 1 e 1Pi ( )  ci  (1  ci )  Da (  bi ) 1 e 1Pi ( )  ci  (i  ci )  Da (  bi ) 1 e
  140. 140. Supuestos del modelo• Unidimensionalidad – Hattie(1985)=>87 criterios diferentes para la comprobación de la unidimensionalidad. – El análisis factorial es la técnica más utilizada: • Varianza explicada por el primer factor • Cociente entre la varianza explicada por el primer factor y la explicada por el segundo • Gráfico de sedimentación • Raíz cudrada de la media de los residuales • Índices de ajuste de distribuciones desconocidas (≥0‟95) • Χ2 – Los modelos son bastantes robustos a la violación del supuesto de la unidimensionalidad
  141. 141. Supuestos del modelo• Independencia local  nP(U n |  )  i 1 P(U i |  )
  142. 142. Ajuste al modelo• Técnica basada en χ2 k n j [ P( j )  Pe ( j )]2 Q  j 1 P( j )[1  P( j )] – Nj: Número de sujetos dentro de cada categoría – P(θj): Valor de la CCI dado por la fórmula del modelo con los parámetros estimados, para la categoría j – K: Número de categorías en las que se divide θ – Pe(θj): Proporción de sujetos que, de hecho (empíricamente) superan el ítem para una categoría determinada j – El estadístico sigue una distribución de χ2 con (k-p) grados de libertad, siendo k el número de categorías en las que se dividió θ y p el número de parámetros del modelo utilizado.
  143. 143. Invarianza de los parámetros• Técnicas gráficas y ver el ajuste a una recta del diagrama de dispersión• Cálculo del coeficiente de correlación de Pearson. – El parámetro c no se ve afectado por el cambio de la métrica en las estimaciones.
  144. 144. Ejemplo• Para la creación de un banco de ítems se aplican diez ítems como ítems de anclaje a dos muestras diferentes. La tabla muestra el valor del parámetro b de los 10 ítems de anclaje en los dos grupos. Ítem Grupo 1 Grupo 2 1 -1,45 -2,66 2 0,5 -0,23 3 1,2 0,65 ρxy=1 4 0,25 -0,54 5 0,75 0,09 6 -0,3 -1,23 7 1 0,4 8 -0,5 -1,48 9 -1 -2,1 10 1,25 0,71
  145. 145. Transformaciones admisibles de θ• P(θ) resulta invariante a cualquier transformación de θ, si: •θ„=M(θ)+k •b„=M(b)+k •a„=a/M •c„=c
  146. 146. B. I. L. O. GÍtem Intentos Aciertos I. Dificultad Pearson Biserial1 89,0 78,0 ,876 ,392 ,6322 89,0 75,0 ,843 ,558 ,8453 89,0 69,0 ,775 ,594 ,8284 89,0 67,0 ,753 ,685 ,9355 89,0 61,0 ,685 ,705 ,9226 89,0 59,0 ,663 ,763 ,9877 89,0 49,0 ,551 ,98 ,998 89,0 46,0 ,517 ,865 .979 89,0 46,0 ,517 ,865 ,8710 89,0 42,0 ,472 ,864 ,65611 89,0 38,0 ,427 ,855 ,98712 89,0 34,0 ,382 ,837 ,76513 89,0 30,0 ,337 ,811 ,56714 89,0 26,0 ,292 ,775 ,98915 89,0 22,0 ,247 ,729 ,99616 89,0 18,0 ,202 ,672 ,95717 89,0 14,0 ,157 ,600 ,90918 89,0 10,0 ,112 ,511 ,84519 89,0 6,0 ,067 ,392 ,75220 89,0 2,0 ,022 ,201 ,548
  147. 147. B. I. L. O. GÍtem a b c 1 0.967 -1.976 0.000 0.192* 0.337* 0.000* 2 2.110 -1.466 0.000 1.883* 0.195* 0.000* 3 1.426 -1.157 0.000 0.245* 0.215* 0.000* 4 3.186 -0.962 0.000 2.735* 0.303* 0.000* 5 1.691 -0.693 0.000 0.331* 0.194* 0.000* 6 2.279 -0.569 0.000 2.019* 0.151* 0.000* 7 1.984 -0.134 0.000 0.361* 0.141* 0.000* 8 4.027 0.032 0.000 2.687* 0.498* 0.000* 9 4.027 0.032 0.000 2.687* 0.498* 0.000* 10 2.820 0.207 0.000 3.187* 0.282* 0.000*
  148. 148. Item Response Function and Item Inform ation Subtest 1: T E ST 0001; Item 1: 0001 a = 0 .9 7 ; b = -1 .9 8 ; c = 0 .0 0 ; 1.0 12 11 0.9 10 0.8 9 0.7 8PROB (Correct) Information... 0.6 7 0.5 6 5 0.4 4 0.3 3 0.2 2 0.1 1 b 0 0 -3 -2 -1 0 1 2 3 Scale Score Metric Ty p e No rmal
  149. 149. Item Response Function and Item Inform ation Subtest 1: TEST0001; Item 8: 0008 a = 4.03; b = 0.03; c = 0.00; 1.0 12 11 0.9 10 0.8 9 0.7 8PROB (Correct) Information... 0.6 7 0.5 6 5 0.4 4 0.3 3 0.2 2 0.1 1 b 0 0 -3 -2 -1 0 1 2 3 Scale Score Metric Type Normal
  150. 150. C.C.T. Test Inform ation and Measurem ent Error Subtest 1: TEST0001 40 2 38 36 34 32 30 28 Standard Error ... 26Information 24 22 20 1 18 16 14 12 10 8 6 4 2 0 0 -3 -2 -1 0 1 2 3 Scale Score Metric Type Normal

×