O documento discute critérios para avaliar a qualidade de instrumentos de avaliação, incluindo quem, o que, como, quando e para que avaliar. Apresenta indicadores como relevância, equilíbrio, objetividade e dificuldade que devem ser considerados ao construir instrumentos de avaliação válidos e confiáveis.
7. Medida, escalas, notas
Educational achievement is difficult to measure:
Measurement involve human capacities and acts are subject to special dificulties due
chiefly to:
1. The absence or imperfection in units in which to measure.
2. The lack of constancy in the facts to be measured
3. The extreme complexity of the measurement to be made.
Controversial ‘Scientific
movement’ in Education
Thorndike, E. L. (1904). Introduction to the theory of mental and social measurements.
New York: Teachers College, Columbia University.
11. 1. Relevância
Questão: O tipo de questões integradas permitem
avaliar o que se pretende?
Este item deverá pretencer a um instrumento desta
natureza que assume esta função em particular neste
conjunto particular de circunstâncias?
- Associado ao propósito do teste e à sua validade
- Muitas vezes a finalidade de uma prova reside (vagamente) na mente do
avaliador
- Não se questiona ainda a qualidade do item mas sim o seu fitness-to-
purpose
12. 2. Equilibrio
Questão: A proporção de questões associadas
a cada um dos aspectos que
descrevem/caracterizam/compõem o que se
pretende analisar então adequadamente
expressos/representados no instrumento?
- Os diferentes elementos do que se pretende avaliar tem que ser
explicíta, distinta e não-ambiguamente considerados e representados
no instrumento
- Dificuldade em identificar claramente as categorias / areas de conteudos
envolvidas (taxonomia)
13. 3. Eficiência
Questão: O instrumento faz um uso eficiente do
tempo disponível para a sua aplicação?
E para a sua classificação?
- Um instrumento construido para 2h30 composto por 50 itens
eficientemente construidos pode ser de tão má qualidade quanto um
teste de 20 minutos com items totalmente disprovidos de eficiência
14. 4.Objectividade
Questão: As questões apresentadas são claras
o suficiente para as respostas possiveis serem
entendíveis de forma comum por diferentes
pessoas?
- Requer a procura de precisão no significado, a eliminação de distorções
das interpretações
- Perguntas difusas e/ou opções de respostas obscuras e excessivamente
proximas
- Estimula a produção/centração excessiva em questões factuais
15. 5. Especificidade
Questão: O tipo de questões integradas remetem
especificamente para as competencias
(conteudos) que se pretentem considerar?
- Entendida como um complemento à objectividade
- Liga-se à desejabilidade em limitar os items de uma prova às
competências (ou conteúdos) particulares que se pretende que a prova
contemple.
- Desta forma os itens da prova deveriam ser respondidos de forma pobre
por sujeitos que não se haviam previamente debruçado pelo conteudo
especifico (ou a sua resposta adequado seria fonte do acaso)
16. 6. Dificuldade
Questão: O tipo de questões integradasfazem
com que, na globalidade, a prova revele um nível
adequado de dificuldade?
- Implica uma referência à norma, à média
- Util na procura de estabelecimento de equivalência entre provas
- Muitas vezes a finalidade de uma prova reside (vagamente) na mente do
avaliador
- Não se questiona a qualidade do item mas sim a sua taxa esperada de
respostas correctas e incorrectas
- Pode ser factor a associar à estimação do valor/peso relativo de cada
questão
17. 7. Discriminação
Questão: O tipo de questões integradas
permitem discriminar sujeitos com diferentes
desempenhos?
Distingue niveis de dominio do
conhecimento/competências?
- O poder discriminativo de um item é estimado pela diferença entre a proporças
de respostas correctas apresentadas por sujeitos com bons desempenhos e
maus desempenhos
- Assenta no conceito de sensibilidade à variabilidade (inerente aos sujeitos)
18. 8. Fiabilidade
Questão: O tipo de questões integradas
permitem avaliar o mesmo que outros testes
similares, i e, que se centram sobre o mesmo
foco?
- Estabelece comparação entre desempenho entre a prova e outras
provas equivalentes ou aplicações repetidas da mesma prova (que
pretendem medir o mesmo)
- Integra o conceito de probabilidade de erro
19. 9. Justiça (Fairness)
Questão: A questões integradas estão
construidas de modo a que diferentes sujeitos
consigam reunir as mesmas condições de modo a
ter um ‘bom desempenho’?
- Baseia-se num conceito relativo (A avaliação nunca é justa!!!)
- Liga-se ao assegurar igualdade de circunstâncias
- nao requer background especifico
- Implica a não existência de ‘conflitos’ e de disturbios no interior da prova
(e no seu acto de administração/cotação)
20. 10. Rapidez (Speededness)
Questão: O comprimento da prova é adequado
ao tempo disponibilizado para completar da
mesma?
O tempo disponibilizado permite atingir um bom
desempenho na mesma ?
- Não existe um valor absoluto ainda que se recomende o seu cálculo com
base no tempo tomado por 90% dos sujeitos ao completar a ultima
questão (Ebel, 1972)
- Determinante para a selecção da sequencialidade das questões (e
sobretudo do que constará como ultimas questões)
- Encontram-se efeitos associados a este critério na avaliação online
22. • de relevo
• equilibrada
• eficiente
• objectiva
• específica
• moderadamente
complexa
• discriminativa
• fiel
• justa
• e não apenas disponível
por um período de tempo
limitado
24. Índice de Dificuldade
> 0.40 = bom
0.39 - 0.20 = moderado
< 0.19 = muito reduzido
(Ebel, 1972)
Definição:
proporção de respostas incorrectas encontradas
conjuntamente no grupo de sujeitos com
melhores e piores desempenhos
[ Porquê grupos extremos? Maior variabilidade!
]
25. Ex: grupo de 100 sujeitos
Grupo 1 (melhor desempenho) = 27
Número de respostas correctas: 20
Grupo 2 (pior desempenho) = 27
Número de respostas correctas: 10
Total de respostas correctas encontradas= 20 + 10=30
Total de respostas correctas possíveis = 54
Proporção de respostas correctas 54-30= 24 /54 = 0, 44
27. Índice de Discriminação
> 0.40 = muito bom
0.30 - 0.39 = bom
0.20 – 0.29 = aceitável
< 0.19 =pobre
(Ebel, 1972, p. 399)
Definição:
Decorrente da dificuldade do item refere-se a
diferença na proporção de respostas correctas
verificadas nos grupos de sujeitos com melhores e
piores desempenhos
28. Ex: grupo de 100 sujeitos
Grupo 1 (melhor desempenho) = 27
Número de respostas correctas: 20
Grupo 2 (pior desempenho) = 27
Número de respostas correctas: 10
Total de respostas correctas no grupo 1 - grupo 2 = 20-10= 10
Proporção do total de respostas correctas = 10/27 = 0, 37
29. Existe relação entre a soma dos índices de discriminação de cada
item de um teste e a variância do score total do teste
Na medida em que quanto maior a variância de um determinado
número de itens, maior os coeficientes de fiabilidade então,
quanto maior a média dos índices de discriminação, maior
tenderá a ser também a fiabilidade.
30. Outros índices de discriminação
• Coeficiente de correlação Biserial
• Coeficiente de correlação tetracórica
• Coeficiente de Flanagan
• Coeficiente de Davis
31. Indicadores de Fiabilidade
Referente à consistência entre diferentes medições
Ex: Se um instrumento dá sempre os mesmos resultados quando aplicado a 2
objectos (hipoteticamente) iguais, podemos confiar no significado da medida e
dizer que a medida é fiável…
* … sabendo que toda a medida tem sempre erro associado]
32. Indicadores de Fiabilidade
Fiabilidade inaceitável <0.6
Fiabilidade baixa 0.7
Fiabilidade moderada 0.8-0.9
Fiabilidade Elevada >0.9
Estima (com base nos valores registados nos itens) quão uniformemente esses
itens contribuem para a soma não ponderada do instrumento
Escala 0 a 1, onde 0 = revelaria nenhuma uniformidade ou consistência e
1 = uma uniformidade perfeita entre os itens
=
Consistência interna da escala
=
coeficiente médio de todos as estimativas de consistência interna que
se obteriam se todas as divisões possíveis do teste fossem feitas
33. Indicadores de Fiabilidade
• Teste-reteste, formas equivalentes
coeficiente de correlação de Pearson
• Split-half
Consistência corrigida de Spearman-Brown, Guttman
• Coeficiente Alpha cronbach (standardizado)
• Coeficiente de Kuder-Richardson (itens dicotómicos, ex. certo|errado)
• Acordo inter/intra-observador
34. Indicadores de Validade
O instrumento com erro sistemático é um instrumento com validade reduzida, é um
instrumento que está a medir algo que não era suposto medir (mesmo que o faça de
forma fiável).
Qualquer medida para ser válida enquanto medida de um dado construto, tem
necessariamente de ser fiável. Pelo que, a fiabilidade surge como condição necessária,
mas não suficiente, para a validade.
Após garantir fiabilidade é necessário pôr de lado a hipótese de existência de erro
sistemático, para podermos garantir validade.
(Marôco & Garcia-Marques, 2006)
35. Indicadores de Validade
Conteúdo = se os conteúdos da prova (itens) representam o construto em análise,
se existe validade lógica Avaliação por especialistas
Critério = validade por correspondência a um critério externo onde já se provou estar
representado o construto em análise; fala-se assim em validade concorrente (actual) e
validade preditiva (face a um desempenho futuro)
Calculo do Coeficiente de correlação com outras provas semelhantes
Construto = grau de consonância dos resultados Análise factorial
36. Indicadores para
avaliação de categorias
ou dimensões da prova
Teste de Inglês:
D1) Gramática
D2) Vocabulário
D3) regras funcionamento da língua
D4) Compreensão do texto
39. Apoia:
. Identificação de pontos fortes e fracos nos
instrumentos de avaliação
. sequenciar / localizar os itens no instrumento
. identificar fragilidades nos enunciados e opções de
resposta
. promover a modificação/eliminação de questões
. Equiparar/dividir provas
. identificar distractores (elementos de elevada
atractividade) nas opções de resposta
. distribuir/concentrar o grau de dificuldade
… sobretudo a regular e promover melhorias no processo de avaliação
… pela melhoria dos seus instrumentos
40. Como tem a educação
lidado com a dificuldade
da medida ????
UC: Avaliação Online das
aprendizagens
Neuza Pedro
41. Soluções !?!
a) ignora-se
b) lida-se com isso
c) mascara-se o problema
43. Referências
Dierick, S., & Dochy, F. (2001). New lines in Edumetrics: New forms of assessment lead to new
assessment criteria. Studies in educational evaluation, 27,4, 307-329.
Ebel, R. L. (1972). Essentials of educational measurement (2nd edition). New Jersey: Prentice Hall, Inc.
E-learning Lab UL (2011). Framework de avaliação de cursos online. Disponível em
http://elearninglab.ul.pt/pagina/framework-de-avaliacao-de-cursos-em-e-learning
* Kelley, T. L. (1939). The selection of upper and lower groups for the validation of tests items. Journal
of Educational Psychology, 30, 17,24.
Lagarto, J. (2009). Avaliação em e-learning. Educação, Formação & Tecnologias, 2 (1), pp. 19-29.
Disponível em http://eft.educom.pt
Marôco, J., & Garcia-Marques, T. (2006). Qual a fiabilidade do alfa de Cronbach? Questões antigas e
soluções modernas? Laboratório de Psicologia, 4(1), 65-90.
[Disponível em http://repositorio.ispa.pt/bitstream/10400.12/133/1/LP%204(1)%20-%2065-90.pdf]
Ussher, B., & Earl, K., (2010). ‘Summative’ and ‘Formative’: Confused by the Assessment Terms? New
Zealand Journal of Teachers’ Work, 7 (1), 53-63.