Hacia Cultura Evaluacion
Upcoming SlideShare
Loading in...5
×
 

Hacia Cultura Evaluacion

on

  • 6,375 views

 

Statistics

Views

Total Views
6,375
Views on SlideShare
5,373
Embed Views
1,002

Actions

Likes
1
Downloads
192
Comments
1

3 Embeds 1,002

http://plataformaeducativa.santafe.gov.ar 1000
http://www33.jimdo.com 1
http://shakinguen.jimdo.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • agradezco el apoyo con esta exelente pagina
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Hacia Cultura Evaluacion Hacia Cultura Evaluacion Document Transcript

  • 2009 “2009 / Año de Homenaje a Raúl SCALABRINI ORTIZ” hacia una cultura de la evaluación ONE 2009 / Censo
  • AUTORIDADES Presidenta de la Nación Dra. Cristina FernánDez De KirChner Ministro de Educación ProF. Juan Carlos teDesCo Secretario de Educación ProF. alberto sileoni Subsecretario de Planeamiento Educativo liC. osvalDo Devries Director Nacional de Información y Evaluación de la Calidad Educativa lic. eDuarDo araGunDi
  • Elaboración: Área Evaluación de la Calidad Educativa Coordinadora: Sonia Hirschberg Equipo responsable: Mirta Leon Patricia Scorzo Jorge Novello Diseño Gráfico: Karina Actis Juan Pablo Rodríguez Coralia Vignau
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo  Índice Presentación .............................................................................................................................................. Pág. 5 Primera Parte. hacia una cultura de la evaluación educativa Evaluación: nuevos significados para una práctica compleja, por Alicia Bertoni, Margarita Poggi y Marta Teobaldo............................................................................. Pág. 7 Evaluación educativa: una aproximación conceptual, por Nydia Elola y Lilia Toranzos ............................................................................................................... Pág. 15 La evaluación educativa, un criterio consolidado, por IIPE –Buenos Aires- ........................................... Pág. 17 Evaluación Nacional y Evaluaciones Internacionales, por el equipo de la DiNIECE ............................... Pág. 21 ¿Qué pretendemos evaluar, qué evaluamos y qué conclusiones podemos extraer de la evaluación?, por Alejandro Tiana Ferrer ........................................................................... Pág. 27 Las evaluaciones educativas que América Latina necesita, por P. Ravela, P. Arregui, G. Valverde, R. Wolfe,G. Ferrer, F.M.Rizo,M. Aylwin y L.Wolff .............................................................. Pág. 5 Una mirada técnico-pedagógica acerca de las evaluaciones de calidad educativa, por Felipe Martínez Rizo .......................................................................................................................... Pág. 49 segunda Parte. el operativo nacional de evaluación 2009 Marco de Referencia, por Alicia Cayssials ................................................................................................ Pág. 5 Evaluación, enfoques metodológicos,por Mariela Leones y Jorge Fasce ............................................... Pág. 57 aDenDa 1 / Capacidades cognitivas ONE 2009 ...................................................................................................... Pág. 69 2 / Evaluación Nacional y Evaluaciones Internacionales ......................................................................... Pág. 7 Glosario ..................................................................................................................................................... Pág. 77
  • 4 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación Dirección Nacional de Información y Evaluación de la Calidad Educativa Ministerio de Educación Paraguay 1657 2do piso Of. 201 Ciudad. de Buenos Aires - C1062ACA Tel. (+5411) 4129-1448/9 Fax. 4129-1447 E-mail: diniece@me.gov.ar Página Web: http://me.gov.ar/diniece
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 5 Presentación En los últimos años, el proceso de elaboración de los Esta publicación intenta cumplir con los objetivos arri- instrumentos de evaluación y de análisis de resultados, ba mencionados, por un lado su amplia difusión a fun- tanto a nivel nacional como internacional, se ha ido cionarios, supervisores y directores de escuelas medias, complejizando. Con el reemplazo de los modelos tra- pretende contribuir a enriquecer los marcos teóricos y dicionales de pruebas por el de modelos fundados en metodológicos, por otro presenta los debates más signi- la llamada teoría de respuesta al ítem, se ha iniciado un ficativos que se están dando en el ámbito internacional. proceso de innovación que implica la necesidad de de- sarrollar nuevas capacidades y tecnologías para la elabo- El primer trabajo de Bertoni, Poggi y Teobaldo nos se- ración de instrumentos y la producción e interpretación ñalan la importancia de la participación de los actores de resultados. en todo proceso de evaluación. Tiana nos presenta las preguntas que tenemos que considerar al iniciar un pro- Por otro lado también se advierte el desarrollo de una ceso de evaluación y el equipo de PREAL define las ca- tendencia a nivel internacional que señala el involucra- racterísticas que deben tener las evaluaciones en Amé- miento de mayor cantidad de actores, tanto en el diseño rica Latina. Martínez Rizo realiza un análisis sobre los de los procesos evaluativos como en el uso de la infor- aspectos técnico- pedagógicos de las evaluaciones. Por mación que los mismos proporcionan. Esto implica que último Fasce y Leones exponen los enfoques metodoló- la evaluación está dejando de ser un dispositivo que uti- gicos relacionados con el censo en el último año de la lizan sólo los gobiernos y los investigadores para pasar a escuela secundaria que se realizará en nuestro país en el ser una herramienta para los propios actores del sistema mes de septiembre de este año. educativo. En una adenda incorporamos algunos documentos ela- Es en este sentido que la DINIECE se compromete a borados por los equipos técnicos de evaluación, que desarrollar todo tipo de acciones para propiciar la par- consideramos de gran utilidad para el trabajo de este ticipación y el compromiso de supervisores, directivos, año: el listado de las capacidades cognitivas a conside- maestros y familias en el camino hacia la construcción rar en el censo 2009, un análisis de las evaluaciones de una cultura de la evaluación en nuestro país. Se pro- nacionales e internacionales realizadas en nuestro país pone, asimismo, fortalecer la dimensión política de la y un glosario con los términos técnicos que utilizamos evaluación lo que implica lograr que los resultados im- cotidianamente en nuestra tarea. pacten en las prácticas educativas a través de nuevas estrategias de llegada a las escuelas y las familias y la Esperamos que este material sea de utilidad para com- construcción de mejores escenarios para la devolución y partir en cada uno de los lugares de trabajo y para ac- difusión de los resultados. tualizar y enriquecer la tarea de cada uno de nosotros.
  • 6 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 7 Primera Parte. Hacia una cultura de la Evaluación Educativa Evaluación: nuevos significados para una práctica compleja Los significados de la evaluación A pesar de que las instancias mencionadas constitu- yen una secuencia, su ejecución no es, necesariamente, educativa: alternativas teóricas lineal. El análisis de los datos, por ejemplo, puede re- querir el relevamiento de alguna información adicional o La evaluación educativa nos confronta con el abor- complementaria; la comunicación de los resultados a los daje de un espacio de conflicto, que permite analizar ar- actores implicados puede llevar a cierta reconsideración ticulaciones o fracturas entre supuestos teóricos y prácti- de las conclusiones, etcétera. cas pedagógicas. En efecto, todo proceso de evaluación Por lo demás, según cuál sea el paradigma que da sen- pone en evidencia múltiples aspectos, relacionados con tido a la evaluación educativa, algunos puntos se prioriza- las características y procesos de la institución educativa, rán sobre los otros o adquirirán diferentes significados. los proyectos institucionales, los estilos de gestión, las propuestas curriculares y editoriales, las particularidades de los docentes y de los alumnos, etc. Podemos afirmar, sin lugar a dudas, que nos enfrentamos a un punto neu- rálgico de la relación educativa. La articulación del campo educativo Más allá de las diferentes perspectivas que han abor- con otros campos: implicancias para dado la cuestión de la evaluación, nos parece impor- tante señalar que ésta constituye siempre una actividad la evaluación de comunicación en la medida en que implica producir Una definición amplia de evaluación pone el acento un conocimiento y transmitirlo, es decir, ponerlo en cir- en que esta actividad consiste en la atribución de un culación entre diversos actores involucrados. En tanto juicio de valor a una realidad observada. acción comunicativa, la evaluación padece las mismas Ahora bien, cuando la realidad que se evalúa se vin- vicisitudes que toda comunicación entre los sujetos so- cula con los aprendizajes de los alumnos en el contexto ciales implicados en ella. de la vida escolar, el juicio de evaluación que se emite Aun cuando pueda plantearse en diferentes niveles, compromete a otros niveles con los que se articula el como el del sistema educativo, la institución o el aula, ámbito escolar. Esto es así porque, como veremos, los la evaluación implica siempre una serie de aspectos co- ámbitos del aula y de la escuela se inscriben en el campo munes que siguen una secuencia lógica y cronológica educativo, el cual, a la vez, se articula con otros campos aunque, en la práctica, algunos de ellos sean omitidos. sociales y se encuentra, en distintas situaciones históri- Nos referimos a: cas, sobredeterminado por alguno de ellos. Empleamos la noción de “campo” en el sentido en - el relevamiento de información a través de diversos que la define Pierre Bourdieu, es decir, como “espacios procedimientos como la observación, los docu- de juego históricamente constituidos con sus institucio- mentos, las producciones, etcétera; nes específicas y sus leyes de funcionamiento propias”. - el análisis de los datos según marcos de referencia En este sentido, se habla de campo educativo, de campo que orientan la “lectura” de éstos; económico, de campo político, etcétera. Volviendo entonces al campo educativo, podemos de- - la producción de conclusiones, en algunos casos cir que se articula con otros campos, como el científico, el expresadas en juicios de valor, que traduce el aná- artístico o el tecnológico, y que se encuentra, en nuestro lisis en proposiciones sobre el “objeto” evaluado, contexto histórico-social, sobredeterminado, en buena o, en otros casos, la producción de datos cuantita- medida, por el campo político y por el campo económico. tivos, “cifrados”, que muestran algún otro aspecto Si dentro del campo educativo nos situamos ahora de dicho objeto; en el ámbito del aula, podremos observar que lo que su- - la comunicación a los actores involucrados en el cede dentro de ésta tiene repercusiones extraescolares, proceso evaluativo o la divulgación a otros de las que se explican por las articulaciones y sobredetermina- conclusiones elaboradas; ciones antes mencionadas. Este fenómeno es evidente en el caso de la evaluación, - aunque no necesariamente se deriva de los puntos no sólo por la articulación entre el campo educativo y otros mencionados, la toma de decisiones para intervenir campos, sino también por la función social que aquella activa e intencionalmente en los procesos y resul- cumple. Efectivamente, en la medida en que la evaluación tados sobre los cuales se emitió el juicio evaluativo. sanciona la adquisición o no de los aprendizajes que se
  • 8 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación consideran necesarios para el desempeño social, sus re- En un nivel menos visible, la evaluación pone en sultados repercuten no sólo sobre el sujeto evaluado y su evidencia la vinculación entre los dos actores presentes entorno inmediato en las circunstancias presentes, sino en la relación pedagógica (docentes y alumnos) y un que tienen un efecto “expansivo”, no necesariamente actor virtual: los futuros empleadores. Esta relación se visible, sobre su inserción futura en otros campos. percibe con mayor dificultad cuanto más alejado está Podemos ver cómo tiene lugar este proceso situando el alumno del mercado laboral. Sin embargo, en la rela- el análisis en el nivel del aula. ción pedagógica siempre está en juego el valor social de La observación de lo que sucede con la evaluación los alumnos en tanto futuros trabajadores y ello remite, de los aprendizajes en el aula permite a un observador necesariamente, a la relación entre lo que se enseña y atento construir un entramado de relaciones entre acto- aprende en la escuela, por un lado, y las exigencias que res y entre campos, que se constituyen con la puesta en se derivan del mundo de la producción, por otro. En este marcha del dispositivo de evaluar y, sobre todo, con los sentido, “juegan el juego” los docentes, los alumnos y resultados derivados del mismo. En este sentido, el ám- un actor social implícito, constituido por los agentes del bito del aula involucra no sólo a los protagonistas que mercado del empleo. en buena medida lo conforman, a saber, los docentes y Más allá de las condiciones económico-sociales que los alumnos, sino también a otros actores sociales, cuya inciden en la distribución desigual del capital cultural, visibilidad depende del grado de proximidad que guar- los procesos que “fabrican” el fracaso escolar en el in- den con los miembros de la relación educativa: padres, terior de las escuelas (Ph. Perrenoud, 1990) demoran o familiares, amigos, futuros empleadores, etcétera. interrumpen, por repetición o deserción, el juego de los La evaluación, en su nivel más visible, opera como un alumnos en tanto actores de ese proceso de formación “eje” que articula el “juego” entre tres tipos de actores: y, por ello, ponen en peligro su valor social en el futuro docentes, alumnos y padres, o quienes desempeñen el mercado de trabajo. Esto sucede, básicamente, por dos rol sustituto de éstos. Pone en contacto a “los protago- razones: en primer lugar, porque el capital cultural en nistas” de los actos educativos con los padres, que son estado incorporado es insuficiente, es decir porque los actores “puente” entre lo escolar y lo extraescolar. En habitus como disposiciones duraderas relacionadas con realidad, la evaluación es la instancia por excelencia, en conocimientos específicos, valores, habilidades, etc., términos de los “asuntos” que suelen poner en relación han carecido del tiempo necesario para su adquisición y, a los tres tipos de actores, porque sus resultados tienen en segundo término, porque el capital cultural en esta- repercusión sobre la trayectoria educativa de los alum- do institucionalizado, bajo la forma de certificaciones o nos, sobre sus posibilidades futuras más allá del campo títulos, no ha llegado a obtenerse2. educativo, sobre las expectativas de los padres y sobre la En cuanto a las relaciones entre los actores de este responsabilidad del maestro1. juego, son particularmente notorias en nuestros días: los Por esta razón, docentes, alumnos y padres entran empresarios juzgan el valor y la calidad de los conteni- en relación a propósito de las calificaciones. En la escue- dos educativos y de la formación de los docentes; éstos, la “juegan” el “juego” de las notas porque en las insti- a la vez, discuten los parámetros en los que aquéllos tuciones educativas se producen, negocian y distribuyen fundamentan sus juicios y los alumnos, a su turno, se calificaciones, que circulan luego en otros campos, bajo incorporan a este diálogo cuando están en condiciones la forma de certificaciones, con valor en el mercado. de comprender la importancia que tiene para su futuro Estos procesos de producción, negociación y distri- la calidad de la enseñanza a la que tienen acceso, y es- bución de las calificaciones asumen características par- peran o requieren transformaciones sustantivas de ella. ticulares en el interior de las escuelas y de las aulas. Las Por último, en el entramado de relaciones al que “reglas de juego”, formales o informales, explícitas o venimos haciendo referencia, la evaluación pone en implícitas, que se configuran entre docentes, alumnos evidencia que, en el orden social, los docentes son tra- y padres a propósito de la evaluación, se relacionan con bajadores que deben responder a las orientaciones que las características institucionales y con la manera en que formulan los responsables de la toma de decisiones en aquellos actores desempeñan sus roles, es decir, con la nombre de las necesidades públicas. Lo que está en jue- manera en que “juegan el juego” en tanto sujetos vincu- go en este orden es, teóricamente, la satisfacción de lados por la evaluación. En esto inciden las concepciones necesidades sociales específicas; lo cual implica, en el o “ideas” que tienen acerca de ella, la importancia que campo educativo, retraducciones de estas últimas en le asignan, las estrategias de sobrevivencia desarrolladas diversos niveles de especificidad y en múltiples dimen- para jugar el juego en las condiciones dadas, etcétera. siones. Ello significaría, por ejemplo, que los fines y ob- Así, por ejemplo, los docentes califican a sus alumnos jetivos del sistema educativo sean congruentes con las en función de sus concepciones sobre la evaluación, sus necesidades y demandas sociales relevadas; que exista expectativas sobre los alumnos, su mayor o menor con- taminación con las rutinas escolares. Los alumnos, por su parte, responden a las evaluaciones según el grado de interés que tengan por lo aprendido, según las estra- 1 Bourdieu P.: Cosas Dichas, Barcelona, Gedisa, 1988 tegias que hayan desarrollado para “pasar” una prueba o un examen, etc. Por otro lado, los padres se interesan 2 Bourdieu P., ““Les trois états du capital culturel””, por las calificaciones de sus hijos y ejercen, según los Actes de la Recherche en Sciences sociales, París Nº 30, casos, presiones sobre éstos o sobre los maestros. noviembre de 1979.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 9 coherencia entre las finalidades y objetivos formulados n Las intenciones de la evaluación y la estructura del sistema educativo y sus formas de gestión; que la propuesta curricular sea compatible con Si nos preguntamos por qué se evalúa, la cuestión los aspectos mencionados y significativa en términos de remite inmediatamente a la intención de quien constru- la demanda y requerimiento sociales, etcétera. ye el objeto de evaluación (conocer las respuestas de La identificación de los actores del ámbito escolar los alumnos a un conjunto de situaciones problemáticas, y el análisis de la imbricación de sus prácticas con las por ejemplo). de otros actores que operan en otros campos muestran Si, en cambio, el interrogante está referido a para qué por qué la evaluación remite necesariamente a otros se evalúa, la preocupación refiere a los efectos de la eva- espacios extraescolares como el campo económico y el luación sobre la acción (qué se hará con los resultados). campo social. En este sentido, puede decirse que la eva- En el primer caso, los propósitos o intenciones del evalua- luación está sobredeterminada y es multidimensional. dor dependen de cuál sea su concepción sobre la evaluación. Estas características se pueden advertir cuando se Las intenciones más reconocidas son las de medir, analizan algunos de los procesos que se inician en el ám- apreciar y comprender, que se corresponden con sus res- bito pedagógico. Se observa, por ejemplo, que, cuando pectivas “filosofías” subyacentes. los docentes evalúan las realizaciones de sus alumnos La intención de medir el objeto está presente cuando atribuyéndoles calificaciones, van creando, en el proceso éste se considera desde la perspectiva del desempeño o de asignación de puntajes, realidades inexistentes hasta actuación (performance) del sujeto. Pero resulta impo- ese momento: “buenos alumnos”, “malos alumnos”, sible “medir” con “objetividad” las realizaciones de los etc. De esta manera, no sólo se atribuye un valor a lo alumnos en una prueba, cuando se pretende dar cuenta que los alumnos producen, sino a los alumnos mismos, de sus conocimientos y competencias, porque los com- con lo que se cae en el conocido riesgo de anticipar el portamientos educativos no pueden ser aprehendidos destino escolar del sujeto y con ello su futuro valor social de manera indiscutible con un instrumento de medición. (en el espacio económico, particularmente). No hay relación, en este caso, entre las propiedades del Por otra parte, aun cuando los docentes no vinculen instrumento que se quiere emplear y las propiedades del directamente estas realidades a su propia actividad, ésta objeto que se pretende medir. resulta de alguna manera evaluada; particularmente los Jacques Ardoino y Guy Berger4 establecen una dis- malos o insuficientes resultados que alcanzan sus alum- tinción entre la evaluación estimativa, que constituye nos suelen llevarlos a cuestionar la pertinencia social de un enfoque que prioriza lo cuantitativo, y la evaluación su tarea en el campo social y su rentabilidad en el campo apreciativa, que privilegia lo cualitativo. económico. En el primer caso, la intención es efectuar una lec- De esta forma, cada acto de evaluación, por las so- tura de lo real lo más próxima posible a la medición. bredeterminaciones que operan sobre él, “se encuentra, Como no se posee una unidad de medida indiscutible, como las muñecas rusas, en el corazón de una serie de se trata, en primer término, de circunscribir, de deli- otros actos que lo envuelven”. mitar ciertas características de la realidad a estudiar y Se podría proceder a un análisis parecido con los de estimarlas luego de la manera más objetiva posible alumnos y con los padres si se quisiera analizar las impli- valiéndose de consideraciones de tipo cuantitativo. Es caciones económicas y sociales que tienen las evaluacio- conocida, en este sentido, la experimentación con un nes para estos actores. nuevo programa de estudios o con nuevos métodos de enseñanza para estimar en qué medida mejoran, a partir de su aplicación, los resultados educativos alcanzados Los usos sociales de la evaluación hasta el momento. También se evalúa para apreciar, para determinar La multidimensionalidad de los actos evaluativos, el valor de un objeto o realidad dada, con referencia a producto de sus articulaciones y sobredeterminaciones, ciertos criterios preexistentes. La “evaluación apreciati- conduce a poner en duda la unidad y coherencia de lo va” puede dar lugar, sin embargo, al desarrollo de dos que se designa con el término “evaluación”. Algo simi- orientaciones que se corresponden con dos “filosofías” lar ocurre cuando se analizan los diversos usos sociales diferentes. Por una parte, a la evaluación apreciativa con que se hacen de ésta. un modelo predeterminado, que presupone un referen- Cuando se considera el problema de la utilización de te previo, anterior a toda recolección de información. El los resultados, puede observarse que el empleo de ellos referente orienta la lectura de la realidad, y la evaluación está vinculado básicamente a: consiste en la búsqueda de los indicadores que permitan dar cuenta del estado del objeto con relación al referen- - las intenciones de la evaluación; - las acciones derivadas de los resultados. 3 Hadji C., L évaluation des actions éducatives, París, PUF, 1992, p. 22. 4 Ardoino J. y Berger G., D’’une évaluation en miettes à une évaluation en actes, París, ANDSHA-Matrice, 1989.
  • 10 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación te. En la evaluación de los alumnos, éste puede consistir, del conocimiento de los datos, lo que puede conducir, por ejemplo, en los perfiles de logro como perfil tipo por ejemplo, a suministrar informaciones parciales. previamente establecido. La evaluación procuraría apre- La evaluación está siempre relacionada, entonces, con ciar en qué medida las realizaciones de los alumnos se un contexto decisional dado. También el uso interno de los vinculan a los indicadores seleccionados como indicado- resultados puede ser diverso según las finalidades perse- res de logro. Cuando la evaluación parte de criterios pre- guidas por quien evalúa y el tipo de evaluación empleada. determinados, responde, en general, a las características descriptas y sigue procedimientos análogos. Cuando se trata de una evaluación diagnóstica, Por otro lado, la evaluación apreciativa sin modelo el docente procura información acerca de los saberes predeterminado expresa una concepción de la evalua- y competencias que poseen sus alumnos en términos ción que se fundamenta en la interpretación. Es aquella de requerimientos necesarios para una secuencia futura que se interroga por el sentido. Evaluar el funcionamien- de aprendizajes. En este caso, los resultados obtenidos to de una clase o de una escuela implica, dentro de esta constituyen una información de base para adoptar las metodología, construir -en el proceso mismo de investi- decisiones que se estimen más adecuadas: reforzar los gación- el referente apropiado, es decir, aquel que per- contenidos o proseguir con la secuencia iniciada. mita aprehender la singularidad del aula o de la escuela Cuando se emplea la evaluación sumativa para que se evalúan. Se apunta a comprender el objeto, no comprobar en qué medida los alumnos han adquirido a juzgarlo. Se evalúa, entonces, para volver inteligible la los conocimientos esperados y las competencias corres- realidad, para aprehender su significación. pondientes, la información orienta la decisión de pro- En este contexto, evaluar las realizaciones de los moverlos de grado, por ejemplo, o de otorgarles una alumnos significa comprender sus maneras de resolver certificación que acredite el término del nivel. las situaciones planteadas, considerar sus errores como En la evaluación formativa, la decisión está directa- indicadores de problemas a descifrar, etc. En el mismo mente vinculada a la selección y puesta en práctica de sentido, más que evaluar el cumplimiento de los objeti- secuencias de contenidos y de estrategias pedagógicas vos, interesa comprender las razones por las cuales éstos que se consideran como las más adecuadas para mejorar son o no alcanzados y entender qué representa esta si- los resultados obtenidos. En este sentido, la información tuación en términos didácticos. que provee la evaluación sirve para fundar decisiones pedagógicas. En resumen: podemos decir que tanto el “por qué” n Las acciones derivadas de los resultados se evalúa (intenciones) como el “para qué” se evalúa (uso de los resultados) determinan el tipo de evaluación Los resultados de la evaluación tienen relación direc- empleada. Por otra parte, según la forma que adopte la ta con el objetivo de ella, con la pregunta de para qué evaluación, los resultados permitirán tomar decisiones se evalúa. de orden estrictamente pedagógico (como en el caso En este sentido, es importante tener en cuenta que la de la evaluación diagnóstica o formativa) o decisiones relación entre quién o quiénes evalúan y el objeto de eva- vinculadas a la certificación, la acreditación o a políticas luación (los saberes de los alumnos, por ejemplo) no es educativas orientadas hacia el sistema (como en el caso independiente del contexto en el cual aquélla se realiza. de la evaluación sumativa). En efecto: cualquiera sea la forma que adopte, la Desde la perspectiva de los docentes, estas últimas evaluación se inscribe siempre en un ámbito de decisio- formas de evaluación tienen, obviamente, menos interés nes. Aun en sus formas más frecuentes y simples, como que aquellas que aportan información directa para su en el caso de la evaluación implícita, que tiene lugar tarea. En el mismo sentido, interesa menos la “objetivi- en la interacción cotidiana entre maestros y alumnos, dad” de los instrumentos de evaluación que su utilidad, aquélla sirve al docente para tomar decisiones sobre sus en términos de la información que permiten obtener so- prácticas en el aula. Tenga o no conciencia de que la bre las producciones de los alumnos. realiza, el maestro releva una información a partir de la cual organiza la interacción con sus alumnos en tér- minos de lo que considera mejores condiciones para el Algunas observaciones aprendizaje. sobre la acción de evaluar Cuando la evaluación tiene carácter institucional, en cambio, su modalidad es explícita; es un acto deliberado, Conforme a lo que se ha venido señalando, podría organizado, que se efectúa empleando metodologías e decirse que evaluar implica, siempre, tomar distancia de instrumentos de carácter variado, generalmente comple- la realidad que se analiza para poder pronunciarse sobre jos. En este caso, el uso social externo o interno de los ella en un contexto decisional dominante (Hadji, 1992). resultados dependerá, en parte, del tipo de información La afirmación “poder pronunciarse acerca de la rea- que permitan obtener los instrumentos empleados y, en lidad” requiere ciertas precisiones. parte, de las decisiones previamente adoptadas, o bien de aquellas que se adopten a partir de la obtención de los datos. Puede ocurrir también que el uso que se haga de la información obtenida sea producto de una tran- sacción entre las decisiones iniciales y las que se derivan
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 11 La evaluación como lectura orientada: de la relación pedagógica para que los resultados obte- nidos a través de la evaluación permitan a los docentes la construcción del referente reorientar los procesos de enseñanza. Por otra parte, una evaluación que opera por niveles En primer lugar, evaluar supone efectuar una lectu- como los señalados facilita el análisis de las sucesivas ra orientada sobre el objeto que se evalúa, en función transposiciones del currículum prescripto, en las expec- de la cual el evaluador se “pronuncia sobre la realidad”. tativas de los maestros sobre lo que debería enseñarse, Dicho de otra manera, no existe una lectura directa de y en el currículum real. la experiencia. Hay siempre un proceso de interacción De esta forma, es posible introducir, en las metodolo- entre el evaluador y la realidad a evaluar. En ese proceso, gías de evaluación, modificaciones que tiendan a poner en función de las propiedades de la realidad a evaluar, los procesos evaluativos al servicio de la acción pedagógi- el evaluador construye el referente, es decir, aquello con ca. Sólo con la construcción del referente hemos dado un relación a lo cual se va a efectuar la evaluación, aque- ejemplo acerca de cómo pueden comenzar a producirse llo que le permitirá “pronunciase sobre la realidad” que cambios respecto a “lo que se pone en juego” en el ámbi- evalúa. to pedagógico. Más adelante mostraremos que la meto- En la investigación a la que haremos referencia en dología genera también transformaciones en los papeles el transcurso de este libro, construimos el referente a de los actores y en las reglas del juego que los relacionan. partir de los datos relevados mediante la administración Volviendo ahora al análisis del proceso de evalua- de una encuesta a docentes, en la que indagamos, entre ción, es necesario señalar que al referente se añade un otros aspectos, cuáles eran los contenidos que realmen- conjunto de criterios que guían tanto la construcción de te se enseñaban. Pudimos así construir el referente, que los instrumentos de evaluación como los procesos de va- se configuró como currículum real. Más adelante expli- loración posteriores. caremos cómo tuvo lugar ese proceso. Por otra parte, los criterios también operan en los Es necesario precisar ahora que en la construcción procesos de selección de lo que se quiere evaluar e inter- del referente intervienen distintos factores. Por una par- vienen, asimismo, en la construcción de los indicadores y te, inciden las expectativas que conciernen al propio ob- de los datos resultantes de la evaluación. jeto evaluado como, por ejemplo, el nivel de rendimien- En este sentido, tanto el objeto que se evalúa to esperado en los alumnos. En éste sentido, cuando se como el proceso de valoración son construidos por evalúa una realidad dada, se procura comprobar si ésta el sujeto que evalúa. presenta las características que se esperan de ella. Por En la evaluación, como en cualquier otro acto de otra parte, la constitución del referente se vincula a la conocimiento, “no se capta nunca directa y totalmen- concepción de evaluación que se sustenta, los propósitos te la realidad examinada. Ésta es siempre objeto de un que se derivan de ésta y el contexto decisional en que se proceso previo de definición o de elección de los carac- inserta el proceso evaluativo. Veamos este punto. teres que permitirán aprehenderla”[...]”Formulado de Si se trata, por ejemplo, de la construcción de un otra forma, no basta con decir que la evaluación lleva sistema de evaluación en una jurisdicción dada, el refe- a la realidad; todavía falta construir o adoptar los indi- rente último puede estar constituido por el currículum cadores de la realidad considerada. Desde este punto prescripto. Sin embargo, por razones que obedecen es- de vista, la evaluación plantea el conjunto de cuestiones trictamente a la concepción de evaluación subyacente, a planteado de forma más amplia por los procesos de pro- los propósitos derivados de ella y al contexto decisional ducción de conocimientos”5. en el que se inserta la evaluación, se puede -en una pri- Veamos ahora, a manera de ilustración, algunos mera etapa- partir de un referente constituido por aque- de los pasos necesarios en la construcción del objeto. llo que los maestros afirman enseñar en los distintos gra- Una vez que el propósito de la evaluación ha sido deter- dos del nivel que se evalúa. En este caso, el relevamiento minado (conocer, por ejemplo, las realizaciones de los del mapa curricular real permite construir el referente alumnos en un área de conocimiento y en un nivel espe- y especificar los criterios para evaluar las realizaciones cífico), se hace necesario fijar los criterios para evaluar de los alumnos. las respuestas producidas por los alumnos y construir En una segunda etapa, el referente puede ser lo que los indicadores correspondientes (tipo y nivel de conoci- debería enseñarse según el juicio de los maestros (re- mientos esperables, competencias requeridas, etc.). En cogido mediante instrumentos adecuados) y según los este proceso, la selección de los contenidos curriculares resultados que arroje la evaluación de lo realmente en- por evaluar supone también partir de criterios que per- señado. mitan efectuar un recorte técnico en relación con los En esta metodología de evaluación, el referente tie- contenidos enseñados y con las respuestas valoradas ne un carácter provisorio y se traslada progresivamente como deseables. Así, la decisión implica poner en juego del campo “del ser” (lo que se enseña) al del “deber una concepción pedagógica determinada y operar con ser” (lo que debería enseñarse). un marco epistemológico específico. El carácter progresivo en la construcción de los refe- rentes permite instancias de evaluación que, partiendo de lo real, incluyen, progresivamente, lo prescripto. Es- tos principios metodológicos responden a una concep- 5 Barbier J.M, La evaluación de los procesos de formación, ción orientada a recabar, desde el inicio, información Madrid, Paidós, 1993, p 66. próxima al campo de experiencia de los protagonistas
  • 12 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación El proceso de construcción del objeto supone, en- quisiéramos señalar que pueden identificarse dos carac- tonces, proceder por recortes sucesivos de la realidad, terísticas que permanecen como elementos constantes los cuales se realizan conforme a criterios con indepen- en toda actividad evaluativa: dencia de que estén o no explicitados. Por esta razón, los indicadores que se construyen no cubren nunca la 1. siempre constituye una lectura orientada (tanto totalidad de la realidad que se evalúa; como se habrá cuando asume formas de control como cuando se comprendido, al evaluar siempre se introduce un esque- trata de la evaluación apreciativa con referente pre- ma de lectura de la realidad que circunscribe, recorta, determinado o de la evaluación interpretativa). reduce lo observable. En cuanto a los procesos de valoración de los resul- 2. siempre consiste en un pronunciamiento acerca tados, nos remitimos a lo señalado anteriormente acerca de la realidad. de que la evaluación, en tanto adjudicación de un juicio de valor a una realidad dada, supone siempre una lectu- ra orientada, “filtrada” por el referente y por los crite- rios que constituyen una explicitación de este último. Los múltiples significados Es conveniente aclarar, asimismo, que los procesos de la palabra “evaluación” de valoración dependen, por otra parte, de la pertinen- cia de los instrumentos de evaluación construidos, es Como acción comunicativa, la evaluación nos per- decir, de la adecuación entre el tipo de instrumento ela- mite una aproximación a ella desde el punto de vista borado y las características de los procesos educativos semántico7. Tanto en el diccionario, como en las acep- que se desee aprehender. ciones más habituales del término, o aquellas asociadas Como veremos más adelante, la construcción del ob- con él, aparecen involucrados diferentes significados. jeto y los procesos de valoración pueden ser el resultado Recuperemos algunos de ellos: de una metodología como la que fragmentariamente presentamos como ejemplo, de un enfoque más cuali- Verificar / medir / valorar / comprender / aprehender / conocer tativo (en el cual el objeto y la valoración se construyen Juzgar / comparar / constatar / apreciar / decir / ayudar en el proceso de evaluación) o de una combinatoria de ambos paradigmas. Cifrar / interpretar / estimar / experimentar / posicionar / expresar No obstante, los diferentes términos -en ocasiones complementarios, en otras opuestos- implican distintas La construcción de los resultados perspectivas desde el punto de vista de la evaluación educativa. Analicemos algunos de ellos, tratando de po- Con respecto al producto de la evaluación, también ner algún orden en la lectura. concierne al evaluador construir los resultados de la eva- Podríamos afirmar que de los términos enunciados luación, construir los datos, “lo referido” (con relación pueden desprenderse, por lo menos, dos perspectivas al referente). Ello significa relevar en la realidad los sig- sobre la evaluación. nos -los indicadores- que den cuenta de la presencia de En primer lugar, evaluar parece involucrar el hecho los criterios previamente establecidos. de medir con precisión; en este sentido, expresar una Desde este punto de vista, lo que se denomina prue- cantidad precisa, cifrada. En otras palabras, alude a ex- ba de evaluación tiene por función hacer aparecer los presar una medida cuantificada. signos buscados6. En segundo lugar, evaluar implica operaciones como Para que esto sea posible, las “pruebas” deben sa- estimar, apreciar, aprehender, en otros términos, pro- tisfacer el requisito de la pertinencia a fin de que pueda nunciar un juicio cualitativo y, eventualmente, aproxi- observarse la relación existente entre los indicadores (es- mativo sobre una realidad. tructura del razonamiento de los alumnos, estrategias “Evaluar es en consecuencia un término bien singu- que ponen en juego para la resolución de los problemas, lar que puede expresar una cosa y su contrario: lo preci- etc.), el referente y los criterios en función de los cuales so y lo aproximado, lo cuantitativo y lo cualitativo”8. Es se evalúa. imposible, por lo tanto, no destacar el grado de ambi- Si la metodología adoptada se fundamenta en una güedad presente en la evaluación y lo que ello implica a concepción según la cual la construcción del referente y de la hora de generar y producir prácticas evaluativas en las los resultados debe responder a la intención de contribuir instituciones escolares. al mejoramiento de las prácticas educativas, también el jui- cio del evaluador debe servir a ese propósito. En este sen- tido, más allá de la utilidad de las calificaciones obtenidas, en términos de información pertinente para la gestión y de interés para los padres, docentes y alumnos, resulta indis- 6 Hadji, op. cit. p. 36. pensable una devolución cualitativa de la información. Como cierre de este apartado y en función de lo que 7 Barlow M., L‘évaluation scolaire. Décoder son langage, se ha analizado hasta ahora sobre la multidimensionali- Lyon, Chronique Sociale, 1992, p. 60 y s.s. dad de la evaluación y la variación de sus usos sociales, 8 Barlow M., op. cit., 1992, p. 63.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 1 Por otra parte, más allá de estas dos grandes posi- su aplicación y con independencia de ella. ciones señaladas, aparecería, en algunos de los términos De manera totalmente opuesta, la evaluación -de que se asocian a la evaluación, la idea de ayuda, sostén acuerdo con su propia etimología- implica la problema- o apoyo, con lo que ello implica desde el punto de vista tización sobre los valores y sobre el sentido de lo que educativo. ocurre en la situación observada. Evaluar es aprehender las significaciones propias, particulares de los actos hu- manos. Importa más, en esta acepción, la aprehensión de los significados que la coherencia o conformidad con La evaluación y el control un modelo dado. La cuestión del sentido introduce otra diferencia sus- En función de esta ambigüedad del término, que re- tancial: mientras el control siempre opera a partir de un fleja lo que sucede en las prácticas evaluativas, Jacques solo y único referente, que es el patrón de medida como Ardoino y Guy Berger presentan la evaluación como un norma homogeneizadora de lo que se mide, la evalua- “Jano moderno” con un doble perfil: un lado muestra ción es multireferencial en tanto debe aprehender signi- un perfil filosófico, en la medida en que toda evaluación ficaciones heterogéneas. Está siempre abierta al sentido plantea el problema del valor, del sentido y de la signi- y, por lo mismo, es inacabada. ficación de aquello que se evalúa (lo que requiere un A diferencia de los acontecimientos que se miden tratamiento cualitativo); el otro lado muestra un perfil a través de instrumentos de control, la evaluación se técnico, ya que la evaluación constituye un dispositivo aplica a procesos humanos en los cuales la dimensión compuesto por métodos, técnicas e instrumentos em- temporal es histórica e irreversible porque consiste en pleados “para dar cuenta y rendir cuenta” (de manera el tiempo vivido. Por lo tanto, no puede estar referida a cuantitativa) de los resultados obtenidos. Ese perfil se estructuras objetivas en el mismo sentido que el control, asocia con la noción de control. que mide los acontecimientos conforme al tiempo cro- Para los autores mencionados, sin embargo, ambas nológico: un año, un mes, una semana, etcétera. nociones pertenecen a dos órdenes diferentes y a dos La comprensión de las características específicas de paradigmas epistemológicos distintos. Veamos la signifi- los procesos de control y evaluación permite advertir que cación de cada uno de los términos. la oposición entre ambos es, en realidad, una cuestión La palabra “control” tiene su origen en la lengua que excede el problema de los métodos y de las técnicas francesa, en la contracción de la expresión “contrerôle”, de cada uno. Se trata, más bien, de un problema episte- empleada para designar el “doble registro” necesario mológico que se traduce en la confrontación entre dos para autenticar las escrituras. Adoptada por numerosas paradigmas distintos. lenguas, la expresión ha conservado a lo largo del tiem- Sin embargo, más allá de la oposición entre ambos po el sentido administrativo de su origen. procesos, se ha observado que ellos comparten ciertas En nuestra vida cotidiana la palabra expresa múltiples funciones comunes, indispensables para la regulación y diversas situaciones: control administrativo, control fi- crítica de la acción. Regulación, en el sentido que permi- nanciero, control fiscal, control policial, control aduane- ten ajustar las acciones con relación a un objetivo esta- ro, control industrial, control de calidad, etcétera. blecido, y crítica, porque dicho ajuste se realiza a partir La mayor parte de los instrumentos de medición que de una lectura orientada. empleamos son instrumentos de control. También impli- Esta propiedad compartida por ambos procesos can operaciones de control los mecanismos cibernéticos conduce a considerar que la regulación crítica de la ac- que regulan la transmisión y recepción de información ción puede ser concebida a lo largo de un “continuum” en sistemas simples o complejos. constituido por dos polos: el control, por un lado, y la En el campo educativo, los exámenes, el registro de evaluación interpretativa, por el otro. asistencias, las amonestaciones, etc., son procedimien- Dentro de ese continuum se ubica, hacia el polo del tos explícitos de control. control, la evaluación estimativa, que, como se vio an- Esta diversidad de usos y acepciones ha conducido teriormente, se inclina hacia lo cuantitativo. En cierta a considerar el control —como un sistema, un dispo- forma, también la evaluación apreciativa con un refe- sitivo y una metodología, constituidas por un conjunto rente predeterminado tiene ciertas propiedades que la de procedimientos que tiene por objeto (y objetivo) es- relacionan con el control en el sentido de que, si el refe- tablecer la conformidad (o la no conformidad), y aun la rente está totalmente explicitado, el proceso evaluativo identidad, entre una norma, un patrón, un modelo y los consiste en verificar, en la realidad, en qué medida aquél fenómenos u objetos con los que se los compara, y en ha sido alcanzado. ausencia de esta conformidad o identidad, establecer la En cambio, la evaluación apreciativa sin referente medida de su diferencia“9. predeterminado se ubica en el polo de la evaluación, Es importante retener, para la comprensión de este toda vez que carece de un modelo referencial y apela a término y su ulterior comparación con el de evaluación, la interpretación de la realidad observada. Se ubican en que el control se efectúa a partir de un elemento exter- no y anterior (desde el punto de vista lógico, no nece- sariamente cronológico) al acto mismo del control. Los exámenes y las amonestaciones, por ejemplo, existen, en tanto instrumentos, con anterioridad a la instancia de 9 Ardoino y Berger, op. cit., p. 12.
  • 14 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación esta línea, fundamentalmente, las orientaciones basa- emplea, con lo cual se induce a errores o confusiones das en el paradigma interpretativo, que, como veremos conceptuales, por una parte, y se anula o limita la posi- más adelante, plantean la construcción del referente en bilidad de su uso, por otra10. el proceso mismo de evaluación. En resumen, el control y la evaluación son funciones La introducción del concepto de regulación crítica interdependientes, idealmente complementarias pero, permite separar la evaluación estimativa de la medición sin embargo, teóricamente distintas por los paradigmas en sentido estricto. Entre ambas existe una frontera, ya en que se fundan. En efecto, mientras en los casos en que el objetivo de toda medición es hacer una descrip- que se opera a partir del control se procede a establecer ción cuantitativa de la realidad, efectuar una lectura de el grado de conformidad de un objeto o de una situa- ella lo más “objetiva” posible. La evaluación estimativa, ción con relación a una norma o a un sentido dado, en en cambio, no tiene como único objetivo medir, sino la evaluación, el sentido se construye en el proceso de emitir un juicio a partir de los datos que la medición interacción y de intercambio de significaciones. provee. Este tipo de evaluación pone de manifiesto que Ambos procesos son necesarios para la inteligibili- la realidad que se evalúa no puede -en sentido estricto- dad y la regulación de las acciones, aunque no podrían ser medida, pero, además, que la intención dominante ser ubicados en el mismo registro, porque el tipo de in- no es sólo conocer sino regular. Recordemos el ejemplo formación que proveen es diferente. que dimos a propósito de este tipo de evaluación cuan- La consideración de algunas de las características pro- do se empleaba en situaciones experimentales a partir pias de las metodologías del control y de la evaluación de la incorporación de un nuevo programa o método, muestra sus diferencias y su posible complementariedad. destinado a mejorar los aprendizajes. En ese caso, la in- En el primer caso, el análisis de situaciones y de com- formación suministrada por la evaluación para estimar la portamientos, individuales o colectivos, supone intere- medida en que la innovación curricular o metodológica sarse por indicadores, construidos en función de crite- mejoraba los resultados estaba al servicio de la regula- rios que, a la vez, remiten a los paradigmas fundantes. ción del proceso de enseñanza, permitiendo así introdu- A este conjunto se agregan los instrumentos para medir cir modificaciones en este último. o apreciar los efectos o resultados. A pesar de que tanto el control como la evaluación Desde otra perspectiva, que se relaciona con los aná- cumplen una función de regulación crítica para la ac- lisis de tipo cualitativo, interesa describir e interpretar el ción, ambos procesos pueden ser necesarios porque di- sentido de las situaciones observadas. cha función tiene un carácter distinto en cada caso. La complementariedad de los enfoques permitiría Habitualmente, sin embargo, suelen utilizarse los indagar sobre las causas de los resultados cuantitati- conceptos de medición y evaluación de manera confusa vos obtenidos, es decir, sobre el fundamento de ellos, y poco discriminada. El término “evaluación”, por ejem- incorporando el uso de instrumentos que permitan re- plo, es empleado de manera genérica y subsume prácti- coger información adicional de carácter cualitativo. Tal cas muy heterogéneas, que incluyen las de medición en complementariedad permitiría trabajar en el nivel de el sentido estricto de control. Parece adecuado suponer, lo implícito, de los presupuestos, de los esquemas de como lo hacen Ardoino y Berger, que las connotaciones valoración, etc., que operan en la dinámica de la inte- negativas que afectan al proceso de control inhiben la racción de los actores, en las distintas fases del proceso explicitación de su uso en las situaciones en que se lo evaluativo. 10 Ardoino y Berger, op. cit.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 15 “Evaluación educativa: una aproximación conceptual” Resulta oportuna, en términos generales, la definición propuesta por T. Tenbrink: Evaluación es el proceso de obtener información y usarla para formar juicios que a su vez se utilizarán en la toma de decisiones. a) Las funciones de la evaluación •función de desarrollo de capacidades: con carác- ter secundario, ya que no forma parte de los objetivos En términos generales se pueden reconocer diferen- centrales de cualquier acción evaluativa, los procesos tes funciones frecuentemente atribuidas a la evaluación, de evaluación a través de sus exigencias técnicas y las mismas no son excluyentes sino complementarias y metodológicas desempeñan una importante función algunas se explican a través de las ideas más generali- en términos de promover el desarrollo de competen- zadas que se tienen sobre la evaluación y otras se rela- cias muy valiosas. Si se aprovechan adecuadamente cionan directamente con un concepto más completo y las instancias de evaluación, éstas contribuyen a in- complejo de estos procesos. crementar el desarrollo de dispositivos técnicos insti- tucionales valiosos y poco estimulados habitualmen- • función simbólica: los procesos de evaluación te. Estas competencias se refieren por ejemplo a la transmiten la idea de finalización de una etapa o práctica sistemática de observaciones y mediciones, ciclo; se asocia con frecuencia la evaluación con la de registro de información, de desarrollo de marcos conclusión de un proceso, aún cuando no sea este el analíticos e interpretativos de la información, de in- propósito y la ubicación de las acciones evaluativas clusión de la información en los procesos de gestión, cabe tener presente que para los actores participan- de desarrollo de instrumentos para la recolección de tes en alguna de las instancias del proceso, éste ad- información, etc. quiere esta función simbólica. • función política: tal como se señalara en el apar- b)Para qué se evalúa tado anterior una de las funciones más importantes de la evaluación es su carácter instrumental central La pregunta por la finalidad de la evaluación cons- como soporte para los procesos de toma de deci- tituye uno de los ejes centrales junto con la definición siones. Esta función es claramente política ya que la del objeto a ser evaluado. En términos generales y en evaluación adquiere un rol sustantivo como retroali- función de las definiciones adoptadas permiten identifi- mentación de los procesos de planificación y la toma car algunas finalidades principales de todo proceso eva- de decisiones sobre la ejecución y el desempeño de luativo: diagnóstico, pronóstico, selección y acreditación los programas y proyectos. estas finalidades no necesariamente se plantean como excluyentes pero sí determinan opciones metodológicas • función de conocimiento: en la definición misma diferenciales. de evaluación y en la descripción de sus componen- La finalidad de diagnóstico enfatiza los componentes tes se identifica como central el rol de la evaluación vinculados con la producción sistemática de información en tanto herramienta que permite ampliar la com- calificada con el objeto de orientar la toma de decisio- prensión de los procesos complejos; en este sentido nes, la gestión. la búsqueda de indicios en forma sistemática implica La finalidad de pronóstico enfatiza el valor predicti- necesariamente el incremento en el conocimiento y vo que pueda tener la información que se produce, es la comprensión de los objetos de evaluación. decir las acciones evaluativas persiguen como propósito la producción de información con alto potencial anti- • función de mejoramiento: en forma complemen- cipatorio y explicativo sobre los fenómenos o procesos taria con la función de conocimiento y la identificada objetos de evaluación. como función política, esta función destaca el aspec- La finalidad de la selección pone el énfasis en la utiliza- to instrumental de la evaluación en tanto permite ción que tiene la información producida por la evaluación orientar la toma de decisiones hacia la mejora de con propósitos de selección, un ejemplo claro de esto son los procesos o fenómenos objeto de evaluación. En los exámenes de ingreso a diferentes instituciones edu- la medida que se posibilita una mayor compresión cativas cuyos aspirantes superan el número de vacantes de los componentes presentes es factible dirigir las disponibles. En estas circunstancias se opta por alguna acciones hacia el mejoramiento en términos de efec- estrategia de evaluación que con frecuencia se justifica tividad, eficiencia, eficacia, pertinencia y/o viabilidad adjudicándole un valor pronóstico a estos resultados. de las acciones propuestas.
  • 16 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación La finalidad de acreditación es la que más se vincula no visibles en forma simple, es imposible plantear una con este valor social – simbólico que tiene la evaluación. evaluación que abarque todos los aspectos a considerar, En estos casos en énfasis está puesto en las consecuen- que incluya todos los componentes de un programa o cias que los resultados de la evaluación tienen para el proyectos, que indague sobre todos los procesos de ges- individuo o la institución objeto de evaluación ya que tión, etc. Por el contrario cualquier planteo al respecto de su resultado depende la continuidad de los estudios implica siempre ciertos límites conceptuales, metodoló- para un sujeto o la interrupción parcial de su carrera gicos, operativos, pero en todos los casos son límites escolar, etc.. que suponen alguna forma de acotamiento de los alcan- ces de la evaluación. La información constituye el insumo básico sobre el c)Los ámbitos de la evaluación que se producen los procesos de evaluación por lo tanto el rigor técnico dirigido hacia la selección las fuentes, las Si bien las imágenes más frecuentes sobre la eva- formas de recolección, registro, procesamiento y análi- luación se refieren a la misma aplicada a los alumnos, sis, así como la confiabilidad y validez resultan exigen- es importante tener en cuenta que los puntos centrales cias insoslayables a la hora de llevar a cabo cualquier señalados en este trabajo son también aplicables a dife- tipo de evaluación. rentes ámbitos de la evaluación educativa. Las características mismas de los procesos evaluati- Frente a la tarea, es necesario precisar -junto con la vos traen como consecuencia una notable movilización finalidad de la evaluación – el ámbito dónde la misma por parte de todos los sujetos de que una u otra ma- tendrá lugar y procurar definir las herramientas metodo- nera se ven involucrados en ellos. Por ello es necesario lógicas consideradas más adecuadas para ese ámbito, considerar en términos generales quienes son los sujetos tanto en las tareas de recolección cuanto de sistematiza- alcanzados de una y otra forma por las acciones eva- ción y análisis de la información. luativas y generar entre ellos cierta base de consenso y aceptación. Esto contribuye a evitar la resistencia propia De este modo es posible diferenciar la evaluación: que generan este tipo de acciones en parte debido a la endeble cultura evaluativa que en general se observa. La • de los aprendizajes. comunicación amplia sobre las finalidades de las accio- • de las instituciones. nes de evaluación, los procedimientos predominantes, • del sistema educativo. la utilización de los resultados, la difusión de los mismos • de los programas o proyectos. son estrategias que promueven una mayor aceptación entre los involucrados. La relevancia y la oportunidad son, por último, dos d) A modo de síntesis requisitos básicos para que las acciones de evaluación tengan significación. La relevancia se refiere a la centra- Todo proceso de evaluación exitoso debe observar al- lidad de el/los objetos de evaluación, es decir, la com- gunos requerimientos indispensables o atender a cierto plejidad de un proceso de evaluación se justifica en la conjunto de premisas. medida en que se lleve a cabo alrededor de problemas, En primera instancia debe entenderse que toda ac- aspectos o fenómenos relevantes. En el mismo sentido ción evaluativa es una forma particular de intervención la oportunidad es la cualidad de la ubicación temporal en la realidad. Cualquiera que sea la/s estrategia/s me- adecuada del proceso de evaluación y en especial de todológica/s adoptada/s los objetos de evaluación sufren sus resultados. Un proceso de evaluación exitoso lo es algún tipo de modificación como consecuencia de esta en buena medida en tanto sus resultados se encuentren intervención. Este es un elemento que debe tener pre- disponibles en el momento adecuado, para incidir en la sente el evaluador, por una parte para no producir in- toma de decisiones, en los procesos de gestión en forma terferencias en demasía en el desarrollo habitual de las oportuna. acciones y por la otra Para ponderar este efecto en la elección de las es- trategias metodológicas – por ejemplo – y el balance general de los resultados de la evaluación. En segunda instancia toda evaluación, por su natu- raleza, requiere de criterios establecidos respecto de los cuales se formulen los juicios valorativos. Ya se señaló anteriormente que el componente valorativo es uno de los elementos diferenciales de la evaluación respecto de cualquier otro tipo de indagación y en este sentido la formulación, definición o construcción de criterios resul- ta un requerimiento ineludible. En tercer lugar y teniendo en cuenta lo señalado en apartados anteriores, dado que toda acción evaluativa se sustenta en la producción de información y en la bús- queda de indicios sobre aquellos procesos o fenómenos
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 17 La evaluación educativa, un criterio consolidado. Introducción A tono con la tendencia internacional, en la Argenti- jóvenes rinden anualmente las pruebas de lengua y ma- na se va consolidando el criterio de establecer sistemas temática, cuyos resultados no tienen incidencia en el de medición de la calidad de la enseñanza, para evaluar promedio final del alumno, aunque sirven para cono- el nivel de educación que se imparte en las aulas. cer el nivel de educación que se imparte en las aulas. En este informe se plantea la evolución que han teni- Las pruebas nacieron con la intención de promover un do en el sistema educativo los instrumentos que apuntan certificado nacional de estudios básicos y la pretensión a medir la calidad de la enseñanza. Más que un análisis de que sus resultados influyeran en el acceso a la ense- exhaustivo de los resultados, se ofrecen aportes para in- ñanza superior. Pero tales ideas han sido por ahora de- tentar explicar las causas de su surgimiento y expansión, jadas de lado y se delegó en cada jurisdicción provincial las metodologías empleadas y las distintas concepciones la decisión de que las notas de los alumnos figuren en el acerca de para qué y por qué evaluar. boletín de calificaciones. Mientras se conservan en forma muestral las evalua- ciones en distintas etapas del nivel primario, los mayo- Los sistemas de evaluación en América La- res esfuerzos se han concentrado en el desarrollo de las pruebas de finalización del secundario. tina y en Argentina También los organismos internacionales, agrega Tia- na, se sumaron a esta corriente y pusieron en marcha Prácticamente todos los países de América latina han programas vinculados con el desarrollo de las políticas iniciado, con distinto grado de aplicación, algún tipo de de evaluación educativa. Ejemplo de ello son la Unesco, programa de evaluación del sistema educativo. Así lo se- la Unión Europea, la Organización para la Cooperación ñala un informe del PREAL (Programa de Promoción de y el Desarrollo Económico (OCDE) y la Organización de la Reforma Educativa en América latina y el Caribe), que Estados Iberoamericanos (OEI). ubica a México y Chile entre los países de la región que Creadas inicialmente para medir el desempeño de los más experiencia han desarrollado en el tema. alumnos en lengua y matemática, las pruebas de eva- El trabajo, realizado por el especialista norteamerica- luación se extendieron en los últimos años a otras áreas no Lawrence Wolff, asesor en educación del Banco In- (física, química, historia, geografía, educación cívica) y a teramericano de Desarrollo (BID) y publicado por PREAL partir del año 2000 se incorporaron tests internaciona- en julio de 1998, sostiene que la Argentina comenzó les, con pruebas reguladas por organizaciones de alcan- tardíamente –en 199- con la aplicación de pruebas de ce mundial. evaluación de la calidad. Considera que el programa En consideración de los especialistas, Chile cuenta argentino está bien concebido y tiene una estrecha re- con uno de los sistemas de evaluación más amplios y lación con la estrategia de descentralización de los servi- mejor administrados de América latina. El informe de cios educativos y con el mejoramiento de la calidad de la Lawrence Wolf destaca “haber demostrado el mayor enseñanza. Agrega que si bien se perciben logros, aún compromiso de largo plazo con el desarrollo de evalua- no se han establecido “objetivos de aprendizaje claros a ciones”. El programa se inició en 1980 y desde 1988 se nivel nacional”. denomina Sistema de Medición de la Calidad de la Edu- Sólo ahora, al cabo de varios años, se iniciaron “esfuer- cación. La herramienta sirvió para acompañar el plan de zos sistemáticos por compatibilizar el currículum, los tex- reforma que promueve la descentralización. tos escolares y la pedagogía utilizada en la sala de clases”. De acuerdo con ese trabajo, México es el país latino- Los operativos de evaluación educativa en la Argenti- americano con más larga experiencia en las evaluaciones. na comenzaron en 199, con los exámenes de lengua y Pero se caracteriza por la renuencia de sus autoridades matemática que rindieron alumnos de séptimo grado y a divulgar sus resultados. A la medición de los conoci- quinto año del secundario. Las 8.000 pruebas adminis- mientos y habilidades de 2,8 millones de estudiantes, tradas tuvieron carácter muestral (no incluyó a todos los acompañan una evaluación sistemática de la capacidad alumnos, sino a una parte representativa de esos niveles de los profesores. de enseñanza) y reflejaron un promedio de 6,14 en len- Brasil comenzó a desarrollar en 1990 un sistema de gua y de 4,6 en matemática entre los que cursaban el evaluación nacional, pero sólo a partir de 1995 comenzó último año de la enseñanza media. a tomar muestras. Desde esa fecha se inició la evalua- Se extendieron cada año a más alumnos y a partir de ción de la enseñanza superior, el primero en su tipo en 1997 el examen de finalización del secundario se amplió la región. El gobierno brasileño estimula a los Estados y a todos los estudiantes de ese nivel. Así, unos 280.000 municipalidades a iniciar sus propias evaluaciones.
  • 18 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación El informe de Wolff afirma que en América latina las el Laboratorio Latinoamericano de Evaluación de la Ca- asociaciones gremiales de profesores tienden a ser ob- lidad de la Educación y comprendió a 54.000 alumnos servadores pasivos, e incluso, se oponen a las evaluacio- de 1 países. nes. El especialista del BID concluye que si se desea que El estudio analiza el rendimiento de los alumnos en éstas tengan impacto en la educación es preciso incluir la región y revela que el promedio de logro de los estu- desde el comienzo a los profesores en ese proceso. Pro- diantes es más bajo de lo esperado. pone incluir otras herramientas de medición, como los La mayoría de los estudiantes realiza una compren- estudios de deserción y repitencia, mediciones de los in- sión fragmentaria de los textos que leen, reconocen las sumos escolares y estimaciones de los recursos mínimos palabras incluidas en un texto pero no consiguen deter- que cada escuela debería tener, observaciones sistemá- minar por qué se dice lo que se dice o para qué se dice. ticas de los procesos escolares y estudios del desempeño Ello podría indicar que a los niños se les enseña a deco- de los egresados en el mercado laboral. dificar, a traducir las palabras escritas al lenguaje oral, Una de las herramientas que contribuyó a consolidar pero sin entender el significado del texto, ni interpretar en todo el mundo el sistema de evaluación de la ense- lo que leen. ñanza es el Third International Mathematics and Science Los resultados en matemática son generalizadamen- Study (TIMSS), que compara y explica el aprendizaje en te más bajos y desiguales. Los alumnos no asimilan los ciencia y matemática en 41 países. La Argentina se sumó conocimientos ni desarrollan las competencias en la a estos exámenes, rendidos por alumnos de primer año asignatura. del secundario, en el año 2000. Como dato ilustrativo se añade que los estudiantes La participación de la Argentina en los tests inter- cubanos alcanzaron los mayores puntajes en lenguaje y nacionales comenzó con el TIMSS y se extendió a otros matemática y que las niñas alcanzan mejores logros en programas. El objetivo central es comparar la educación lenguaje y ligeramente menores en matemática. (Nota nacional con la de otros países, incorporar e intercam- de la redacción: Argentina obtuvo el 2° lugar en ambas biar experiencias y capacitar a los equipos técnicos. asignaturas, lo que la ubicó a la cabeza de los demás Además del mencionado TIMSS, las pruebas interna- países participantes). cionales incorporadas por la Argentina corresponden a La elaboración de estos programas es muestra del tests diseñados por la IEA (Asociación Internacional para creciente interés suscitado en el nivel internacional por la Evaluación del Logro Educativo) y la OCDE (Organi- la evaluación de los sistemas educativos. Según el espe- zación para la Cooperación y el Desarrollo Económico). cialista Tiana, ello ha producido como efecto una “rápi- Son las siguientes: da evolución de la evaluación entendida como disciplina científica y como práctica profesional”. •Pirls (Estudio sobre los avances internacionales Entre otras causas que explican ese interés, Tiana en lectura y alfabetización). Fue diseñado para identifica la creciente demanda social de información proveer información sobre la habilidad de lectura sobre la educación que se aprecia en los distintos paí- y comprensión de los alumnos de cuarto grado (9 ses. Una suerte de rendición de cuentas. “En épocas de a 10 años). crisis, existe la necesidad de establecer prioridades en la asignación de recursos y para ello resulta inevitable fijar •CiviCs (Estudio internacional de educación cívi- criterios de comparación lo más objetivos posible”, es el ca). Está destinado a alumnos de 14 y 15 años, pensamiento del profesor español. para investigar la forma en que los jóvenes son Para Tiana, un requisito ineludible para cualquier preparados para incorporar los valores cívicos y la política de evaluación es su credibilidad. Ello se vincula cultura democrática y aprendan a tomar parte en directamente con la independencia institucional de los los asuntos públicos. mecanismos de evaluación. Otros criterios esenciales son la participación de los •Pisa (Programa para la evaluación internacional sectores implicados y el desarrollo gradual de las políti- de los estudiantes). Es una encuesta sobre habi- cas de evaluación, adaptadas a las circunstancias y a los lidades y conocimientos dirigidos a chicos de 15 contextos determinados. “Es absurdo pretender desa- años. Consiste en ejercicios sobre las áreas de lec- rrollar políticas de evaluación a partir de la importación tura, matemáticas y ciencias y los alumnos deben de modelos foráneos”, es uno de los consejos que el responder un cuestionario sobre su desarrollo per- experto español transmite a sus colaboradores y discí- sonal y actitudes. pulos. a) Laboratorio de la UNESCO b) Para qué evaluar En octubre de 2000, la Oficina Regional de Edu- Muchos autores coinciden en que uno de los objeti- cación de la UNESCO para América Latina y el Caribe vos primordiales de la evaluación educativa es informar (OREALC) difundió los resultados de un estudio interna- y orientar la toma de decisiones. Esa idea, que habla de cional comparativo sobre lenguaje, matemática y facto- una “utilización instrumental de los resultados”, es el res asociados, para alumnos de tercer y cuarto grado de concepto que predominó en las primeras etapas del de- la educación básica. La investigación fue realizada por sarrollo histórico de la evaluación. El autor W. J. Pophan
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 19 recuerda que en los años 70 existía la creencia dominan- función fundamentalmente informativa, si desean con- te de que las evaluaciones educativas debían constituir tar con una información exhaustiva sobre las compe- el elemento singular más importante para la toma de tencias y conocimientos de los alumnos o si prefieren decisiones. producir información menos detallada, limitada a cada Hoy, sin embargo, se tiende a considerar que la rela- establecimiento. ción existente entre evaluación y toma de decisiones es Ante la necesidad de capacitar cuadros técnicos para más compleja. “La evaluación es uno de los elementos una experiencia novedosa como la evaluación del siste- que contribuyen a la toma de decisiones. Pero no el úni- ma educativo y ante la escasa “masa crítica” existente co”, advierte Tiana en sus seminarios y conferencias. en la región, en el informe se sugiere facilitar el contacto Y explica que la concepción puramente instrumental con especialistas de la comunidad internacional. de la evaluación se fue debilitando con el tiempo y abrió También se considera conveniente considerar las es- paso a la concepción conceptual o iluminativa, según trategias de uso y difusión de los resultados de las eva- la cual la evaluación no tendría como función princi- luaciones. pal la de ofrecer elementos para la toma de decisiones: también contribuiría a mejorar el conocimiento de los procesos educativos. “En vez de pensar en un impacto Sitiografía inmediato y directo, la concepción iluminativa conside- ra los efectos diferidos e indirectos de la evaluación, en • www.iipe.unesco.org: Oficina Internacional de plazos de tiempo más largos que los habituales”, explica Educación de la UNESCO. el especialista español. Algunos autores añaden una tercera concepción. • www.iipe-buenosaires.org.ar: Sitio del Instituto Rossi y Freeman (199) hablan de una utilización per- Internacional de Planeamiento de la Educación suasiva y sostienen que la evaluación desempeñaría una (IIPE), centro de formación e investigación creado función eminentemente argumentativa al servicio del por la UNESCO. discurso político, sea éste de gobierno o de oposición. Muchas veces se corre el riesgo de que los gobiernos de • www.unesco.cl/home.htm: Oficina Regional turno “hagan públicas sólo aquellas partes del informe de Educación de la UNESCO para América Latina que tienen un carácter halagador”, advierte el especia- y el Caribe (OREALC) lista Miguel Ángel Santos, citado por Tiana en un docu- mento sobre “Tratamiento y usos de la información en • www.me.gov.ar: Sitio del Ministerio de Educa- evaluación”. ción de la Nación. • www.oei.es: Organización de Estados Ibero- c) Hacia dónde vamos americanos (OEI). En el documento “Los próximos pasos: ¿Hacia dón- • www.preal.cl: Programa de Promoción de la de y cómo avanzar en la evaluación de aprendizajes en Reforma Educativa en América Latina y el Caribe América latina?”, elaborado en marzo de 2000 por un (PERAL). equipo que dirigió Pedro Ravela y publicado también por PREAL, se señala que muchos países ingresaron en una • www.iea.nl/Home/home.html: International fase de revisión de lo hecho hasta el momento y comen- Association for Evaluation of the Educational zaron a considerar nuevas alternativas. Achievement (IEA) y acceso a los sitios de los Ello responde, se explica en el informe, a los siguien- programas TIMSS, PIRLS y Civics. tes motivos: Poco aprovechamiento de la información producida • www.eclac.org: Comisión Económica para por los sistemas de evaluación. Se percibe un insuficien- América Latina y el Caribe (CEPAL). te impacto en el sistema educativo. Insuficiente calidad y capacidad de evaluación de aprendizajes complejos en las pruebas que están siendo Bibliografía aplicadas. Debilidades técnicas en los procesos de desarrollo y • “¿Cómo avanzar en la evaluación de aprendi- validación de los instrumentos de medición. zajes en América Latina?”, por Pedro Ravela (edi- En el citado documento se reconoce que la instala- tor), Richard Wolfe, Gilbert Valverde y Juan Ma- ción de los sistemas nacionales de evaluación ha dado nuel Esquivel. Grupo de Trabajo sobre Estándares pasos importantes, pero se considera necesario definir y Evaluación GRADE/PREAL. Marzo de 2000. con qué estrategias se espera aplicarlos para que tengan algún impacto en la mejora de los aprendizajes. • “La educación secundaria. ¿Cambio o inmu- Para ello, los evaluadores deben tener claro si pre- tabilidad?”. Análisis y debate de procesos euro- fieren una evaluación con consecuencias directas para peos y latinoamericanos contemporáneos. Org. las escuelas y maestros –que determinen la aprobación Cecilia Braslavasky. Santillana. Abril 2001. o reprobación de los alumnos- o si esperan cumplir una
  • 20 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación • “Tratamiento y usos de la información en eva- luación”, por Alejandro Tiana Ferrer. Universidad Nacional de Educación a Distancia (UNED), de Es- paña. • “Las evaluaciones educacionales en América Latina: avance actual y futuros desafíos”, por Lawrence Wolf. PREAL. Julio de 1998. • III Operativo Nacional de Finalización del Se- cundario 1999. Ministerio de Educación de la Nación. • “La evaluación de los sistemas educativos”, por Alejandro Tiana Ferrer. Revista Iberoamerica- na de Educación de la OEI. Número 10. Enero/ Abril 1996. • De Ketele, J.M. y Roegiers, X. (1995) Funciones y campos de aplicación de la recogida de • Información. La Muralla, Madrid. • Arregui, Patricia. Sistemas de determinación y evaluación de metas de logros de aprendizaje es- colar como instrumentos para mejorar la calidad, la equidad y la responsabilización en los procesos educativos en América Latina. • Seminario sobre Prospectivas de la Educación en América Latina y el Caribe, • Chile, 2 al 25 de agosto de 2000.UNESCO. • Ravela, Pedro. (Agosto, 2001)¿Cómo presen- tan sus Resultados los Sistemas nacionales de Evaluación Educativa en América Latina? PREAL.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 21 Evaluación Nacional y Evaluaciones Internacionales A continuación se presenta un cuadro comparativo entre el Estudio de Evaluación Nacional y los dos Estu- dios Internacionales que se aplican en la actualidad en nuestro país. one serCe Pisa Es el Operativo Nacional de Evalua- El Segundo Estudio Regional Com- El Estudio PISA - Programme for In- ción 2007 sobre Lengua, Matemática, parativo y Explicativo (SERCE 2006) ternational Student Assessment (Pro- Ciencias Sociales y Ciencias Naturales sobre Lenguaje, Matemática, Ciencias grama para la Evaluación Internacio- en alumnos de °, 6° de la Primaria y Factores Asociados en alumnos de nal de Estudiantes) es una evaluación y 2°/°, 5°/6° de la Secundaria, y ° y 6° año de E.G.B de 16 países de estandarizada diseñada y coordinada Cuestionarios de Contexto desti- la región. por la OCDE (Organización para la nados a los Directores de Primaria Cooperación y el Desarrollo Econó- y Secundaria, a los Alumnos de 6°, n El SERCE es un producto de una mico). 2°/° y 5°/6° y a los Docentes de 6° construcción colectiva y participativa de Ciencias Naturales. Cabe destacar de los países latinoamericanos que Esta evaluación se diseña a partir de que en el año 2007 no se aplicaron conforman la red del Laboratorio un conjunto de estándares de conte- las pruebas de Ciencias Naturales y Latinoamericano de Evaluación de nido y desempeño, elaborados por un Ciencias Sociales a los alumnos de la Calidad Educativa (LLECE). grupo de especialistas en diferentes obJetivos Y CaraCterÍstiCas Secundaria. áreas de conocimiento (Comprensión Lectora, Matemática y Ciencias), que n El estudio busca aportar informa- n De acuerdo con la Nueva Ley de se consideran imprescindibles para ción a los sistemas educativos de la Educación Nacional, la aplicación del que los jóvenes puedan desenvolver- región. ONE tiene entre sus propósitos: se con éxito en la sociedad y en el mundo laboral de hoy. -Evaluar determinados desempeños n Desarrolla una propuesta de alcanzados por los alumnos en el evaluación propia y con base en los Evalúa también la capacidad de los país, a través de sus capacidades y diseños curriculares de los países estudiantes de organizar y regular de sus contenidos, en los diferentes participantes de la Región. su propio aprendizaje (aprendizaje niveles y áreas. autorregulado), la capacidad de n El enfoque desde el que los resolver situaciones problemáticas en - Aportar los insumos estadísticos y conocimientos y capacidades son eva- contextos interdisciplinarios y de la pedagógicos, a partir de la “eva- luados se corresponden con las habili- vida cotidiana (capacidad de resolver luación de los aprendizajes de los dades para la vida en la evaluación de problemas). alumnos y de los factores asociados”, Lenguaje, Matemática y Ciencias, y el para mejorar el desarrollo de políticas análisis curricular SERCE. Para ello, los alumnos deben ser educativas sustentadas en la realidad capaces de reconocer un problema, de las aulas. definir su naturaleza, usar el conoci- miento para delinear una estrategia n Es una propuesta de evaluación de resolución, ajustar la solución que con base en los Contenidos Básicos mejor se adapte al problema y comu- Comunes (CBC), los diseños curricu- nicar a otros la solución hallada. lares jurisdiccionales, los Núcleos de Aprendizajes Prioritarios (NAP) y los resultados de los Operativos Naciona- les de Evaluación.
  • 22 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación one serCe Pisa Todas las escuelas que participan Todas las escuelas que participaron de La población elegida para evaluar de la muestra en el país han sido la muestra en nuestro país han sido es la de los estudiantes que tienen elegidas por la DINIECE de manera elegidas por la UNESCO de manera 15 años, ya que ésta es la edad en aleatoria, es decir, al azar mediante aleatoria, es decir, al azar mediante la que la mayoría de ellos finaliza su procedimientos estadísticos variados procedimientos estadísticos variados escolaridad obligatoria en los países para este tipo de estudio. para este tipo de estudio. En las miembros. escuelas seleccionadas, se evaluaron Esta evaluación es administrada PoblaCiÓn evaluaDa n En las escuelas seleccionadas, se a los grupos de alumnos de ° y 6° entre 4500 y 10000 estudiantes en evaluará a los grupos de alumnos de años de la escuela Primaria. cada país. ° y 6° años de Primaria y de 2°/° y La delimitación de la población a 5°/6° años de Secundaria. Se realizará n Escuelas del país: 169 estudiar en términos de edad, y no una “extensión al ámbito rural” eva- de curso, proporciona un punto n Alumnos de ° año: 7.202 luando a grupos de alumnos de ° y estándar en todos los países, aunque n Alumnos de 6° año: 7.014 tiene el inconveniente de no tener un 6° años de Primaria, en aproximada- mente 2000 escuelas rurales. referente educativo específico en un n Secciones de ° año: 09 determinado grado de escolaridad. - Escuelas Primarias: 4000, aprox. n Secciones de 6° año: 07 - Escuelas Secundarias: 2000, aprox. - Alumnos de °: 80.000, aprox. - Alumnos de 6°: 75.000, aprox. - Alumnos de 2°/°: 48.000, aprox. - Alumnos de 5°/6°: 48.000, aprox. La Dirección Nacional de Información El Primer Estudio Internacional La primera evaluación tuvo lugar CiClo De evaluaCiÓn y Evaluación de la Calidad Educativa Comparativo (1997) sobre Lenguaje, en el año 2000 con los primeros -DINIECE- aplica los Operativos Na- Matemática, y Factores Asociados en resultados publicados en el 2001 y cionales de Evaluación -ONE- desde el alumnos de ° y 4° Año de E.G.B de a partir de entonces se continúa en año 199 hasta el año 2000 en for- 1 de países de la región. ciclos de tres años. Esta aplicación es ma ininterrumpida. Luego de la crisis El Segundo Estudio Regional Com- de carácter cíclico para poder seguir económica y política los operativos de parativo y Explicativo (2006) sobre el rendimiento de los estudiantes de evaluación se realizaron en el 2002 Lenguaje, Matemática, Ciencias y 15 años y establecer relaciones longi- y 200. A partir del 200 se decide Factores Asociados en alumnos de ° tudinales con respecto al desempeño realizar operativos de calidad cada y 6° año de E.G.B de 16 países de la académico de esas poblaciones. dos años, en el año 2005 y 2007 se región. realizaron los últimos operativos de evaluación. Todas las jurisdicciones del país SERCE 2006/2007: 17 países (Argen- PISA 2000: 4 países PaÍses Y JurisDiCCiones tina, Brasil, Colombia, Costa Rica, PISA 2003: 41 países. Cuba Chile República Dominicana, PISA 2006: 57 países. Ecuador, El Salvador, Guatemala, Ni- PISA 2009: 62 países. caragua, México, Panamá, Paraguay, Perú, Uruguay y el Estado mexicano de Nuevo León) los instruMentos (*) Ver Anexo (*) Ver Anexo (*) Ver Anexo
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 2 ANEXO 1 ONE Estructura y características de los instrumentos Forma de tipo nombre Cuadernillos ¿Quién lo responde? administración Lengua Del 1 al  Alumnos de °, 6°, 2°/° y 5°/6° conocimiento Pruebas de Matemática Del 1 al  Alumnos de °, 6°, 2°/° y 5°/6° Sesión colectiva Ciencias Sociales Del 1 al  ó 4 Alumnos de °, 6° Ciencias Naturales Del 1 al  ó 4 Alumnos de °, 6° Del Alumno de 6° Único Autoadministrada Alumnos de 6° Del Alumno de 9° Único Autoadministrada Alumnos de 2°/° Del Alumno de12° Único Autoadministrada Alumnos de 5°/6° Cuestionarios de Contexto Del Director Director o miembro del equipo Único Autoadministrada de Primaria directivo Del Director de Director o miembro del equipo Único Autoadministrada Secundaria directivo Todos los Docentes de los alum- Del Docente de 6° Único Autoadministrada nos evaluados de 6° de Ciencias de Ciencias Naturales Naturales
  • 24 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación SERCE La siguiente Tabla resume la lista de instrumentos que se aplicaron en cada escuela: Forma de tipo nombre Cuadernillos Código ¿Quién lo responde? administración Lectura Del 1 al 6 DL – DL6 Alumnos de  y 6 de logro Pruebas Escritura Del 1 al 2 DE – DE6 Alumnos de  y 6 Sesión colectiva Matemática Del 1 al 6 DM – DM6 Alumnos de  y 6 Ciencias Del 1 al 6 DC6 Alumnos de 6 Del alumno de  Único QA Alumnos de  Del alumno de 6 Único QA6 Alumnos de 6 Cuestionariosde Factores asociados Docentes de lenguaje Del docente Único QP Autoadministrada y matemática del aula evaluada Docente del área QL, QL6, QM, De enseñanza Cinco Autoadministrada respectiva del aula QM6, QC6 evaluada Padres o tutores de Autoadministrada / De la familia Único QF los alumnos de  y 6 Entrevista evaluados Director o miembro Del directivo Único QD Autoadministrada del equipo directivo Ficha de Aplicador con el apo- Único FE Entrevista empadronamiento yo del director
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 25 PISA Estructura y características de los instrumentos Los instrumentos son de dos tipos: n Pruebas de rendimiento n Cuestionarios de contexto Estudiante Escuelas 1 Cuadernillo de Prueba 1 Cuestionario para 1 Cuestionario para el Estudiante la Escuela Lengua Matemática Ciencias Pruebas de rendimiento Cuestionario para el alumno Las pruebas de rendimiento se construyen a partir En cada ciclo el estudio PISA recolecta información de los textos, ejercicios y preguntas aportadas por los demográfica básica como un componente núcleo que países miembros de la OCDE, las que son revisadas y replica las preguntas claves de los ciclos anteriores: seleccionadas por los órganos de la Agencia Evaluadora, género, lengua materna, nivel socioeconómico de los responsables del proyecto. alumnos (tomando como elementos importantes el nivel de educación de los padres y la situación económica fa- Las pruebas están constituidas por ítem de tres tipos: miliar), el desarrollo educativo de los alumnos, la dispo- nibilidad y el uso de los recursos educativos en el hogar · Cerrados con cuatro o cinco opciones de res- y en la escuela, y las prácticas de enseñanza, incluyendo puesta para elegir la correcta. aspectos tales como los relativos al currículum, el tiempo · Abiertos de respuesta corta y ejercicios abiertos dedicado a la escuela y a las tareas escolares, etc. de respuesta extendida, en los que el alumno tiene que construir y desarrollar la respuesta. Cuestionario para el · Actitudinales, a través de ellos se obtiene im- establecimiento educativo portante información sobre contenidos actitu- El componente común recopila información sobre la dinales, considerados centrales en la educación situación geográfica de la escuela, su contexto socioeco- científica. Los resultados de estos ítems no son nómico, incluyendo los recursos educativos del estable- contemplados en el puntaje final del rendimien- cimiento y su entorno, el tamaño de la escuela y de sus to académico. clases, la estructura de su personal, las prácticas escola- res en el nivel de la escuela y la organización escolar. Cuestionarios de contexto Por otra parte, este cuestionario releva información En Argentina se aplican dos cuestionarios, uno diri- sobre aspectos de la rendición de cuentas del Estableci- gido al estudiante de 15 años y otro al Establecimiento miento ante los padres, sobre la participación y promo- Educativo, completado por el director del mismo. ción de actividades científicas en las que participen los PISA propone otros instrumentos de recolección de alumnos y docentes, si se abordan temas relacionados datos, como ser: Cuestionario para padres y Cuestio- con el medio ambiente, sobre la orientación y perspec- nario de Educación Tecnológica, que hasta el momento tivas que tienen los jóvenes sobre su futuro y sobre la Argentina no ha aplicado. promoción de las carreras relacionadas con la ciencia A través de la recolección de datos adicionales sobre por parte de los actores escolares. los alumnos (actitudes y conductas) y el entorno educa- tivo (condiciones de enseñanza y de aprendizaje) PISA 2006 puede identificar factores sociales, culturales, eco- nómicos y educativos que se cruzan con el desempeño de los alumnos.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 27 “¿Qué pretendemos evaluar, qué evaluamos y qué conclusiones podemos extraer de la evaluación?” efectos fueron ambivalentes (Winkler y Gersh- berg, 2000). Los años ‘90 se caracterizaron por la puesta en mar- n Una segunda orientación de las reformas, es- cha y el desarrollo de un buen número de reformas edu- pecialmente influyente en muchos países de la cativas en los países latinoamericanos. Una vez superada región, consistió en la introducción de cambios la desconfianza hacia la educación que caracterizó a los en la organización curricular, que llevaron ge- años ‘70 y ‘80, los gobiernos de la región se lanzaron a neralmente aparejada una revisión de los plan- una intensa actividad reformadora, que se dejó sentir teamientos fundamentales en que se inspira la en muchos países y que abarcó diversas esferas de la definición y la construcción del currículo. realidad educativa (Gajardo ,1999). Las reformas emprendidas en esos años persiguieron n Un tercer dominio de acción de las reformas tuvo varios objetivos, entre los que cabe destacar la exten- que ver con los procesos de formación inicial y sión de la escolarización (especialmente en la enseñan- capacitación del profesorado, considerado habi- za secundaria), la mejora de la calidad de la educación tualmente pieza clave de las reformas, pero no impartida y el aumento de la equidad en la distribución siempre tan atendido como debiera en su papel de los servicios educativos. Aunque no sea éste el lugar de agente transformador. para hacer un balance de la década, no cabe duda de n Un cuarto ámbito de reforma estuvo concreta- que los objetivos previstos se alcanzaron de manera muy mente relacionado con la educación secundaria desigual, consiguiéndose algunos logros destacables en o media, que se ha convertido en la pieza clave y el primer sentido de los mencionados, pero logrando más conflictiva de los sistemas educativos y cuya resultados mucho más modestos en los otros dos. La expansión se ha ido también produciendo en situación es tal que un reciente informe internacional América Latina en las últimas décadas (Braslavs- sobre el estado de la educación en los países de Amé- ky, 2001). rica Latina adoptaba como título el lema Quedándonos atrás, expresando de ese modo las carencias que aún n Por fin, una última orientación tuvo que ver con aquejan a los sistemas educativos de la región (Comisión el desarrollo de mecanismos y modelos de eva- Internacional sobre Educación, Equidad y Competitivi- luación; dicho de otro modo, con la considera- dad Económica en América Latina y el Caribe, 2001). ción de la evaluación, como un poderoso instru- mento al servicio de la gestión de la educación y de la mejora de su calidad (Tiana, 1996). El desarrollo de políticas Esta última orientación de las reformas de los ‘90 nacionales de evaluación cobra especial relevancia desde la perspectiva que se adopta en este trabajo, pues es precisamente el impacto Las reformas de los años ‘90 afectaron a diversos de esos mecanismos de evaluación lo que está sometido aspectos de la realidad educativa, que conviene detallar. a crítica y discusión. Por este motivo, merece la pena Entre las orientaciones adoptadas por dichos procesos realizar un par de comentarios adicionales sobre sus ras- de reforma, y aun sin ánimo de exhaustividad, pueden gos más significativos. distinguirse varias líneas de actuación que, si bien no se Una primera observación que cabe destacar desde dieron siempre de manera simultánea, estuvieron pre- este punto de vista es que la mayoría de los países de sentes de uno u otro modo en las diversas iniciativas la región pusieron en marcha sus propios sistemas na- nacionales: cionales de evaluación a lo largo de los años ‘90, ge- neralmente en el marco de procesos más amplios de n Un primer aspecto en que se avanzó considera- reforma educativa. Con configuraciones institucionales blemente, aunque no sin problemas, fue en la muy diferentes entre sí y con ámbitos de actuación di- redistribución de las competencias y responsabi- versos, fueron varios los gobiernos que se sumaron a la lidades en materia de educación, lo que supuso experiencia pionera que otros países como Chile venían la puesta en marcha de políticas de descentra- desarrollando ya con anterioridad. Argentina, México, lización y de autonomía escolar, acompañadas Colombia, Bolivia o Brasil, por no citar sino algunos ca- en ocasiones de procesos de privatización, cuyos sos destacados, dieron pasos decididos en esa dirección,
  • 28 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación de manera que al final de la década eran mayoría los parcelas del sistema educativo, contribuyendo países latinoamericanos que contaban con algún tipo de al mismo tiempo a establecer metas y niveles de sistema nacional de evaluación (Ravela, 2001). referencia. Sin embargo, el indudable interés por la evaluación n Forzar a las instituciones escolares y a los agen- de la educación que se despertó en muchos países no tes educativos a generar dinámicas de cambio, marchó asociado sino mucho más tardíamente con un por medio de la comparación o la competen- interés paralelo por participar en estudios comparativos cia. internacionales de evaluación del rendimiento educativo. Aparte de la valiosa experiencia regional del Laboratorio n Rendir cuentas a la sociedad o a las autoridades Latinoamericano de Evaluación de la Calidad de la Edu- educativas acerca de los logros conseguidos, cación, en el que participaron un total de trece países de eliminando así la opacidad del sistema educa- América Latina y el Caribe, los estudios promovidos por tivo y de las instituciones escolares. organizaciones tan reconocidas como la IEA o la OCDE n Establecer sistemas de incentivos para las institu- no han alcanzado todavía en la actualidad cotas altas ciones y para los profesionales de la educación. de participación (Tiana, 2000). Durante los años ‘90, fueron más bien los programas de cooperación orienta- n Certificar, acreditar o seleccionar instituciones, dos hacia el reforzamiento de los sistemas nacionales de programas de estudio, profesores o estudiantes. evaluación, como el impulsado en esa dirección por la n Conocer y valorar la situación del sistema edu- OEI, los que lograron una participación más amplia. cativo, así como el impacto producido por las Así pues, y hablando siempre en términos genera- políticas adoptadas. les, la situación de la evaluación educativa en la región latinoamericana se caracteriza hasta el momento por la n Introducir elementos de racionalidad en el de- existencia de un contraste llamativo entre el desarro- bate público y en la construcción de políticas en llo de ambiciosos programas nacionales de evaluación el ámbito de la educación. y una limitada participación en estudios comparativos internacionales. El desarrollo de esos programas nacio- nales está basado en la puesta en marcha de un buen Es cierto que estos propósitos no son en todos los número de instituciones y agencias de evaluación, cuya casos compatibles entre sí, pero no lo es menos que las experiencia comienza ya a ser importante. políticas nacionales de evaluación seleccionan algunos frente a otros, les conceden distinto énfasis, establecen prioridades entre ellos o los interpretan de diferente manera. Así, por ejemplo, un propósito compartido por Una mirada a los sistemas muchos, como es el caso de la incentivación del cambio nacionales de evaluación a través de la comparación, no deja de ser objeto de polémica. Mientras que en algunos países ha llevado, Dando un paso más en el análisis, conviene que nos por ejemplo, a la publicación de listas de clasificación preguntemos por las principales características que pre- de escuelas o universidades, con el ánimo de forzar una sentan esos sistemas nacionales de evaluación que tan- competencia abierta por conseguir más estudiantes o to auge adquirieron durante la última década. Tres son más recursos, en otros se ha rechazado frontalmente esa las preguntas clave que debemos hacernos, que están posibilidad y se han establecido mecanismos de confi- ligadas respectivamente a otras tantas dimensiones de dencialidad de los datos que impiden ese tipo de uso, la evaluación: ¿para qué se evalúa?, ¿qué se evalúa? y aunque permitiendo beneficiarse de la comparación. ¿qué uso se hace de la información? Como puede apreciarse, un mismo propósito puede ins- pirar políticas muy diferentes. a) una multiplicidad de propósitos La primera pregunta tiene que ver con los propósi- b) una diversidad de actuaciones tos que orientan la evaluación de la educación. Y antici- La segunda pregunta tiene que ver con la actividad pando la respuesta, hay que reconocer que los sistemas desarrollada por los sistemas nacionales de evaluación. nacionales de evaluación persiguen una multiplicidad de Y también en este caso hay que anticipar la existencia de propósitos, al orientarse hacia la consecución de uno o una considerable diversidad de modalidades de actua- varios de los siguientes objetivos: ción, referidas a su vez a distintos ámbitos educativos. Entre los principales aspectos que son objeto de evalua- n Ayudar a las escuelas y a los profesores a me- ción en la actualidad, hay que destacar cuatro campos jorar la calidad de la educación que imparten, prioritarios: proporcionándoles una información relevante y significativa que les permita valorar su situación n Un primer campo que es objeto de considerable real y sus logros. atención se refiere a la evaluación de los logros n Conocer y valorar en qué medida se están al- conseguidos por los alumnos. Muchas de las ac- canzando los objetivos educativos o los están- tividades desarrolladas en la actualidad por los dares propuestos para los distintos niveles o sistemas nacionales de evaluación, y sin duda las más importantes de entre ellas, están orientadas
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 29 a la valoración de los resultados de la educación, n Un cuarto campo que también ha atraído el in- medidos a través de los logros que consiguen los terés de los sistemas de evaluación se refiere al estudiantes. En la mayoría de los casos, esas ac- impacto de las políticas educativas adoptadas. tuaciones se centran en algunas áreas curriculares En un contexto de reformas educativas, como seleccionadas, especialmente las que se conside- las impulsadas en la región durante los ‘90, no ran fundamentales para la formación de los jóve- es extraño que se haya planteado abiertamente nes (Lenguaje, Matemáticas, Ciencias, Historia). A la pregunta acerca de los efectos y el impacto veces se complementan con la evaluación de los de los procesos de cambio iniciados y de las me- logros conseguidos en otros ámbitos de la forma- didas adoptadas. Desde esta perspectiva, han ción escolar, como la educación cívica, el dominio coexistido dos tendencias que deben diferen- de las tecnologías de la información y la comuni- ciarse, aunque ninguna de ellas haya llegado a cación o las estrategias de aprendizaje. Las eva- atraer tanta atención como las arriba menciona- luaciones suelen estar referidas a etapas o mo- das. La primera se refiere a la evaluación de los mentos clave del proceso educativo, tales como el programas más emblemáticos de los procesos tránsito de una etapa a otra o el final de la esco- de reforma, los denominados “programas estre- larización obligatoria o de un determinado nivel lla”, aquellos en que las autoridades educativas de estudios. En ocasiones se evalúa a la totalidad han realizado una mayor inversión y depositado de los estudiantes de los grados seleccionados, mayores esperanzas. La segunda se refiere a la mientras que otras veces se trabaja solamente evaluación de los propios procesos de reforma, con muestras representativas. En cualquier caso, con la pretensión de establecer un mecanismo es ésta una línea de actuación prioritaria para los de seguimiento sistemático de sus efectos. Pese sistemas nacionales de evaluación. a la limitada experiencia desarrollada en ambas direcciones, no cabe duda de que se trata de un n Un segundo campo que también atrae consi- campo llamado a experimentar un mayor desa- derable atención se refiere al rendimiento que rrollo en el futuro próximo. logran las instituciones educativas. El interés que ha generado la apertura de la “caja negra” Aunque los cuatro campos mencionados no agotan que constituyen las instituciones ha estimulado la totalidad de los ámbitos abarcados por los sistemas el desarrollo de diversos programas orientados nacionales de evaluación, no cabe duda de que se trata a su evaluación. Tanto las escuelas primarias y de los más destacados y los que han experimentado un secundarias como las universidades han sido el mayor empuje. Nuevamente hay que insistir en que no objetivo prioritario de muchos planes de eva- todos ellos han sido desarrollados en todos los países, ni luación y de acreditación puestos en marcha en del mismo modo, ni con la misma energía, pero sí puede diversos países latinoamericanos. Esos planes de afirmarse que son objeto de atención especial por parte evaluación tienen características heterogéneas, de los sistemas nacionales de evaluación. pero suelen coincidir en conceder una atención especial a los resultados conseguidos por los c) una pluralidad de usos estudiantes, aunque sin dejar generalmente de La tercera pregunta tiene que ver con el tipo de uso lado el análisis de la organización y el funciona- que se hace de la información obtenida por medio de la miento de la institución de que se trata. evaluación. Y al igual que en los dos casos anteriores, n Un tercer campo que ha ido desarrollándose re- también hay que reconocer la existencia de una plura- cientemente, si bien con mayores dificultades lidad de situaciones. Intentando analizar los usos más que los dos anteriores, es el relativo al desem- habituales de los resultados de la evaluación, podemos peño profesional de los docentes. La convicción distinguir cinco tendencias predominantes: de que la actuación de los profesores está en la base de los resultados conseguidos por los es- n Una primera tendencia consiste, por paradójico tudiantes, aunque no sea su único determinan- que pueda resultar, en la renuncia a hacer uso de te, ha generado un conjunto de actuaciones de la información obtenida. Aunque no resulte muy diverso tipo, entre las que también se cuentan justificable, ni desde el punto de vista de la efi- algunos programas de evaluación. Se trata de cacia administrativa, ni desde la perspectiva de acciones que no han dejado de generar cierta la transparencia, ni menos aún desde las exigen- polémica, tanto por sus características técnicas cias del comportamiento político democrático, como por el tipo de uso que se hace de la infor- hay que reconocer que existen casos en que los mación obtenida. En muchos casos, quizás en resultados de la evaluación no son publicados, ni la mayoría, se ha optado por utilizar la evalua- difundidos, ni apenas utilizados. ción docente en el marco de planes de incenti- n Una segunda tendencia, que es la más habitual, vos profesionales, eludiendo sus aspectos más consiste en la elaboración y difusión de informes punitivos, pero en otros casos la evaluación se de evaluación. Los informes pueden ser de diver- ha utilizado como instrumento de selección o so tipo, tener una cobertura variable (nacional, de promoción profesional, o incluso se ha aso- regional, sectorial) y estar dirigidos a audiencias ciado con mejoras salariales o laborales. distintas (familias, profesores, autoridades edu-
  • 0 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación cativas, investigadores y técnicos, etc.), llegando te de diversas administraciones educativas. incluso a adoptar formatos diferentes. Lo impor- Igual que sucedía en los epígrafes anteriores, tam- tante en este caso no son las características con- bién hay que decir aquí que los usos mencionados no cretas de los informes, que pueden ser de hecho son necesariamente excluyentes, sino que son cada vez muy diferentes, sino la confianza subyacente en más las administraciones educativas que los combinan en que la difusión pública de los resultados puede distintos modos. Es cierto que algunos de ellos resultan satisfacer las demandas de información plan- contrapuestos, como puede ser la alternativa existente teadas por los diversos agentes educativos. En entre la publicación de los resultados de las escuelas y algunos casos se han diseñado y aplicado estra- la entrega confidencial de los datos, pero no siempre es tegias bastante completas de difusión, logrando el caso. De hecho, la combinación de la publicación de un impacto social y mediático importante. informes, la devolución de resultados a las instituciones n Una tercera tendencia consiste en la devolución participantes en la evaluación y la elaboración de instru- confidencial de resultados a las instituciones mentos de orientación didáctica constituye una realidad participantes en la evaluación, con el propósito bastante extendida en los países de la región. de que puedan utilizar los datos recibidos para A la vista de la situación que se acaba de exponer elaborar sus propios planes de mejora, sin verse cabe extraer una primera conclusión, consistente en que necesariamente expuestas al escrutinio público. los sistemas nacionales de evaluación de la región lati- Los modos concretos que puede adoptar esa de- noamericana no recurren a estrategias de acción unifor- volución son muy variables, pero lo que caracte- mes ni adoptan enfoques de evaluación idénticos. Y esta riza esa modalidad de actuación es su confianza conclusión no es sólo una confirmación de los hechos en el valor intrínseco que encierra la compara- que se han presentado, sino que se debe incluso consi- ción y en la capacidad de reflexión y de mejora derar lógico que exista tal variedad. que tienen las instituciones y los agentes de la En efecto, si aceptamos la existencia de una mul- educación cuando se enfrentan con su propia tiplicidad de propósitos, una diversidad de actuaciones realidad. y una pluralidad de usos, debemos aceptar la diversi- dad interna de los sistemas de evaluación. Serán preci- n Una cuarta tendencia, no excesivamente habi- samente los propósitos concretos que se persigan, los tual y desde luego controvertida, consiste en la estilos de actuación que se adopten y los usos que se publicación de los resultados obtenidos, en for- prefieran, los que determinarán las características del ma de tablas de clasificación. En algunos casos sistema de evaluación. la publicación se realiza por los responsables de la evaluación, mientras que en otras ocasiones se permite o incluso se favorece que sean otros agentes (prensa, investigadores) quienes publi- quen la información. Este tipo de uso resulta Una mirada a las pruebas más amenazador para las instituciones educa- tivas que los anteriores, motivo por el cual ha nacionales de logros recibido críticas y generado resistencias. Como se indicaba en el apartado anterior, los siste- n Una quinta tendencia consiste en la utilización mas nacionales de evaluación que se han desarrollado de los resultados de la evaluación para propor- en los países latinoamericanos desde los años ‘90 vienen cionar orientación pedagógica a instituciones y prestando una atención especial a la medición de los lo- profesores. Este tipo de uso de la información gros conseguidos por los alumnos. Los instrumentos que obtenida a través de la evaluación adopta dos se aplican con esa finalidad son las genéricamente deno- modalidades distintas. En primer lugar, son va- minadas pruebas nacionales, que merecen una mirada rios los sistemas nacionales que han elaborado especial por la importancia que han llegado a adquirir. instrumentos tales como cuadernillos de aseso- Las pruebas nacionales presentan bastantes dife- ramiento a los profesores, en los que se ana- rencias de unos países a otros, aunque también ofrecen lizan las respuestas correctas de las pruebas, algunas similitudes. Entre sus elementos comunes, qui- así como los errores más habituales que suelen zás el más destacado sea la preocupación prácticamente producir los estudiantes, y se finaliza ofrecien- universal que demuestran por evaluar el rendimiento al- do sugerencias didácticas más o menos con- canzado en Lenguaje y Matemáticas. No obstante, aun- cretas. En segundo lugar, aunque sea de forma que se trata de dos áreas especialmente atendidas por más esporádica, también se han desarrollado los sistemas de evaluación, no hay que pensar que sean acciones de orientación para instituciones de- los únicos dominios evaluados. En efecto, la medición terminadas, ayudándolas a elaborar sus propios de los logros en ambas áreas suele ir acompañada por planes de mejora, y se han incluido análisis de la evaluación de otras áreas curriculares complementa- los resultados de la evaluación en programas rias (entre las que sobresalen las Ciencias, la Historia o de formación docente. Este tipo de uso, que es las Lenguas extranjeras) o de otras capacidades de tipo menos tradicional que la difusión de informes, transversal, no ligadas necesariamente a áreas especí- está recibiendo una atención creciente por par-
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 1 ficas (como el autoconcepto, algunas estrategias de plausible, plantea dificultades cuando no existen aprendizaje o ciertas actitudes). objetivos explícitos (lo que sucede en muchos ca- Las pruebas nacionales suelen aplicarse preferente- sos), o cuando los objetivos de cada curso o etapa mente en los grados terminales de las principales etapas se formulan de manera poco concreta. Cuando educativas (sobre todo, al final de la enseñanza prima- no se pueden determinar los objetivos de forma ria y de la secundaria). No obstante, también se aplican precisa, resulta sin duda más difícil elaborar las a veces en otros grados que tienen un especial interés pruebas. La segunda dificultad se refiere al tra- desde el punto de vista diagnóstico (por ejemplo, el final tamiento de la diversidad curricular existente de ciertos ciclos), aunque la identificación de tales pun- entre diferentes regiones, distritos o escuelas. La tos focales varíe de unos sistemas educativos a otros. El mayoría de los modelos curriculares aplicados en reciente desarrollo de algunos estudios internacionales América Latina conceden cierto grado de auto- ligados a la edad de los evaluados y no al grado que nomía a las autoridades regionales o distritales o cursan, como es el caso del proyecto PISA de la OCDE, a las propias escuelas para definir el currículo. En aún no ha encontrado traducción directa en los sistemas consecuencia, no resulta sencillo hacer pruebas nacionales de evaluación latinoamericanos, ni es previ- que abarquen todas las enseñanzas efectivamen- sible que lo haga a corto plazo. El interés que despierta te impartidas en todo el sistema educativo. Las la valoración de los logros conseguidos al final de deter- soluciones posibles son dos: elaborar pruebas de minadas etapas supera hoy en la región al que suscita mínimos, lo que implica reducir el campo de eva- la valoración del nivel de formación a ciertas edades. La luación, o elaborar pruebas comunes a partir de participación en aquellos proyectos internacionales pa- un consenso profesional o técnico. Ambas solu- rece satisfacer suficientemente las preguntas que pue- ciones son utilizadas en la región, sin que quepa dan plantearse en este último sentido. conceder prioridad a una de ellas sobre la otra. Dependiendo del propósito que guía a la evaluación, n Un segundo problema tiene que ver con algunas las pruebas se aplican en ocasiones a poblaciones o co- disyuntivas que se plantean en relación con el hortes estudiantiles completas, mientras que en otros diseño y la confección de las pruebas. La primera casos se limitan a muestras representativas de estudian- disyuntiva se refiere al enfoque de las pruebas, tes. La primera decisión permite hacer un uso más sin- que pueden estar centradas en los conocimientos gularizado de los datos obtenidos, tal como comparar el adquiridos por los alumnos o abarcar también el rendimiento de diversas escuelas o estudiantes, mientras desarrollo de actitudes. Las pruebas que miden que la segunda es más adecuada para usos diagnósti- unos y otras no son iguales, ni siquiera plantean cos. Por otra parte, hay países en que las pruebas se apli- las mismas exigencias técnicas, lo que obliga a can cada año, aunque es más frecuente que se adopten decidir su enfoque. Una segunda disyuntiva se ciclos plurianuales, de distinta duración. refiere al carácter de las pruebas, pudiéndose Las pruebas nacionales parecen satisfacer amplia- optar por la elaboración de pruebas referidas a mente a las autoridades educativas, a la vista del uso tan criterios de logro o por la confección de prue- extenso que se hace de ellas. No obstante, en un análisis bas de tipo normativo, adaptadas a una distri- más profundo también presentan insuficiencias y pro- bución de resultados estadísticamente normal. blemas, que requieren una consideración más atenta. La tercera disyuntiva se refiere a la delimitación Tres son las principales insuficiencias de las pruebas de la población sujeta a evaluación, que permite nacionales de logros que han subrayado los especialistas optar por pruebas de aplicación censal (dirigidas (Ravela, 2000). La primera consiste en la existencia de al- a toda la población estudiantil de un determina- gunas debilidades técnicas en los procesos de desarrollo do grado o edad) o de tipo muestral (dirigidas a y validación de los instrumentos de medición. La segun- muestras representativas de población). da se refiere a la insuficiente calidad y capacidad que las pruebas ofrecen para evaluar aprendizajes complejos. La tercera tiene que ver con el insuficiente aprovechamien- to que suele hacerse de la información obtenida. Otro grupo importante de problemas están relacio- Los problemas a los que se ha hecho alusión son de nados con la explicación de los resultados conseguidos. distinto tipo. Para comenzar, habría que señalar algunos La mayoría de los sistemas nacionales de evaluación no relativos al diseño y confección de los instrumentos de suelen contentarse con medir los logros alcanzados por evaluación: los estudiantes, sino que también pretenden explicar por qué se producen tales resultados. Sin embargo, dicho n Un primer problema tiene que ver con el conteni- intento de explicación tropieza con varios problemas y do de las pruebas, asunto que plantea dos tipos dificultades: de dificultades. La primera se refiere a la relación que debe existir entre las pruebas y los objetivos n Un primer problema tiene que ver con el grado educativos. Lo deseable es que las pruebas estén de coherencia realmente existente entre la eva- referidas a los objetivos establecidos en el siste- luación y el currículo. ma educativo, de manera que permitan valorar n Como se señalaba al comienzo del trabajo, el el grado en que se alcanzan las metas previs- desarrollo de los sistemas nacionales de eva- tas. Aunque este planteamiento resulta lógico y
  • 2 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación luación ha ido generalmente asociado a otros infrautilización de los datos y una ineficiencia en procesos de reforma curricular. el uso de los recursos disponibles. n No obstante, esa simultaneidad no ha asegura- n Un último grupo de problemas que plantean las do siempre la existencia de una adecuada cohe- pruebas de logros están relacionados con el uso rencia entre ambos aspectos. En los casos más que se hace de las mismas y con las interpreta- extremos, puede incluso decirse que ambos ciones a que dan pie: procesos se han desarrollado en direcciones di- - Un primer problema tiene que ver con vergentes. Cuanta más importancia se ha con- los distintos tipos de uso que pueden ha- cedido a las pruebas, mayor ha sido su impacto cerse de la información. Los resultados de sobre el desarrollo curricular. la evaluación pueden utilizarse con una fi- n Un segundo problema, menos complejo pero nalidad formativa, orientada al desarrollo no menos influyente, está relacionado con el institucional y profesional de los agentes tipo de interpretación que permiten los diver- implicados, para fomentar la competición, sos modelos de pruebas. Como se señalaba e incluso para impulsar políticas de merca- más arriba, dos son los modelos de pruebas uti- do en el ámbito educativo. Obviamente, las lizados más habitualmente: criteriales y norma- interpretaciones que permiten tales posibi- tivas. Las pruebas de tipo criterial proporcionan lidades son diferentes y persiguen distintos una base sólida para valorar la suficiencia de los efectos. Es necesario señalar que, si bien logros conseguidos, ya que se apoyan en una esos son los extremos de un continuo de definición operativa de los objetivos que deben posibilidades de uso, existen otras opciones alcanzarse. Por el contrario, las pruebas de tipo intermedias en que dichos propósitos pue- normativo exigen alguna operación adicional den combinarse en diferente proporción. para poder valorar la suficiencia de los logros La decisión sobre el tipo de uso que se pre- alcanzados, dado que se refieren a situaciones tende hacer de los datos de la evaluación de normalidad estadística. La existencia de es- condiciona en buena medida el diseño de tos dos modelos alternativos obliga a conside- la evaluación. rar cuidadosamente qué usos se quieren hacer - Un segundo problema tiene que ver con de las pruebas, antes de decidir el que conviene la existencia de diversas posibilidades de aplicar. comparación (con una norma o criterio, n Un tercer problema se refiere a las dificultades con otras realidades semejantes, consigo conceptuales y técnicas que se plantean a la mismo a lo largo del tiempo), cada una de hora de buscar explicaciones. Por una parte, las cuales plantea sus propias exigencias y hay que reconocer la debilidad teórica de los ofrece diferentes posibilidades. El uso de la modelos habituales de producción educativa, comparación plantea un problema compli- que en buena parte deriva del problema que cado, que tiene que ver con la justicia de la plantea la causalidad en educación. Esa de- comparación. El intento de dar respuesta a bilidad influye en la selección de los factores esa cuestión ha impulsado el desarrollo de que se consideran asociados al rendimiento, técnicas de cálculo del denominado valor pocos de los cuales cuentan con confirmación añadido. empírica sólida (Scheerens, 1996). Además, la - Un tercer problema consiste en el excesivo explicación de los resultados se ha basado tra- reduccionismo en que a veces se cae cuan- dicionalmente en la distinción de dos tipos de do se pretende interpretar los resultados variables, unas extrínsecas y otras intrínsecas. de la evaluación. Ese defecto puede venir Mientras que las primeras (nivel socioeconómi- originado por una excesiva limitación del co y cultural, recursos destinados a la educa- contenido de las pruebas, que no permite ción) han sido objeto de análisis abundantes, llegar a conclusiones razonables sobre el lo- las segundas (organización del sistema educa- gro de los objetivos propuestos, o por una tivo, procesos institucionales, procesos de aula) interpretación poco rigurosa de los datos, vienen resultando menos concluyentes y aún que puede incluso llegar a distorsionar las requieren investigaciones adicionales. interpretaciones. n Un cuarto problema tiene que ver con la volun- tad que a veces existe de buscar muchas vías de A la vista del análisis que acaba de hacerse de las prue- explicación de los resultados obtenidos, que pue- bas nacionales de logros, se llega a la conclusión de que de traducirse en un exceso de datos recogidos. constituyen la práctica de evaluación más habitual en la re- Cuando ese exceso de datos va unido, como ocu- gión, encontrándose bastante asentadas en la actualidad. rre en ocasiones, con una insuficiente delimita- No obstante, como se ha puesto de manifiesto, presentan ción conceptual de las variables seleccionadas y algunas deficiencias y problemas que deberán solventarse con limitaciones en el análisis estadístico de los en el futuro, si se quiere asegurar su credibilidad y se pre- datos, la situación puede llegar a resultar inma- tende que contribuyan a mejorar la educación. nejable. La consecuencia suele ser una evidente
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo  Algunas reflexiones finales Bibliografía: Si bien es cierto que las pruebas nacionales de lo- - Braslavsky, C. (2001): Educación secundaria: ¿cam- gros constituyen la práctica más habitual de evaluación bio o inmutabilidad?, Buenos Aires, Santillana. educativa en América Latina, no es la única que se desa- rrolla en la actualidad. Como se indicaba en las primeras - Comisión Internacional sobre Educación, Equidad y páginas del trabajo, existen otros tres ámbitos que son Competitividad Económica en América Latina y el también objeto de evaluación. El primero corresponde Caribe (2001): Quedándonos atrás. Un informe del a los programas y las políticas de educación, que des- progreso educativo en América Latina, Santiago de piertan especial interés en el actual contexto de revisión Chile, PREAL. de las reformas educativas puestas en marcha durante - Gajardo, M. (1999): Reformas educativas en Amé- los años ‘90. En sus formas más elaboradas ha servido rica Latina. Balance de una década, Santiago de para diseñar mecanismos de seguimiento de los proce- Chile, PREAL (documento de trabajo nº 15). sos de cambio, aunque se trata de una práctica esca- samente implantada. El segundo ámbito corresponde - Ravela, P., ed. (2000): Los próximos pasos: ¿Hacia a las instituciones educativas, para cuya evaluación se dónde y cómo avanzar en la evaluación de apren- han diseñado y aplicado algunos modelos, tradicionales dizajes en América Latina?, Santiago de Chile, o innovadores, aunque sin que pueda decirse que esta PREAL. tendencia haya alcanzado todavía suficiente desarrollo. - Ravela, P. (2001): ¿Cómo presentan sus resultados El avance más importante que se ha logrado en este sen- los sistemas nacionales de evaluación educativa en tido consiste en la expansión de una conciencia nueva América Latina?, Santiago de Chile, PREAL. acerca del valor que tiene la evaluación institucional con vistas a la mejora de la calidad de la educación. El tercer - Scheerens, J. (1996): “Can the School Effecti- ámbito, y al mismo tiempo el más controvertido, corres- veness Knowledge Base Guide School Manage- ponde al desempeño docente. Aunque en algunos paí- ment?” en II International Conference on School ses se han desarrollado mecanismos de valoración de la Management. Participative Management and tarea docente que están conectados con la medición del School Evaluation, Bilbao, Universidad de Deusto, rendimiento de los estudiantes, no existen todavía expe- pp. 98-119. riencias suficientes ni de larga tradición en este sentido. - Tiana, A. (1996): “La evaluación de los sistemas Las experiencias que han explorado otras direcciones educativos”, Revista Iberoamericana de Educación, son aún más escasas. nº 10, 1996, pp. 37-61. En conjunto, puede afirmarse que estos otros tres ámbitos abarcados por la evaluación educativa están ac- - Tiana, A. (2000): Cooperación internacional en tualmente infra-desarrollados en relación con las prue- evaluación de la educación en América Latina y el bas de rendimiento. Hay que subrayar, no obstante, que Caribe. Análisis de la situación y propuestas de ac- la evaluación de tales aspectos puede contribuir nota- tuación, Washington, BID – Departamento de De- blemente a la mejora de la calidad de la educación. Pre- sarrollo Sostenible. cisamente de esa potencialidad procede el interés que - Winkler, D. y Gershberg, A.I. (2000): Los efectos de despiertan en muchos países de la región. la descentralización del sistema educacional sobre Como conclusión final, cabe afirmar que la evaluación la calidad de la educación en América Latina, Santia- es una realidad integrada que cuenta con varios compo- go de Chile, PREAL (documento de trabajo, nº 17). nentes: estudios internacionales de evaluación, estudios diagnósticos nacionales del rendimiento, evaluación de las instituciones educativas y otras evaluaciones complemen- tarias de diversos aspectos de la actividad educativa (pre- paración y desempeño de los docentes, impacto de las po- líticas aplicadas, funcionamiento de algunos programas re levantes). Aunque no todos ellos se han desarrollado con la misma energía, los sistemas nacionales de evaluación no deberían infravalorar la importancia de concebirlos de for- ma integrada, de manera que las acciones emprendidas se refuercen mutuamente. El colofón a estas reflexiones que provoca la mirada a los sistemas nacionales de evaluación educativa con- sistiría en que la evaluación debe considerarse como un instrumento para la mejora de la calidad de la educación y no como una panacea capaz de solucionar todos los problemas que la educación plantea. Otra consideración diferente de ésta no puede sino conducir a algunos erro- res de cierta importancia.
  • 4 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 5 “Las evaluaciones educativas que América Latina necesita” Presentación a los propósitos, una orientación fuerte a apoyar a los docentes en su tarea y una voluntad política manifiesta Este documento aborda la importancia, propósitos y de encarar acciones dirigidas a resolver los problemas y usos de las evaluaciones estandarizadas a gran escala de deficiencias que la evaluación ponga de manifiesto. aprendizajes y/o logros educativos en América Latina y Asimismo, requiere de una inversión importante el Caribe, básicamente en los niveles primario y medio. para construir una unidad técnica competente y un plan Está dirigido a quienes formulan políticas educativas, do- de largo plazo, lo cual lleva tiempo y no puede ser im- centes, académicos, empresarios, sindicatos, organiza- provisado ciones sociales, agencias de financiamiento y medios de prensa, con el fin de aportar al debate y decisiones sobre la evaluación estandarizada en los sistemas educativos. Se entiende por evaluación estandarizada en gran I. ¿Por qué son importantes las evaluacio- escala a aquella que permite producir información com- nes nacionales de logros educativos? parable acerca de los desempeños de estudiantes perte- necientes a distintos contextos culturales y regionales e, La realización de evaluaciones estandarizadas como incluso, a distintos países, y que ofrece un panorama de forma de conocer mejor la dinámica de procesos y re- la situación de un país o de un estado o provincia, aun sultados en los sistemas educativos es cada vez más cuando ello se haga a veces a través de una muestra no frecuente a nivel regional y mundial, en países de muy demasiado grande (por ejemplo, 5.000 estudiantes) . diversas culturas y orientaciones ideológicas de gobier- El documento se centra en evaluaciones de aprendi- no. Prueba de ello es la creciente participación de los zaje –definido como el cambio ocurrido en los conoci- países en las evaluaciones internacionales como PISA, mientos y capacidades de cada estudiante a lo largo del TIMSS y PIRLS, y regionales como SERCE (en América año lectivo y/o de logro educativo, entendido como la Latina) y SACMEQ (en África), así como el desarrollo de acumulación de conocimientos y capacidades a lo largo diferentes tipos de sistemas nacionales y subnacionales de toda la vida del estudiante. No se pretende orientar de evaluación. aquí acerca de otros aspectos también importantes de la En algunos casos, la evaluación está motivada por evaluación del quehacer educativo, como son las evalua- una preocupación por la formación ciudadana y la con- ciones del desempeño docente, de las políticas educati- solidación de una sociedad democrática; en otros, por la vas, de los centros educativos o aquellas que realizan los productividad de la fuerza de trabajo y la competitividad docentes en las aulas, entre otras. Tampoco se pretende de la economía nacional, por las oportunidades para el incursionar en la evaluación en el nivel terciario ni en las desarrollo integral de las personas y sus posibilidades de pruebas de selección para el mismo. participación en la sociedad del conocimiento, o por la Los contenidos de esta publicación ayudarán a quie- equidad y la visión de la educación como uno de los nes toman decisiones de política educativa a compren- caminos para superar la pobreza. Muchos sistemas de der y analizar las diversas opciones existentes en cuanto evaluación parten de una combinación de los intereses a los propósitos y usos de los sistemas de evaluación y anteriores. En casi todos los casos se asume que la eva- las implicancias de cada una de ellas, de modo de orien- luación puede servir: tarlos en cómo concebir una estrategia de evaluación. Es preciso evitar el simplismo y la ingenuidad con – como base para adoptar políticas educativas me- que muchos piensan en la evaluación, lo que genera sis- jor fundamentadas; temas mal concebidos y deficientemente implementados y, como consecuencia de ello, efectos perversos para el – para mejorar la gestión de los sistemas educativos; sistema educativo, malgasto de recursos y descrédito de la evaluación externa entre los docentes. Por el con- – como instrumento para la colaboración y el trario, se debe reconocer la gran variedad de aspectos aprendizaje continuo al interior de los mismos. que deben considerarse al momento de implementar un sistema de evaluación o reformar uno existente. Para A continuación se destacan los aportes principales que la inversión en evaluación valga la pena, debe te- de este tipo de evaluaciones. ner propósitos claros, una filosofía orientada a construir una visión de responsabilidad compartida en relación a la educación, un diseño técnico de calidad y adecuado
  • 6 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación la evaluación estandarizada ayuda a visualizar los re- – cuál es el grado de equidad o inequidad en el sultados educativos del conjunto de estudiantes logro de dichos aprendizajes; La educación es una actividad “opaca”, en el sentido – cómo evolucionan a lo largo de los años, tanto de que sus resultados no son directa ni inmediatamente los niveles de logro como la equidad en el acceso observables. Un buen docente puede apreciar si sus es- al conocimiento por parte de los diversos grupos tudiantes están aprendiendo o no y cómo, pero no todos sociales; los docentes tienen los mismos criterios de valoración, los cuales están fuertemente vinculados a su experiencia – en qué medida y cómo las desigualdades sociales profesional: su formación general y específica, su cono- y culturales inciden sobre las oportunidades de cimiento de la disciplina que enseña, su capacidad para aprendizajes de los estudiantes; percibir los procesos y dificultades de los estudiantes, su familiarización con diversos tipos de alumnos, etc. Dada – cuál es la diversidad de prácticas educativas exis- la heterogeneidad del cuerpo docente de un país, no es tentes en escuelas y maestros y cómo las mismas posible obtener una visión de la situación del conjunto se relacionan con los aprendizajes de los estu- por la mera agregación de los puntos de vista individua- diantes en diversos contextos sociales; les. La evaluación estandarizada apunta a lograrlo. – cómo influyen las condiciones de la enseñanza (situación de los maestros, recursos disponibles, las evaluaciones entregan información sobre el tiempos de estudio, etc.) en los progresos de los real acceso al conocimiento y a las capacidades que alumnos; alcanzan los alumnos, más allá de la cantidad de años de estudio que tengan – qué efecto tienen en los logros educativos las in- versiones en programas educativos, los cambios En décadas pasadas, la equivalencia entre perma- en la estructura del sistema, los cambios curricu- nencia en el sistema educativo y acceso al conocimiento lares, los programas de formación, la adquisición y a las capacidades simbólicas se daba por descontada de material educativo, etc. y los indicadores para valorar a los sistemas educativos estaban relacionados con el acceso (matrícula, cobertu- ra, retención, etc.). En esos tiempos, las mayorías más un sistema de evaluación de aprendizajes y/o lo- pobres y con menor capital cultural no accedían al sis- gros educativos puede aportar información impor- tema educativo o apenas cursaban unos pocos años de tante a diversos actores sociales educación básica. Con la progresiva universalización del acceso al sistema educativo, hoy muchos estudiantes En la medida que el sistema produzca y comunique procedentes de los sectores sociales más desfavorecidos adecuadamente información sobre los aspectos antes llegan en desventaja en términos de manejo del lengua- indicados, puede ser un instrumento clave de mejora, je oral (oficial) y escrito, con lo cual la equivalencia entre enriqueciendo la comprensión de la situación educativa años de estudio y acceso al conocimiento y a las capa- y la toma de decisiones en diversos ámbitos: cidades ya no es tal. Por otra parte, el crecimiento del acceso a la profesión docente no fue acompañado por – Las autoridades y los encargados de formular garantías de calidad en su formación, lo cual también políticas educativas pueden comprender mejor cuestiona la mencionada equivalencia. los problemas de la enseñanza y del aprendizaje; Así, más años en el sistema educativo no necesaria- hacerse cargo de las carencias en que se desa- mente significa que todos los niños y jóvenes estén in- rrolla la labor docente y desarrollar políticas per- corporando los conocimientos, actitudes y capacidades tinentes para apoyar el trabajo de las escuelas. necesarias para la vida personal y social, los que son cada Las evaluaciones también les permiten valorar, vez más sofisticados y complejos. Las evaluaciones bus- sobre una base de evidencia empírica sólida, el can dar luces sobre lo que está ocurriendo al respecto. impacto de las políticas y programas que han impulsado y los probables efectos de las que se proponen impulsar. las evaluaciones estandarizadas ayudan a hacer vi- sibles un conjunto de aspectos centrales de la labor – Los directivos y docentes pueden, a partir de una educativa mirada externa sobre los logros educativos en el conjunto del sistema, comprender mejor lo que Entre otras cosas, las evaluaciones estandarizadas están logrando y lo que no están logrando sus aportan información sobre: propios estudiantes, cómo están aprendiendo y qué dificultades tienen. Pueden aprender de las – en qué medida los alumnos están aprendiendo lo experiencias de otros docentes y escuelas que que se espera de ellos al finalizar ciertos grados o trabajan con estudiantes de características tanto niveles; similares como diferentes a los propios. Pueden tomar decisiones más apropiadas acerca de qué
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 7 aspectos del currículo enfatizar y enriquecer sus Al desarrollar estos sistemas nacionales de evaluación, propios modos de evaluar el aprendizaje de sus es necesario explicitar tanto el rol que estos cumplen estudiantes. así como las funciones que no cumplen y cuáles son sus limitaciones, para evitar así los riesgos de mala inter- – Los supervisores y encargados de la formación pretación respecto a lo que son y la información que de docentes pueden apoyarse en la información recogen y difunden. sobre los logros y dificultades educativas en el conjunto del sistema para estudiar en profundi- dad las debilidades en el enfoque o en la prácti- – una evaluación estandarizada aporta infor- ca de la enseñanza que probablemente generan mación fundamental e indispensable sobre algunas de las insuficiencias constatadas en los la “calidad educativa”, aunque no sea un in- aprendizajes. Desde esa nueva perspectiva, pue- dicador completo de la misma. den mejorar su labor tanto de orientación a los docentes como de formación de los mismos. En No todos los objetivos valiosos de la educación están particular, los supervisores pueden beneficiarse incluidos en este tipo de evaluaciones. Hay una gran de contar, como instrumento de apoyo para su cantidad de saberes, actitudes, valores y aprendizajes labor, con un mapa de las escuelas que las carac- relevantes que no pueden –por la dificultad de medirlos terice tanto en términos de la composición so- de esta manera – o no deben – porque son propios de ciocultural de su alumnado como de sus logros cada entorno local y, por tanto, no son exigibles a todos educativos. los estudiantes del país – formar parte de una evalua- ción estandarizada. – Los padres y madres de estudiantes, adecuada- mente informados, pueden comprender mejor qué se espera que sus hijos aprendan, qué es – la evaluación estandarizada de aprendiza- lo que están logrando y qué pueden hacer para jes y/o logros educativos es un componente colaborar con la escuela y con el aprendizaje de esencial de un sistema integral de evalua- sus hijos. ción educativa, pero no es el único tipo de evaluación relevante. – La ciudadanía en general estará mejor informa- da sobre lo que acontece al interior del sistema También tienen importancia la evaluación realizada en el educativo y, por tanto, estará más atenta a los aula por los docentes, la evaluación del desempeño do- temas y problemas de la educación. Estará, ade- cente, la evaluación de los centros educativos, la evalua- más, en mejores condiciones para exigir, tanto a ción de las políticas educativas, la evaluación del uso de los los poderes públicos como a los profesionales de recursos, la evaluación de la relevancia del currículo, etc. la docencia, la mejora continua de la educación que se brinda a los niños, niñas y jóvenes, y el uso responsable de los recursos que se destinan – la evaluación es condición necesaria, pero a la educación. no suficiente, para mejorar la educación. Si bien existe alguna evidencia de que la mera existen- el desarrollo de un sistema nacional de evaluación cia y difusión de información tiene algún impacto sobre estandarizada puede obligar a realizar una discu- ciertos actores, es necesario recordar que la evaluación sión informada sobre qué aspectos del currículo es apenas uno de varios elementos clave de la política formal son exigibles a todos los estudiantes y a educativa que debe procurarse estén adecuadamente definir con claridad qué es lo que todos los estu- alineados: la formación docente inicial y en servicio, la diantes deberían haber aprendido al final de cada carrera y condiciones para el trabajo docente, la ges- ciclo educativo. tión escolar, la supervisión, los diseños curriculares, los libros y materiales educativos, una inversión de recursos La mayoría de los currículos en la región están cons- proporcional a las necesidades de las diversas poblacio- tituidos por largas listas de objetivos y temas, todos nes y una acción decidida por parte de los responsables deseables pero no todos realizables. La elaboración de educativos para resolver los problemas detectados, en- pruebas nacionales obliga a definir qué es lo que debe tre otros. ser considerado como fundamental y, por tanto, lo que todos los estudiantes deben saber y ser capaces de hacer. Se pueden usar distintos términos para designar a estas – la evaluación estandarizada externa solo definiciones: estándares, competencias fundamentales, tendrá efectos positivos sobre la educación indicadores de logro, niveles de desempeño, metas de si es concebida, percibida y empleada como aprendizaje, criterios de suficiencia, entre otros. un mecanismo de responsabilización pública de todos los actores vinculados al quehacer educativo. Para no confundir…
  • 8 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación Existe siempre el riesgo de que la política educati- Iberoamericano de PISA, integrado por Argenti- va se concentre en la implementación de evaluaciones, na, Brasil, Chile, Colombia, España, México, Por- pero que luego no se tomen acciones concretas para tugal y Uruguay. enfrentar y resolver los problemas que las mismas ponen de manifiesto. Muchas veces las autoridades se limitan a informar de los resultados y transferir toda la respon- las evaluaciones a gran escala en la región no solo sabilidad por la solución de los problemas detectados a son más frecuentes sino también están mejorando las escuelas y familias. Otras veces, toda la responsabi- lidad se atribuye a los docentes, quienes, por su parte, Los principales cambios y mejoras que se observan tienden a transferir toda la responsabilidad a los padres en los últimos años incluyen: o al contexto. Lo importante es evitar ingresar en una dinámica de culpabilización y, por el contrario, intentar – Mayor transparencia en la difusión de los resul- construir una lógica de responsabilidad compartida en tados. Parece haberse superado la etapa en que torno a la educación. las autoridades en varios países interferían en la divulgación de los resultados de las evaluaciones cuando estos no les parecían favorables. II. La situación de la evaluación estandari- – Tendencia creciente a pasar de pruebas norma- zada en América Latina tivas –que tienen como propósito principal or- denar comparativamente a los estudiantes – a Los sistemas nacionales de evaluación estandarizada pruebas de criterios, que se enfocan en qué es se desarrollaron con fuerza en toda la región durante lo que los estudiantes saben y son capaces de los años 90. Algunos países han mantenido sus siste- hacer. Asimismo, crecientemente se incluye en mas en funcionamiento con continuidad, aun cuando se las pruebas de criterios una definición de cuál es produjeran cambios de enfoque o variaciones en la insti- el resultado que todos los estudiantes deberían tucionalidad de los mismos. Otros países han tenido im- alcanzar para que su desempeño pueda ser con- portantes discontinuidades y han tenido que comenzar siderado satisfactorio. prácticamente desde cero en repetidas oportunidades o tendrán que hacerlo en el futuro próximo. – Mejoría de las capacidades técnico-metodoló- gicas para la construcción de pruebas y para el Además de ello, actualmente: procesamiento de los datos. Existen esfuerzos por desarrollar pruebas que evalúen un rango – Dieciséis países están participando en el Segun- de conocimientos y capacidades más amplio y do Estudio Regional en º y 6º de primaria que que incluyan preguntas de respuesta construida. lleva adelante la OREALC/UNESCO: Argentina, Se han ido incorporando también metodologías Brasil, Chile, Colombia, Costa Rica, Cuba, Ecua- más sofisticadas para el tratamiento de datos, dor, El Salvador, Guatemala, México, Nicaragua, como la Teoría de Respuesta al Ítem y el Análisis Panamá, Paraguay, Perú, República Dominicana Multinivel. y Uruguay. – Creciente atención a la difusión y uso de los re- – Seis de estos países participan en PISA 2006 y sultados. Se ha ido comprendiendo que no basta otros tres se incorporarían al ciclo PISA 2009. con implementar una evaluación y publicar un informe, sino que es necesario desarrollar una – Algunos países de la región han participado ade- estrategia de divulgación y un conjunto de re- más (o lo están haciendo) en los estudios de portes apropiados a cada una de las audiencias a Matemática y Ciencias (TIMSS), Lectura (PIRLS) y las que se quiere llegar. Las Unidades de Evalua- Educación Cívica que lleva adelante la Internatio- ción tienen una mayor conciencia acerca de los nal Association for the Evaluation of Educational usos apropiados e inapropiados para cada tipo Achievement (IEA). de evaluación, aunque esto muchas veces no está suficientemente claro entre quienes toman – Durante los últimos 12 años ha estado activa en decisiones de política. la región la red de los sistemas de evaluación or- ganizada en torno al Laboratorio Latinoamerica- – Mayor preocupación por la investigación de los no de Evaluación de la Calidad de la Educación factores que inciden sobre los aprendizajes. Si (LLECE) de OREALC/ UNESCO, en la que parti- bien falta mucho por hacer en términos meto- cipan actualmente casi todos los países latinoa- dológicos e interpretativos para producir buenos mericanos. Esta red se reúne dos veces al año y trabajos de investigación, en la mayoría de los es un espacio de intercambio de experiencias y países hay conciencia de que es preciso avanzar formación en el ámbito de la evaluación. en la investigación y en la construcción de hipó- tesis sobre cómo las dinámicas de la gestión de – Más recientemente se ha constituido el Grupo los sistemas educativos, los procesos escolares,
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 9 las prácticas de enseñanza y las decisiones de dinales, estudios de “valor agregado” y estudios política educativa influyen en las oportunidades cualitativos, entre otros. de aprendizaje de los niños y niñas. – Los Ministerios de Educación han tenido, por – Creciente participación de los países en evalua- lo general, una limitada capacidad para conce- ciones internacionales. Esto ha tenido conse- bir, formular e implementar políticas que den cuencias positivas en las Unidades de Evaluación respuesta a los problemas identificados en las y en la calidad de su trabajo: ha contribuido a la evaluaciones. Falta para ello mayor articulación construcción y acumulación de capacidad técni- entre las Unidades de Evaluación y otros acto- ca en evaluación, ha facilitado el intercambio y res educativos relevantes, dentro y fuera de los el desarrollo de un lenguaje común entre países Ministerios de Educación, y mayor articulación y ha ayudado a mejorar la calidad de diversos entre la evaluación, el desarrollo curricular, la procesos técnicos (elaboración de pruebas, in- formación inicial y el desarrollo profesional de corporación de preguntas de respuesta abierta, los docentes. muestreo, control de las aplicaciones, análisis de datos, modos de difusión, entre otros). – Las acciones para la divulgación y uso de los re- sultados de las evaluaciones aún son insuficien- tes, en particular para lograr que los docentes los las principales debilidades presentes en los sistemas comprendan y utilicen y para que los resultados de evaluación estandarizada en la región se obser- se incorporen a la cultura escolar. van en la estrategia de difusión, en el uso de los re- sultados y en la calidad técnica de las evaluaciones. – En la mayoría de los países perdura la práctica de divulgar resultados de tipos de escuela, escuelas A pesar de las mejoras previamente mencionadas, individuales, estados o provincias, sin una ade- persiste un conjunto importante de debilidades que es cuada consideración de los contextos sociocultu- preciso abordar: rales en que operan las instituciones y subsiste- mas educativos. Esto conduce a interpretaciones – Es frecuente que desde el nivel político se de- y conclusiones erróneas sobre la eficacia educa- mande la implementación de grandes operativos tiva de dichas instituciones o subsistemas. Para de evaluación sin propósitos claramente defini- ello es necesario realizar evaluaciones de “valor dos y en tiempos y con recursos absolutamente agregado”, que implican dos mediciones sobre insuficientes para hacerlo técnicamente bien. una misma población en distintos momentos. Sobre este aspecto la experiencia en la región es – Aún no se tiene claro que no cualquier evalua- mínima. ción sirve para cualquier propósito y que es ne- cesario diseñar cuidadosamente el sistema de – En muchos países persisten importantes debili- evaluación para el largo plazo, en función de dades técnicas en el diseño de las evaluaciones: propósitos y usos claramente establecidos. Esto excesiva simplicidad de la mayor parte de las pre- es determinante para las decisiones relativas a la guntas y dificultad para elaborar preguntas que utilización de censos o muestras, a los grados y permitan evaluar capacidades cognitivas comple- disciplinas que serán evaluados, la periodicidad jas; focalización de las evaluaciones en los logros de las evaluaciones, el tipo de pruebas y escalas educativos correspondientes a un grado específi- de reporte, entre otros. co, lo que impide saber qué han aprendido quie- nes aún no logran lo esperado para dicho grado; – Falta una mayor discusión pública sobre qué debe deficiencias en la conformación de las muestras ser evaluado y qué aspectos del currículo deben y en la forma de estimar y reportar los errores de haber sido enseñados a todos los estudiantes al medición; y debilidades para establecer medicio- concluir determinados niveles educativos. Como nes que sean comparables en el tiempo. resultado de ello, las metas y/o estándares de aprendizaje no son claros. Mientras no exista – No hay suficientes profesionales calificados para claridad al respecto, tampoco existirá claridad ni diseñar y conducir este tipo de evaluaciones, lo para la enseñanza ni para la evaluación. Esta ta- que se agrava por la falta de continuidad de los rea requiere de un amplio debate social y de un equipos técnicos de los países, muchas veces por trabajo técnico coordinado entre las unidades de razones de índole político-partidaria. Esto dificul- currículo y de evaluación. ta la acumulación de conocimiento y experiencia en la región y ha dado lugar a que muchos países – Para mejorar la investigación sobre los factores tengan que comenzar desde “cero” con sus sis- que explican los resultados, falta mejorar mucho temas de evaluación, algunos años después de los instrumentos complementarios que se apli- haber tenido uno en funcionamiento y haberlo can junto con las pruebas y concebir diseños de desmantelado. investigación más ambiciosos: estudios longitu-
  • 40 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación El riesgo de las malas evaluaciones participación en pruebas internacionales Solo una evaluación técnicamente buena y cuyos Las pruebas nacionales pueden ofrecer una mirada resultados sean conocidos y utilizados de manera apro- más apropiada acerca de qué aprenden los estudiantes piada, puede tener algún impacto en la mejora de los de aquello que se les está enseñando, mientras que las aprendizajes. Como es obvio, una evaluación cuyos re- pruebas internacionales pueden servir para ubicar la si- sultados son poco conocidos y utilizados supone un ejer- tuación del país en relación a lo que saben y son capaces cicio estéril y un desperdicio de recursos. de hacer los estudiantes en otras sociedades y enrique- cer el debate sobre el currículo nacional y el enfoque Más graves aún son aquellas situaciones en que eva- de la enseñanza. Los países deberían analizar cuidado- luaciones técnicamente malas son ampliamente difundi- samente en qué pruebas internacionales participar, te- das o en que las evaluaciones son empleadas para fines niendo en cuenta lo que cada una pretende evaluar y su diferentes de aquellos para los cuales fueron concebidas pertinencia en relación a los objetivos nacionales. Parece y diseñadas, lo cual puede tener efectos dañinos para el recomendable participar periódicamente en al menos sistema educativo. El razonamiento según el cual lo que una evaluación regional o internacional, en el marco de importa es evaluar y difundir resultados como mecanis- la política de prioridades que cada país defina. mo de rendición de cuentas, sin importar la calidad de la evaluación, es una falacia que puede hacer retroceder los sistemas de evaluación e imposibilitar una discusión Evaluaciones para la certificación de los seria de las ventajas y desventajas de la rendición de aprendizajes de los estudiantes cuentas o responsabilización por los resultados. un sistema de evaluación para certificar los apren- dizajes de los estudiantes a través de exámenes III. Los propósitos y los usos de los resulta- nacionales de alta calidad técnica tiene ventajas dos de las evaluaciones estandarizadas asociadas a la transparencia y responsabilidad por los resultados. Sea en la implementación de un sistema de evalua- ción o en su reforma, es necesario considerar algunas Hoy es común que dos estudiantes que han aproba- opciones básicas de acuerdo a lo que se espera de él. do un mismo nivel educativo en dos regiones distintas de un país, posean en realidad niveles de conocimiento muy diferentes. Los sistemas de evaluación para la certifi- el primer paso es definir cuál será el propósito del cación dan transparencia al valor de los certificados edu- sistema de evaluación y para qué se usarán sus re- cativos ante la sociedad. Además, dichos sistemas hacen sultados responsables tanto a los docentes como a los propios es- tudiantes por alcanzar los conocimientos y capacidades Es preciso considerar diversas opciones, que no son que evalúa el examen, lo cual tiene impactos positivos necesariamente excluyentes. Un sistema puede combi- sobre el aprendizaje. En todo caso, la evaluación externa nar varias de ellas, pero es importante tener conciencia con propósitos de certificación es más apropiada para de que cada opción requiere de un determinado dise- los ciclos superiores del sistema educativo, sobre todo ño y tiene exigencias técnicas y de costos diferentes. Se hacia el final de la educación media. debe analizar si el sistema nacional de evaluación será: un sistema de evaluación para la certificación im- – de carácter diagnóstico (para alumnos, escuelas plica algunos requerimientos que son costosos o sistema educativo), sin consecuencias directas para los estudiantes, cuya finalidad principal es Por una parte, las pruebas deben ser de carácter cen- enriquecer con información de calidad las per- sal y cada estudiante debe tener más de una oportuni- cepciones, decisiones y acciones de diversos acto- dad para rendirla, lo cual requiere implementar varios res del sistema –autoridades y cuerpos técnicos, operativos de evaluación cada año. Por otra parte, las supervisores, directivos, docentes, estudiantes pruebas deben tener una amplia cobertura curricular, y sus familias – para mejorar la enseñanza y el lo cual requiere que sean extensas, en lo posible con aprendizaje. preguntas de respuesta construida (que tienen un im- portante costo de codificación) y deben abarcar varias – de certificación de los logros educativos de los asignaturas o disciplinas. estudiantes, cuyo propósito central es estable- cer quiénes han alcanzado los conocimientos y un sistema de evaluación para la certificación pue- desempeños necesarios para aprobar un curso o de generar tensiones importantes que es necesario nivel y, en consecuencia, aprueba o reprueba. anticipar Es necesario también establecer un adecuado balan- Si las pruebas son exigentes, ello puede conducir a ni- ce entre la implementación de pruebas nacionales y la veles de reprobación muy altos, que afectarían principal- mente a los sectores sociales más vulnerables y podrían
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 41 agudizar problemas como la deserción y el desempleo expectativa exigentes sin que ello produzca un fracaso juvenil, lo cual las haría insostenibles desde el punto de generalizado. Asimismo, ayudan a construir una cultu- vista social y político. Por ello, es preciso acompañar este ra de la evaluación y a acumular capacidad técnica, de tipo de evaluaciones (en realidad todo tipo de evaluacio- modo que, cuando se analice la posibilidad de establecer nes, pero estas en particular) con acciones pedagógicas un sistema con consecuencias, existan las condiciones de carácter complementario y compensatorio. Proponer para hacerlo apropiadamente. Una de las alternativas a estándares altos implica asumir responsabilidad sisté- considerar entre los usos de carácter formativo es la de mica por proporcionar todas las oportunidades para “liberar” una prueba completa para que sea aplicada en aprender: textos, materiales, instalaciones y preparación forma autónoma por parte de los maestros, con el fin de maestros, entre otros. Existen diversos caminos para de ayudarles a identificar dificultades de alumnos indi- enfrentar este problema: viduales y de enriquecer su repertorio de instrumentos de evaluación. – Establecer que la evaluación estandarizada cons- tituya solo una parte del proceso de certificación el principal problema de estas evaluaciones es que de aprendizajes de los estudiantes (por ejemplo, pueden carecer de impacto si no se toman algunas el 40% de su calificación final). El resto de la nota acciones complementarias correspondería a las evaluaciones que realizan los docentes a cargo de los estudiantes. Si bien Las evaluaciones de carácter diagnóstico y formativo en este caso se mantiene el problema respecto pueden resultar intrascendentes si no van acompañadas a la heterogeneidad de los criterios de evalua- de una estrategia precisa y de una inversión importante ción empleados por los docentes, es una forma para asegurar la divulgación de los resultados y su uso de combinar la evaluación externa y la interna, en acciones educativas posteriores, puesto que su efec- e incluso de aportar a los docentes una mirada tividad se juega en que los diferentes actores reciban, externa que les permita reflexionar sobre sus pro- comprendan y utilicen los resultados. pios criterios. Por esto hay que tener presente que: – Establecer un período de transición hacia están- dares únicos y universalmente aplicables. Duran- – Para que los resultados de este tipo de evalua- te dicho período, el foco principal se centra en ciones tengan impacto sobre las políticas educa- la mejoría o progreso de los estudiantes de cada tivas, se debe invertir tiempo en el análisis y dis- escuela respecto a su situación anterior, y no úni- cusión de los mismos por parte de diversas áreas camente en el cumplimiento del estándar absolu- del Ministerio de Educación y otros actores rele- to de certificación. vantes, en la comprensión de los problemas y de- ficiencias que los resultados ponen de manifies- La peor respuesta que podría darse a este problema to y en la concepción de acciones e inversiones sería establecer un porcentaje fijo de reprobación, por apropiadas para hacerles frente. Las autoridades ejemplo, no debe reprobar más del 10% de los estudian- deben estar dispuestas a someter sus políticas y tes. Ello implica utilizar pruebas más fáciles y, por lo tan- decisiones al escrutinio de la ciudadanía, para lo to, enviar a estudiantes, familias y educadores una señal cual es necesario también invertir en la comuni- equivocada respecto a las expectativas de aprendizaje. cación apropiada y permanente de los resultados a la opinión pública. evaluaCiones De CaráCter DiaGnÓstiCo Y – Para que los resultados tengan impacto sobre las ForMativo prácticas de enseñanza, es imprescindible asimis- mo invertir tiempo en el análisis e interpretación un sistema de evaluación de tipo formativo y sin de sus implicancias didácticas: si los estudiantes consecuencias directas para los estudiantes tiene no son capaces de resolver cierto tipo de situa- ventajas en términos de costos, posibilidades de ciones, ¿qué es lo que se está haciendo de ma- diseño y de establecimiento de estándares altos, y nera insuficiente o inapropiada en las aulas y qué aporte a una cultura de evaluación es lo que se debería hacer? Este tipo de análisis debe ser realizado tanto por especialistas en la Los costos de aplicación de estas pruebas pueden ser didáctica de las áreas evaluadas como por los menores, dado que pueden hacerse en base a muestras docentes, creando para este último efecto es- y aplicarse solo en algunos grados claves y cada cier- pacios permanentes y sistemáticos de formación to número de años. Por otra parte, las pruebas pueden en servicio y de trabajo colectivo al interior de diseñarse con carácter matricial, en que no todos los las escuelas. Es muy importante que los maes- estudiantes responden a las mismas preguntas, sino a tros puedan analizar la mayor cantidad posible bloques de las mismas, lo cual permite trabajar con una de ítems para poder identificar cuáles revelan un cantidad muy grande de preguntas y obtener un análi- bloqueo importante para el desarrollo de nuevos sis más detallado de los distintos aspectos del currículo. conceptos o capacidades. Sin embargo, siempre Estos sistemas permiten definir estándares o niveles de será necesario conservar el carácter confidencial
  • 42 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación de una parte de los ítemes para poder realizar me- comunidad educativa, con un enfoque y un for- diciones comparables en el tiempo. mato adecuados para promover una mayor par- ticipación y compromiso a nivel local. La informa- – Para que los resultados tengan impacto sobre la ción también puede resultar muy útil para dirigir motivación de los estudiantes y sobre la actitud mejor las políticas hacia distritos o escuelas con de las familias hacia el aprendizaje escolar, es mayores problemas, ya que se puede contar con necesario proveerles de información apropiada un “mapa” de resultados de todas las escuelas, y comprensible acerca de lo que se considera zonas, provincias, tipos de escuela, etc. imprescindible haber aprendido en cada grado o nivel educativo y de las acciones que pueden Uso de las evaluaciones para establecer contribuir al logro de dichos aprendizajes. incentivos evaluar con una perspectiva amplia además de las opciones examinadas, existen polí- ticas de evaluación estandarizadas dirigidas, a es- Es muy importante que las pruebas no se limiten tablecer incentivos económicos en función de los a evaluar los conocimientos y competencias corres- resultados o a propiciar un mercado competitivo pondientes a un único grado (aquel en que se aplica entre las escuelas la evaluación), sino que incluyan una perspectiva más amplia de niveles de desempeño –desde más básicos a Tres son las principales modalidades en este tipo de más complejos – a lo largo de varios grados, de modo políticas: de identificar qué han aprendido los estudiantes en gra- dos anteriores y qué necesitan ahora. De este modo, los – Utilizar los resultados para construir rankings de docentes podrán constatar y subsanar las deficiencias escuelas y hacerlos públicos, como forma de: fo- en los aprendizajes de cursos previos, que impiden a los mentar la responsabilidad de las escuelas por sus estudiantes continuar avanzando y los resultados serán resultados; entregar a las familias información útiles no solo para los docentes del grado evaluado, sino para la toma de decisiones sobre la escuela a la también para los de grados anteriores. El énfasis no estará cual enviar a sus hijos; promover la competencia puesto en comunicar a los docentes que los estudiantes entre los centros educativos por obtener mejores “aprueban” o “desaprueban”, sino en comunicar que resultados. están en diferentes puntos de un continuo de apren- dizaje, en el que todos pueden y necesitan progresar. – Utilizar los resultados para entregar incentivos económicos a las escuelas que obtienen mejores las pruebas de tipo diagnóstico pueden tener ca- resultados o mejoras en relación a sus resultados rácter muestral o censal, dependiendo de la estra- en evaluaciones anteriores. tegia de cambio educativo – Utilizar los resultados como indicador de la cali- El carácter censal o muestral tiene diversas implican- dad del trabajo de cada docente y como criterio cias, aunque también es posible combinar una aplicación para otorgar incentivos económicos. por muestras controlada con una distribución censal de las pruebas para su aplicación en forma autónoma por parte de las escuelas, con fines formativos y de análisis estos enfoques de uso de la evaluación a veces se de resultados e identificación de estudiantes que necesi- constituyen, con o sin intención deliberada, en un tan apoyos complementarios. mecanismo por el cual el estado renuncia a su respon- sabilidad por los resultados del sistema educativo – Las pruebas a base de muestras sirven para tener un diagnóstico global del sistema. Requieren de En ocasiones, el Estado limita su accionar a la rea- un cuidadoso diseño de la muestra, de modo de lización de evaluaciones, la entrega de resultados y el obtener información representativa para los nive- establecimiento de incentivos en función de estos re- les de desagregación en los que se desee actuar sultados, transfiriendo la responsabilidad por los resul- y tomar decisiones (regional, provincial, munici- tados a la relación entre escuelas y familias, como si se pal; urbano y rural; escuelas indígenas, etc.). El tratase de un asunto entre actores privados, en lugar impacto de los resultados de estas pruebas de- de ocuparse de crear las condiciones para que la ense- pende principalmente de las medidas de política ñanza resulte efectiva proveyendo los recursos necesa- educativa que se tomen a nivel central y de una rios, constituyendo un elenco docente adecuadamente estrategia de difusión apropiada que llegue a to- formado y estableciendo mecanismos idóneos para la das las escuelas. evaluación y la orientación de la labor de las escuelas. Este modo de operar no considera la complejidad de la – Las pruebas censales sirven para obtener infor- labor educativa, en especial en medios socialmente des- mación de cada una de las escuelas e incluso de favorecidos, y la necesidad de invertir en la creación de los alumnos. El impacto de sus resultados de- capacidades como herramienta principal para la mejora pende de la devolución de la información a cada de la enseñanza y el aprendizaje.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 4 Criterios básicos para la divulgación y uso para evaluar a sus estudiantes, el conocimiento y la comprensión de las mismas pueden contribuir a mejorar de los resultados sus modos de evaluar y a desarrollar una cultura de la evaluación. la responsabilidad por los resultados debe ser al reportar las diferencias de resultados en función compartida por diversos actores de la composición sociocultural del alumnado de las escuelas, se debe cuidar de no crear un sistema Debería evitarse todo uso de los resultados con el fin de expectativas de logro diferenciado por grupos deliberado o implícito de culpabilizar o responsabilizar sociales de manera exclusiva a ciertos actores. La responsabilidad debe ser compartida entre las autoridades nacionales y En todo caso, las diferencias deberían producirse en regionales, los cuerpos docentes, los estudiantes y sus las políticas para crear condiciones apropiadas para en- familias. señar a los grupos más desfavorecidos. Se debería des- cartar también cualquier tipo de uso de los resultados que, directa o indirectamente, propicie la selección de la responsabilidad por los resultados requiere de estudiantes por parte de las escuelas a los efectos de una adecuada combinación entre las exigencias y mejorar sus resultados. los apoyos a las escuelas y a los docentes Por un lado, es necesario que escuelas y docentes asuman su responsabilidad respecto al objetivo de que Advertencias sobre la comparación de re- todos los estudiantes aprendan lo que se espera de ellos. sultados entre escuelas Simultáneamente, es deber de las autoridades estable- cer las políticas de apoyo necesarias para que escuelas aunque los resultados de pruebas estandarizadas y docentes puedan desarrollar su labor de manera apro- no dan cuenta en forma exhaustiva de la calidad piada. Un esquema de exigencias altas sobre escuelas educativa de una escuela, sí aportan información y docentes sin los correspondientes apoyos solo puede relevante de los niveles de desempeño alcanzados generar malestar y desánimo. Un esquema de apoyos sin contrapartes y exigencias puede generar autocom- La información sobre resultados en dos pruebas es- placencia. tandarizadas – en general, lenguaje y matemática – no constituye por sí misma una evaluación de la “calidad educativa” de las escuelas ni debería presentarse al pú- es inapropiado utilizar los resultados de las prue- blico como tal. La “calidad” de una escuela incluye otros bas estandarizadas como indicador principal de la aspectos relevantes y valorados por los docentes, estu- calidad del trabajo del docente o de la escuela diantes y familias, tales como el desarrollo emocional, las relaciones interpersonales, la formación cívica y en Esto es importante, en particular si no se ha contro- valores, entre otros. Aun así, la información comparati- lado el efecto de otros factores internos y externos al sis- va acerca de los niveles de desempeño alcanzados por tema educativo y si no se tiene en cuenta que el apren- los estudiantes en una diversidad de escuelas puede ser dizaje depende también de la motivación y esfuerzo relevante para los equipos docentes de las escuelas, en personal del estudiante. Además, dado que los resulta- la medida en que enriquece la percepción de la propia dos de pruebas estandarizadas no son el único indicador labor, permitiéndoles ubicar los logros de sus estudian- de la calidad de la educación, es preciso considerarlos en tes en el contexto de los alcanzados por los estudiantes conjunto con otros aspectos relevantes como la reten- en otras escuelas. ción, la pertinencia y relevancia de lo que se enseña, la formación de valores y hábitos o la formación ciudada- na. Debe evitarse la identificación del término “calidad” Para que la comparación entre los niveles de des- con resultados de pruebas estandarizadas. empeño de los estudiantes sea apropiada, se de- ben considerar sus condiciones sociales de origen Para facilitar la comprensión y uso de los resulta- Los resultados académicos de las escuelas deberían dos, no basta con ofrecer resultados numéricos poder compararse con los de escuelas de similar compo- sición social, dado que los retos y dificultades que impli- Es fundamental ilustrar a los distintos actores acerca ca enseñar a estudiantes de origen desfavorecido (o de del tipo de tareas que los estudiantes debieron resol- lengua materna indígena) son muy diferentes que en el ver en las pruebas. Este criterio debe combinarse ade- caso de estudiantes de familias con educación secun- cuadamente con la necesidad de mantener el carácter daria completa y/o terciaria. También hay que tener en confidencial de un conjunto de preguntas que puedan cuenta las tasas de deserción de las escuelas y sus polí- emplearse en futuras evaluaciones para establecer me- ticas de selección de estudiantes, dado que una escuela diciones comparables en el tiempo. Si bien no se pre- puede mejorar sus resultados a través de la exclusión de tende que los docentes utilicen pruebas estandarizadas estudiantes con dificultades.
  • 44 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación las comparaciones entre escuelas deben conside- las siguientes preguntas básicas: rar la diferencia entre medir el “logro educativo” y medir el “aprendizaje” – ¿Para qué se quiere evaluar? ¿Quiénes usarán los resultados y con qué propósitos? ¿Qué se espera En rigor, si el propósito es entregar a las escuelas, saber que no se sepa ya? familias y/o autoridades, información acerca de la ca- pacidad de enseñar de los docentes y las escuelas, es – ¿Cuáles serán las unidades de análisis para el necesario medir el progreso de los estudiantes a lo largo reporte de resultados: estudiantes individuales, de un período lectivo (“aprendizaje”) y no únicamente grupo de clase/maestros, escuelas, tipos de es- el resultado final (“logro”). Las diferencias entre estos cuela, entidades subnacionales, sistema educa- dos términos se expresan en que: tivo? – El aprendizaje puede ser definido como el cam- – De acuerdo a los propósitos definidos, ¿qué es bio ocurrido en los conocimientos y capacidades más apropiado evaluar – aprendizaje o logro de cada estudiante a lo largo del año lectivo. Su educativo – al egreso de determinados grados o medición requiere la aplicación de dos pruebas, ciclos? una al inicio y otra al final. De este modo es po- sible constatar el progreso realizado por cada – ¿Qué tipo de consecuencias tendrán los resulta- alumno. dos y para quiénes? – El “logro educativo” en cambio, se mide con una – De acuerdo a los propósitos definidos, ¿es nece- única prueba y refleja la acumulación de conoci- sario trabajar en forma censal o son suficientes mientos y capacidades a lo largo de toda la vida evaluaciones en base a muestras? del estudiante, lo cual incluye el capital cultural familiar y sus experiencias en otras escuelas o – ¿Qué grados y qué disciplinas es importante eva- con otros docentes. luar? Debe tenerse siempre presente que el aprendizaje y el – ¿Cada cuánto tiempo es necesario y adecuado logro educativo de los estudiantes dependen tanto de realizar las evaluaciones? lo que hacen las escuelas y docentes, como del esfuerzo de los propios estudiantes, del apoyo de las familias a la Las respuestas a estas preguntas deberían plasmarse tarea escolar, del contexto comunitario y cultural y de las en un plan de evaluación a corto, mediano y largo plazo, políticas educativas. Los problemas educativos no pue- claro y explícito. En la elaboración de dicho plan es muy den ser resueltos apelando exclusiva ni principalmente a importante considerar los costos en dinero implicados en mecanismos de mercado. cada opción y los recursos humanos necesarios para su adecuada implementación. En particular, se debe balan- cear la inversión a realizar en la recogida de información los resultados expresados en términos de rankings con la inversión en la difusión y uso de los resultados. de escuelas deben ser mirados con precaución Muchos Ministerios de Educación destinan importantes sumas de dinero a recoger una gran cantidad de infor- La mayoría de los rankings de escuelas transmiten mación todos los años, que luego casi no se analiza, ni una falsa imagen de ordenamiento. Una escuela puede se difunde ni se utiliza. Es absolutamente inconducente ocupar el primer lugar y otra el número 40 y, sin em- implementar un primer operativo de evaluación si no se bargo, las diferencias entre sus promedios pueden no ha elaborado un plan de trabajo de largo plazo. ser estadísticamente significativos. Esto significa que no puede decirse si un promedio es realmente superior al “Mandatos” útiles al momento de tomar decisiones otro, porque las diferencias entran dentro de los már- políticas respecto al sistema de evaluación genes de error de la medición. Pero aun cuando las diferencias en los promedios sean estadísticamente sig- – “no harás daño”. Una de las primeras normas nificativas, pueden ser irrelevantes en términos de las del juramento hipocrático señala que el médico proporciones de alumnos que logran los niveles de des- se abstendrá de todo aquello que pueda gene- empeño esperados. rar daño o perjuicio a sus pacientes. Del mismo modo, a la hora de pensar en un sistema de evaluación es importante considerar los riesgos Itinerario para la toma de decisiones de efectos no deseados y perjudiciales que la estrategia de evaluación diseñada podría tener Considerando las alternativas existentes para una sobre el propio sistema educativo que se desea política de evaluación, antes de poner en marcha un mejorar. sistema de evaluación (o de modificar uno existente) es indispensable seguir un itinerario de decisiones para de- – “el consumo excesivo de este producto pue- finir las características del sistema que incluya al menos de resultar perjudicial para la salud”. La eva-
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 45 luación no puede estar por encima de la educa- incluir en las pruebas actividades con diversos gra- ción. El exceso de evaluaciones puede producir dos de complejidad perjuicios para la salud del sistema educativo, en especial si solo hay evaluaciones pero no hay Se debe contemplar actividades cuya solución re- políticas para dar respuesta a los problemas que quiera de competencias cognitivas suficientemente com- estas ponen de manifiesto. plejas, apropiadas a los desafíos de la sociedad del co- nocimiento, así como también actividades sencillas que – “no evaluarás en vano”. Se debe evitar reco- permitan informar sobre el punto en que se encuentran ger todos los años información que nunca será los estudiantes menos avanzados. Las actividades deben analizada ni utilizada. Para que un sistema de poseer una serie de propiedades psicométricas que es evaluación tenga impacto, debe tener una pe- necesario garantizar y cuyo control requiere pruebas pi- riodicidad que garantice que los datos puedan loto y análisis cuidadoso. También es importante, en la ser analizados, discutidos, comprendidos y utili- medida de lo posible, ampliar el uso de preguntas de zados. Incorporar la nueva información y tradu- respuesta construida, con el doble propósito de evaluar cirla en decisiones y acciones lleva tiempo. Los capacidades más complejas y de mejorar la articulación cambios en el sistema educativo requieren más entre la evaluación externa y la cultura docente y escolar. tiempo aún. – “vísteme despacio, sancho, que estoy apu- Conformar las pruebas a partir de la apropiada in- rado”. Es muy importante que quienes toman tegración de las actividades en bloques y cuader- las decisiones en los Ministerios de Educación nillos desestimen la creencia ingenua en la existencia de caminos fáciles y rápidos. No es posible mon- Este es un desafío técnico importante y complejo, tar un programa de evaluación serio en tres me- que requiere de conocimientos especializados y expe- ses. No existe coyuntura ni “ventana de oportu- riencia. Especial atención debe otorgarse a la decisión nidad” que lo justifique: las consecuencias de la de utilizar la Teoría Clásica o la Teoría de la Respuesta improvisación se harán sentir tarde o temprano. al Ítem para la construcción y el análisis de las prue- La evaluación requiere reflexión cuidadosa acer- bas, lo cual requiere de programas de procesamiento ca de sus fines y usos; discusión pública sobre modernos, analistas bien entrenados, análisis rigurosos qué es lo fundamental a evaluar; diálogo e invo- y asesoramiento de alto nivel. lucramiento de diferentes actores; conformación de equipos técnicos competentes en diversos as- pectos; e información previa para que los actores Definir los “puntos de corte” que establecen los lí- se involucren con la evaluación. mites entre niveles de desempeño en una prueba Vinculado con esto, se debe definir la metodología a Iv. Los desafíos de calidad técnica de las seguir para establecer cuál de los niveles debe ser consi- derado como aceptable para un estudiante al finalizar el evaluaciones grado o ciclo educativo evaluado. Un rendimiento acep- table no puede ser establecido automáticamente como Una vez definida la política de evaluación, es nece- equivalente al 51% o más del máximo posible en una sario implementarla de acuerdo con diversos estándares prueba. apropiados de calidad técnica. Esto implica abordar los siguientes desafíos: Diseñar muestras apropiadas a los propósitos de la evaluación elaborar un referente o marco conceptual que de- fina con precisión los conocimientos y desempeños Esto tiene por objeto evitar operaciones más grandes que son considerados apropiados al finalizar el y costosas de las estrictamente necesarias y que, al mis- grado o ciclo educativo que será evaluado mo tiempo, tengan un nivel de precisión adecuado. En relación a este último aspecto debe incluirse, además, Si bien esta construcción exige antes que nada un la estimación y reporte de los márgenes de error de las debate y decisiones de carácter político, las definiciones mediciones. tomadas en dicho terreno deben luego ser adecuada- mente traducidas en especificaciones y estándares de carácter técnico. Asimismo, el debate político-educativo Definir cómo se equipararán las evaluaciones debe estar alimentado por información sobre los avan- ces conceptuales recientes en cuanto a la enseñanza y La equiparación de las evaluaciones se refiere a la a los desempeños de los estudiantes en las disciplinas metodología mediante la cual los resultados de prue- consideradas. bas aplicadas en distintos años se hacen comparables. Este es uno de los desafíos técnicos más importantes
  • 46 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación que los sistemas de evaluación deben afrontar si uno de la necesaria transparencia sus propósitos es informar sobre los avances o retrocesos en los logros educativos a lo largo del tiempo. Este pro- Sobre todos los procesos técnicos debe existir infor- ceso es indispensable para poder afirmar que los even- mación transparente y accesible. Es necesario dar un es- tuales cambios que se constaten responden a cambios pecial énfasis a la documentación de los procedimientos en la realidad educativa y no meramente a cambios en técnicos seguidos en: el instrumento de medición. Requiere tomar recaudos tanto desde el punto de vista estadístico, como desde el – La construcción de los instrumentos. punto de vista de la continuidad de los conocimientos y competencias evaluadas, y la estabilidad en la longitud y – La estimación de la precisión de las mediciones (y, la estructura de la prueba. por consiguiente, su margen de error). – El diseño de las muestras y la cobertura alcan- Construir datos longitudinales que permitan apre- zada. ciar la evolución en el tiempo de los aprendizajes de un mismo conjunto de estudiantes – La aplicación y control de calidad de la misma. Este tipo de datos, que exigen más de una medición – La definición de niveles de desempeño y puntos en el tiempo, es el que evalúa el “aprendizaje” entendi- de corte. do como cambio y el que mejor permite establecer cuá- les son los procesos propiamente escolares que tienen – La equiparación y comparabilidad de los resulta- influencia sobre el mismo. Este enfoque es el que permi- dos con mediciones anteriores. tiría obtener información más relevante para la política educativa y para la investigación. V. Sobre la constitución de las unidades de establecer mecanismos de control del cumplimien- evaluación to de las condiciones estandarizadas que deben re- gir durante la aplicación de las pruebas Para llevar adelante una política de evaluación de lo- gros educativos o aprendizajes apropiada, es necesario El cumplimiento de las condiciones de aplicación de contar con Unidades de Evaluación con las capacidades las pruebas involucra aspectos técnicos complejos y mu- y los recursos adecuados que implica este complejo em- chas veces descuidados. Sin embargo, son fundamenta- prendimiento. les para que la información sea confiable y comparable. Esto apunta a temas como: la puesta en marcha de un sistema de evaluación serio requiere de un tiempo mínimo de entre dos – La calidad de la capacitación de los aplicadores. y tres años – El establecimiento de controles de calidad duran- Este periodo es necesario para llevar adelante los si- te la aplicación de las pruebas. guientes procesos fundamentales: – La motivación a los estudiantes para realizar las – Discusión, definición y difusión pública de los pruebas. propósitos del sistema de evaluación, del tipo de consecuencias, de los usos esperados y de qué – La logística de la distribución. debe ser evaluado. – El retorno seguro de los materiales. – Diseño del plan de evaluación a largo plazo. – Conformación de equipos técnicos con la diver- Combinar las evaluaciones con estudios cualitativos sidad de capacidades requeridas (elaboración de pruebas; elaboración de cuestionarios; conoci- Es importante combinar las evaluaciones nacionales miento de las disciplinas a evaluar y de su didác- estandarizadas, que ofrecen una mirada sobre el conjun- tica; currículo y estándares; muestreo; logística to del sistema, con la realización de estudios cualitativos de la aplicación y control de calidad de la misma; que permitan profundizar en los procesos escolares y los captura y limpieza de datos; procesamiento y procesos que ocurren en las aulas. Esta combinación de análisis; construcción de escalas; contextualiza- enfoques es el mejor modo de aportar información rica ción sociocultural de los resultados y análisis de y compleja para pensar en las políticas educativas y en factores asociados; interpretación de los datos las prácticas de enseñanza. en términos de políticas educativas, de didáctica y de prácticas de enseñanza).
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 47 – Elaboración de instrumentos, pilotaje y supervi- Para que las evaluaciones estandarizadas tengan sión externa de los mismos. impacto sobre las políticas y las prácticas educati- vas, es necesario generar nuevas interfases y mo- dalidades de trabajo que aseguren el alineamiento las unidades de evaluación necesitan tener una cier- de los distintos actores y ámbitos de decisión ta estabilidad en el tiempo de sus elencos técnicos Las Unidades de Evaluación deben asumir que su El desarrollo de un sistema de evaluación requiere de tarea va más allá de producir datos. Si su misión es pro- una planificación a 10 ó 15 años. Si los equipos técnicos ducir información para otros acto22 res, se requiere de cambian con frecuencia, se desperdicia el conocimiento personas preparadas y con tiempo para establecer líneas y la experiencia acumulada en un área compleja y se de diálogo con instancias y actores responsables de: desacreditan los procesos de evaluación ante la sociedad y los educadores. – Análisis de política educativa , con el fin de me- jorar tanto los diseños de las evaluaciones como los planes de procesamiento y los reportes de las unidades de evaluación necesitan tener indepen- resultados, teniendo en cuenta preguntas rele- dencia para reportar los resultados de su trabajo vantes para la política educativa (por ejemplo, la muestra puede ser diseñada de modo que per- Al igual que en el caso de las Unidades de Estadísti- mita evaluar el impacto de políticas o programas cas sociales y económicas, las unidades que realizan las específicos en ciertos grupos de escuelas). acciones de evaluación y la divulgación de los correspon- dientes resultados no deben depender de los tiempos – Análisis didáctico, con el fin de interpretar los e intereses político- partidarios. Se ha discutido mucho resultados y los problemas de aprendizaje de los respecto a si las Unidades de Evaluación deberían estar estudiantes desde la perspectiva de la enseñanza dentro o fuera de los Ministerios de Educación. El argu- y la didáctica de la disciplina evaluada, elaborar mento principal para esta última opción es justamente la reportes con significado didáctico para los docen- necesaria independencia y transparencia. Sin embargo, tes, diseñar programas de formación en servicio la experiencia en la región muestra casos de países con a partir de los resultados, pensar la articulación unidades estables e independientes dentro de los Minis- de las evaluaciones estandarizadas con la evalua- terios de Educación y otros con unidades inestables que ción en el aula. no han logrado consolidar su trabajo aun estando en una institución externa. La respuesta a esta disyuntiva es que – Comunicación, con el fin de elaborar una diver- no importa tanto el lugar institucional como la cultura sidad de reportes de resultados, con diversos for- de continuidad y transparencia que se cree en torno a la matos y lenguajes, que sean apropiados y com- evaluación. Esto se logra cuando existe un mandato cla- prensibles para diversas audiencias. ro y una institucionalidad sólida en relación a la evalua- ción, lo cual implica algún tipo de estatuto jurídico para el sistema de evaluación. Establecer esto por ley es uno evaluar bien requiere inversión de los caminos a considerar, dado que exige un acuerdo amplio, en lo posible suprapartidario, que permita esta- Más vale no hacer ninguna evaluación que hacer blecer un plan de evaluación de la educación de largo una evaluación mala o deficiente. Esto debe ser tenido plazo. En este terreno, al igual que en el económico, se en cuenta al tomar las decisiones acerca del Plan de Eva- requiere de cierta estabilidad en las reglas de juego. Si luación. Asimismo, más vale un sistema de evaluación la política de evaluación cambia permanentemente, se modesto pero con costos asequibles y sostenibles en el genera desconfianza y se pierde credibilidad. tiempo, que una gran evaluación, amplia y sofisticada, que solo podrá realizarse una vez y que luego no podrá replicarse. una institucionalidad sólida requiere de órganos La inversión en evaluación debe ser valorada en fun- de gobierno y de asesorías técnicas, independien- ción del uso que se hace de sus resultados, más que a tes y plurales, y de un presupuesto apropiado y partir de otros indicadores como el costo por alumno. plazas de trabajo que garanticen la operación de la unidad con la calidad técnica requerida Los costos de las evaluaciones son relativamente ba- jos cuando se los compara con los presupuestos nacio- La independencia de la Unidad de Evaluación no debe nales y con las inversiones alternativas. Pero cualquier dar lugar a su desvinculación de la política educativa. Por inversión en evaluación, alta o baja, es inútil si no se el contrario, la evaluación debe responder a un proyecto hace uso de los resultados. político-educativo con amplio respaldo y debe mantener una estrecha relación con otras áreas claves de la política educativa como la formación docente, el desarrollo cu- rricular, el planeamiento y formulación de proyectos, la evaluación de programas y la investigación.
  • 48 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación VI. Diez recomendaciones acerca de las consecuencias, los aspectos a evaluar, las áreas y los gra- dos, y la periodicidad de las evaluaciones, entre otras evaluaciones que la región necesita cosas. Todo ello exige tiempo, por lo que no es conve- niente pretender la implementación de sistemas de eva- 1. la evaluación debe concebirse como un ele- luación en plazos reducidos. mento articulado en un conjunto más amplio de acciones y políticas educativas. 7. un buen sistema de evaluación requiere in- versión, principalmente en la conformación de equipos La evaluación por sí misma no produce mejoras. De- humanos calificados, así como recursos económicos su- ben existir articulaciones estables entre el área de eva- ficientes para una adecuada implementación de todos luación y las áreas de desarrollo curricular, formación los procesos implicados. docente, investigación, diseño de políticas, comunica- ción y prensa, entre otros. 8. el sistema de evaluación debe sustentarse en una actitud firme de transparencia en relación a los 2. la evaluación debe contemplar un proceso de resultados y de rendición de cuentas a la sociedad. reflexión colectiva sobre el estado de la educación y los caminos para mejorarla. 9. los ministerios de educación deben asumir un compromiso serio y consistente con los resulta- El primer paso para ello es la consulta y el debate dos de la evaluación, lo cual implica promover el diá- públicos acerca de qué deben aprender los estudiantes logo acerca de los problemas detectados y los modos de y acerca de los propósitos y consecuencias de la eva- enfrentarlos, diseñar líneas de acción apropiadas para luación. Del mismo modo, es fundamental la discusión resolver los problemas e invertir los recursos necesarios pública constructiva a partir de los resultados, con el fin para llevarlas adelante. de encarar las insuficiencias de inequidades en el acceso al conocimiento por parte de los y las estudiantes. Para 10. los sistemas de evaluación deben ser objeto ello es necesario invertir en comunicación y difusión tan- de evaluación periódica, con el fin de analizar la ca- tos o más recursos que en la propia evaluación, antes, lidad técnica de la información que producen y su rele- durante y después de la misma. vancia para diversos actores educativos y sociales. 3. la evaluación debe estar al servicio del desa- rrollo de un sentido de responsabilidad compartida por la educación como bien público. Debe promover el compromiso con la educación de todos los actores, cada uno según su lugar y ámbito de acción. Por este motivo, debe evitarse utilizar la evalua- ción para culpabilizar a actores específicos por los pro- blemas detectados. 4. los sistemas de evaluación de la región nece- sitan ampliar progresivamente el abanico de fines educativos que son objeto de evaluación. Es importante en este sentido incluir a la formación ciudadana, otras disciplinas además de Lenguaje y Ma- temática, así como un espectro más amplio de compe- tencias y capacidades. 5. los sistemas de evaluación de la región de- berían progresivamente diseñar evaluaciones de progreso de los estudiantes, dado que son las que pueden aportar mayor información acerca del impacto de las políticas educativas, de las acciones de las escue- las y de las prácticas de enseñanza, en los aprendizajes de los y las estudiantes. 6. un sistema de evaluación es un proyecto de largo plazo, por lo que requiere de un compromiso del estado y de una planificación cuidadosa del di- seño del sistema. Ello exige tomar decisiones acerca de los fines, las
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 49 “Una mirada técnico-pedagógica acerca de las evaluaciones de calidad educativa” Introducción la región latinoamericana y otras partes del mundo no es casual: responde, desde luego, a la similar evolución del Las preguntas sugeridas como punto de partida para contexto demográfico, económico, social y cultural. la reflexión de esta mesa fueron tres: ¿Qué estamos eva- Es frecuente que el término calidad se defina en luando? ¿Qué de lo evaluado resulta significativo? ¿Por forma restringida, limitándolo a lo que se refiere a los qué las reformas educativas realizadas a lo largo de la niveles de aprendizaje. En este sentido se dice que, tras década del 90 no se ven traducidas en los resultados de centrar la atención en la cobertura y la eficiencia, ahora las evaluaciones? las políticas educativas ponen el énfasis en la calidad. Para aventurar la respuesta que considero debe dar- Otra manera de usar la palabra, que juzgo preferible, le se a esas tres preguntas considero necesario presentar da un sentido más amplio, que se aplica también a las antes la que considero apropiada para una pregunta políticas de cobertura y eficiencia terminal. más: ¿qué deberíamos evaluar de modo que la evalua- Un concepto amplio de calidad, en efecto, no pue- ción sirva para mejorar la calidad educativa? de dejar fuera las dimensiones de cobertura y eficiencia, Organizaré mi presentación, pues, en cuatro aparta- aunque no pueda limitarse a ellas y deba incluir además dos, cada uno de los cuales pretende responder una de el nivel de aprendizaje, entre otras cosas. las cuatro preguntas mencionadas. Un concepto amplio de calidad debe incluir, en mi opinión, varias dimensiones que, en forma sintética, ¿Qué deberíamos evaluar para que la pueden expresarse diciendo que un sistema educativo de calidad es aquél que: evaluación sirva para mejorar la calidad? Ante un auditorio interesado en la educación no es n Establece un currículo adecuado a las necesi- necesario abundar en lo relativo a la importancia de su dades de la sociedad, incluyendo las de una calidad y su evaluación. Pero teniendo en cuenta la di- mayor productividad económica, pero también versidad de concepciones de estas dos nociones (calidad otras necesidades básicas en una perspectiva de y evaluación) juzgo necesario explicitar mis propias ideas desarrollo integral, como las que tienen que ver al respecto, de modo que las respuestas que ofreceré con la democracia política, el respeto de los de- para las tres preguntas siguientes cobren sentido pleno. rechos humanos, el desarrollo de la ciencia, el Tratando, pues, de responder a esta primera pregun- cuidado del medio ambiente y la preservación ta, afirmo que, idealmente, una evaluación adecuada y enriquecimiento de la diversidad cultural. Esta para que sirva realmente para mejorar la calidad edu- dimensión puede definirse con la expresión re- cativa sería una muy amplia, que incluyera todas las di- levancia de los objetivos curriculares. mensiones de la calidad; todas las áreas del currículo; n Logra que la más alta proporción posible de des- los aspectos cognitivos pero también los actitudinales y tinatarios acceda a la escuela, que permanezca valorales; no sólo niveles de dominio elementales, sino en ella hasta el final del trayecto previsto y que también los más elevados; insumos, pero también proce- egrese alcanzando los objetivos de aprendizaje sos y productos; los diversos actores y niveles organiza- establecidos. Esta dimensión incluye, pues, la cionales del sistema educativo; y que, además, incluyera cobertura y la eficiencia terminal, así como el el análisis de los factores que inciden en la calidad, de nivel de aprendizaje, y en términos sistémicos manera que dé bases para el diseño y la implementación coincide con la eficacia interna del sistema. de políticas. Desarrollo el primero de los elementos anteriores: n Consigue que los aprendizajes logrados por los una buena evaluación deberá comprender todas las di- alumnos sean asimilados por éstos en forma du- mensiones de la calidad. radera y deriven en comportamientos sociales Sabemos que las políticas educativas han puesto el sustentados en los valores de libertad, equidad, acento sucesivamente en la atención de la cobertura, solidaridad, tolerancia y respeto a las personas, luego en la eficiencia terminal y, más recientemente, en que son fructíferos para la sociedad y para el el nivel de aprendizaje alcanzado por los alumnos y en propio individuo, quien podrá así alcanzar un la equidad del servicio educativo. La coincidencia de la desarrollo pleno en los diversos roles que habrá secuencia anterior de tales políticas en muchos países de de desempeñar como trabajador, productor,
  • 50 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación consumidor, padre de familia, elector, servidor el educativo, en cada uno de los cuales hay una pro- público, lector y telespectador, entre otros; en blemática específica, y oportunidades particulares de pocas palabras, como ciudadano cabal. En tér- intervención: el aula, la escuela singular, la zona o dis- minos sistémicos esta dimensión es la de la efi- trito escolar, el municipio, la región, provincia o entidad cacia externa o impacto del sistema. federativa, y el país. Una buena evaluación, además, deberá caracteri- n Cuenta, para lograr lo anterior, con recursos hu- zarse por las cualidades técnicas de cualquier medición manos y materiales suficientes, y los aprovecha buena, que se resumen en la validez y la confiabilidad, de la mejor manera posible, evitando despilfa- en sus diversas facetas: que se mida realmente lo que se rros y derroches. Es fácil apreciar que esta es la pretende medir, y que se haga de manera que los resul- dimensión eficiencia del sistema. tados sean comparables en el espacio y en el tiempo. n Tiene en cuenta la desigual situación de alum- Subrayo que la evaluación no puede reducirse a la nos y familias, de las comunidades en que viven aplicación de pruebas de aprendizaje. Estas son, sin y las escuelas mismas, y ofrece apoyos especia- duda, necesarias para la medición de los resultados de les a quienes lo requieren, para que los obje- la enseñanza, pero la valoración de otros aspectos impli- tivos educativos sean alcanzados por el mayor ca la construcción de indicadores con otro tipo de datos, número posible. Esta última dimensión es la de tomados de otras fuentes, como los sistemas de infor- equidad. mación estadística o estudios ad hoc. Es claro que esta es una visión ideal, que en sentido Conceptualizada así, multidimensionalmente, la estricto es imposible llevar a la práctica, pues exigiría educación será de calidad si es relevante, si tiene efica- una cantidad de trabajo y un volumen de recursos enor- cia interna y externa, si tiene un impacto positivo en el me para recolectar la información necesaria. largo plazo, si es eficiente en el uso de los recursos y si Pero si no se tiene este punto de referencia es fácil busca la equidad. caer en el error opuesto, que en la realidad se ha dado Considero que es mejor este concepto amplio de ca- en muchos lugares: el de reducir el sistema de evalua- lidad que uno restringido, porque creo que nadie creerá ción a los elementos más fácilmente disponibles, con lo que un sistema educativo es de calidad si atiende sólo a que sólo se dispone de datos gruesos y burdos sobre el una fracción de la población en edad de acceder a cierto número de alumnos inscritos en el sistema al inicio y al nivel, o si pierde en el camino a muchos de los alumnos fin de un ciclo, el de maestros y escuelas, el presupuesto que lo comienzan, aunque los que terminan lo hagan asignado a las escuelas y poco más. con altos niveles de aprendizaje. Por ello creo que es importante manejar una visión Los otros componentes de una buena evaluación ideal de lo que debería ser la evaluación como referente son claros: todas las áreas del currículo, comenzando para el desarrollo de un sistema concreto; con tal punto por supuesto con Lecto-escritura y Matemáticas, pero de referencia, y con ayuda de las metodologías de in- sin limitarse a ellas, sino contemplando, al menos en el vestigación y evaluación educativa desarrolladas en las mediano plazo, las ciencias naturales y las del hombre, últimas décadas, es factible diseñar sistemas mucho más la educación física y artística, etc. finos que los habituales, con requerimientos de recursos Deberán incluirse los aspectos cognitivos pero tam- al alcance de los sistemas educativos reales. bién los actitudinales y valorales, ya que la educación No está de más precisar que diversos tipos de eva- no sólo pretende desarrollar los primeros, sino también, luación son competencia de diversas instancias. En par- y con creciente énfasis, los segundos, cuya importan- ticular conviene distinguir la evaluación de individuos de cia para la vida en una sociedad democrática y culta se la de los sistemas como tales. La evaluación de los alum- reconoce cada vez más. Obviamente, no sólo deberán nos en lo individual, por ejemplo, es y sin duda seguirá valorarse niveles de aprendizaje elementales, como me- correspondiendo a los maestros y las escuelas en que morización, sino también los más elevados, de razona- están los alumnos; la evaluación de los maestros en lo miento propio, juicio crítico y creatividad. individual corresponde y corresponderá seguramente a Una buena evaluación no podrá limitarse a los in- los directores y supervisores. sumos del sistema, si bien no puede olvidarlos, ya que La evaluación a la que me refiero en este escrito es, sin ellos no es posible medir la eficiencia del sistema, precisamente, la del sistema educativo en cuanto tal. pero habrá de considerar también los productos, para Se trata, pues, de una evaluación de nivel macro, que valorar la eficacia, y los procesos, como parte de una no sustituye a las evaluaciones individuales, sino que aproximación explicativa que indague en lo relativo a las las complementa, iluminando un ángulo diferente de la causas de la situación descrita, con lo que se dará sus- realidad educativa. tento sólido al diseño y la implementación de acciones Tras lo anterior, las respuestas a las siguientes pre- de mejoramiento. guntas serán más breves. Con un enfoque integral como el que se propone, la evaluación tomará en cuenta no sólo a los alumnos, sino también a los maestros, los directores y superviso- res y las autoridades educativas, así como los diferentes niveles de organización de un sistema complejo como
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 51 ¿Qué estamos evaluando? no empleaban en forma rigurosa siquiera los principios de la teoría clásica. Las técnicas de valor agregado son Resumo mi respuesta, en forma algo simplista y cru- también muy poco conocidas. da, diciendo que evaluamos algunas de las dimensiones de la calidad educativa, pero dejando fuera varias de las más importantes, que lo hacemos de manera imprecisa, y que no llegamos a las causas. ¿Qué de lo evaluado Hasta hace muy pocos años, la situación de la mayor resulta significativo? parte de los sistemas de evaluación educativa de los paí- ses de la región era justamente la que se ha mencionado En principio los mecanismos de evaluación existentes antes: solamente se contaba con datos sobre alumnos, son todos significativos y, aun en ausencia de los que maestros, escuelas y presupuestos, con lo que se podían se sugiere añadir, contienen potencialmente elementos estimar indicadores de cobertura, eficiencia terminal y útiles para el mejoramiento de los sistemas educativos. costo alumno en forma gruesa, ya que por lo general no Sin embargo, es frecuente que aún esos elementos se se controlaba la calidad de los procesos de recolección desaprovechen y sólo sirvan para acumular datos en de información, no se manejaban datos por edad, con anuarios estadísticos destinados a empolvarse en los es- lo que sólo podían construirse tasas brutas y no netas y tantes, sin que los responsables de tomar decisiones, y se manejaban sólo cohortes aparentes. mucho menos los maestros, los conozcan y utilicen para Los esfuerzos que han hecho muchos de nuestros retroalimentar su quehacer. países en la última década han incluido, por una parte, Esto quiere decir que, además de mejorar los actua- mejoras en los sistemas de información y, por otra, el les mecanismos de evaluación y de enriquecerlos con desarrollo de sistemas de pruebas nacionales para valo- nuevos elementos, es necesario un importante esfuer- rar los aprendizajes de los alumnos. Estos esfuerzos son zo de difusión de resultados y de capacitación de los importantes, sin duda, pero aún están por consolidarse usuarios para que estén en condiciones de entender y y adolecen de fallas claras, explicables por la falta de aprovechar los resultados de las evaluaciones. una tradición en el campo y la consecuente escasez de recursos humanos especializados. Pecando tal vez de simplismo, creo que en la región atendemos la cobertura y la eficiencia terminal en forma ¿Por qué las reformas realizadas imperfecta y el nivel de aprendizaje de los alumnos en en los 90 no se ven traducidas áreas curriculares y grados clave, pero por lo general li- en los resultados? mitándose a niveles cognitivos bajos. La contraparte ob- via, lo que no estamos evaluando, incluye áreas curricu- Esta pregunta parte de un supuesto que no me pa- lares adicionales, niveles cognitivos superiores, aspectos rece incuestionable: que las reformas educativas imple- actitudinales y valorales, procesos tanto pedagógicos mentadas en América Latina en los ‘90 no han dado como de gestión y lo relativo a equidad. resultados. En las escuelas se evalúan muchas de estas cosas, Los niveles educativos de nuestros países son el re- desde luego, pero no parece haber procedimientos para sultado de un enorme conjunto de factores, incluyen- valorar tales dimensiones o aspectos de la calidad de do unos tan complejos como el explosivo incremento manera permanente y sistemática en el nivel nacional. demográfico que hizo del subcontinente la región de Debe añadirse que muchas veces las evaluaciones que mayor crecimiento poblacional en toda la historia has- hacemos no tienen, en un grado suficiente, las caracte- ta mediados del siglo XX, la pobreza que aflige a gran rísticas técnicas mencionadas de validez y confiabilidad. parte de la población y la diversidad étnica y lingüística. Por lo que se refiere a validez, la ausencia de contro- Otros factores igualmente complejos incluyen el carácter les de las variables relevantes del contexto puede hacer autoritario de muchos regímenes políticos, las estructu- que midamos en realidad pobreza, cuando creemos me- ras sindicales y burocráticas, y la desigualdad ancestral dir calidad de las escuelas. En este sentido en la región de nuestras sociedades. es muy raro todavía el uso de las poderosas técnicas ac- Los cambios educativos, por otra parte, son complejos tuales, como los modelos jerárquicos lineales, que per- también y, en el mejor de los casos, llevan mucho tiempo; miten identificar la influencia de los factores del entorno no pueden ser el resultado rápido de esfuerzos simples. distinguiéndolos, por ejemplo, de los de la escuela, el Por ello, aun si en verdad las reformas de los años 90 aula y el propio alumno. no han dado resultados, podrían encontrarse diversas En cuanto a confiabilidad, es también raro el uso de explicaciones. metodologías psicométricas avanzadas, como los mode- Las políticas educativas de la región han adolecido, en los de la teoría de la respuesta al reactivo, que permiten muchos casos, de serias deficiencias en diversos aspec- contar con escalas más precisas, comparables en el tiem- tos: en el diagnóstico en que se sustentan, muchas veces po, que cuidan la unidimensionalidad y evitan el sesgo incompleto e impreciso; en el diseño de los programas, de manera más adecuada que las técnicas de la teoría muchas veces simplista, apostando demasiado a pocos clásica de las pruebas. Debe añadirse que, hasta hace elementos de los que se espera más de lo que pueden poco tiempo, no era raro que se manejaran pruebas que dar; y, tal vez, sobre todo, en la implementación.
  • 52 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación No es fácil, en efecto, que las reformas lleguen hasta Ampliando lo dicho hasta ahora trataré de aportar el nivel más importante, el de la escuela y el aula. Para algunas ideas al respecto. ello se requiere de tiempo y, además, de estrategias muy La experiencia de las reformas educativas implemen- finas que aseguren la participación de los maestros. Des- tadas en los países de mayor desarrollo económico ha graciadamente, es más frecuente encontrar estrategias dejado lecciones importantes, en la dirección ya apun- simplistas e implementaciones apresuradas que proce- tada: no deben esperarse cambios espectaculares; las sos cuidadosos y respetuosos de los actores de base y de mejoras educativas se consiguen en lapsos de tiempo la complejidad de la cuestión. largos, y mediante esfuerzos sistemáticos y complejos, No debería sorprender, por consiguiente, que los re- no gracias a recetas mágicas simples o panaceas. sultados obtenidos disten mucho de los esperados. Hoy sabemos también que no debe exagerarse la Pero el punto que quiero destacar es que no tenemos importancia de los recursos materiales; estos son im- evidencia suficiente para afirmar de manera contunden- portantes, sin duda, sobre todo hasta ciertos umbrales te que las reformas de los ‘90 no han tenido resultados. mínimos, y tal vez más en cuanto a la regularidad o Hay, sin duda, indicios importantes en tal sentido, pero continuidad de su existencia que en cuanto a su monto los sistemas de evaluación de que disponemos no sus- absoluto. Pero parece claro que tanto y más importan tentan afirmaciones tajantes. los procesos a través de los que se utilizan los recursos: En particular, creo que en México hay elementos procesos pedagógicos especialmente en el interior del para sostener que el nivel de aprendizaje ha mejorado aula, procesos más amplios de gestión en el nivel nacio- ligeramente en los últimos años; que el impacto del gas- nal y regional y, sobre todo, en cada escuela, donde el to público en educación básica está siendo mayor para trabajo del equipo docente, el liderazgo del director y la los tres deciles más pobres de la población, contra lo que participación de los padres de familia han mostrado ser ocurría antes; y que los programas compensatorios em- fundamentales. prendidos a principios de los 90 han logrado reducir la Para poder responder con bases sólidas a la pregun- deserción en medio rural y mejorar los niveles educativos ta sobre el éxito o el fracaso de las reformas educativas en las zonas más desfavorecidas. necesitamos, pues, en mi opinión, contar con sistemas Por lo demás, la gran desigualdad que caracteriza a de evaluación bastante más sólidos, aunque no mucho nuestras sociedades hace que necesitemos evaluaciones más costosos que los existentes, que nos den la informa- más precisas, que tengan en cuenta el peso de los facto- ción clave, de que hoy carecemos, sobre las diferentes res del entorno, tanto en razón del principio de equidad, dimensiones de la calidad educativa de nuestros países como para valorar en su justa medida los avances que en forma continuada y permanente. puedan darse en contextos diferentes, en los que la me- Es posible que nos llevemos algunas sorpresas agra- jora es más o menos difícil. dables, en el sentido de que los esfuerzos realizados hasta ahora han dado algunos resultados, no especta- culares, pero sí razonables, en una perspectiva histórica y comparativa en el plano internacional. Conclusión También es posible que se confirme la idea de que no ha habido resultados positivos. En este caso, si tene- La última pregunta es, a mi juicio, la más importante mos buenos sistemas de evaluación tendremos también de las cuatro que he tratado de responder, tanto por lo elementos para saber por qué ha ocurrido tal cosa, y que expresamente plantea, como por lo que sugiere de para diseñar programas de mejora más adecuados. manera implícita.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 5 Segunda Parte. El Operativo Nacional de Evaluación ONE 2009 Marco de referencia a) introducción mente, las características fundamentales de cada uno de estos enfoques. Contar con estrategias para mejorar la calidad de la Cuando un estudiante es evaluado en el dominio de educación implica, entre otros requisitos, disponer de un algún contenido y capacidad, a partir de mediciones re- sistema de evaluación que haga explícito su marco de feridas al grupo normativo, el puntaje obtenido por el referencia y que permita conocer qué están aprendiendo alumno se interpreta por comparación con la norma de los estudiantes. su grupo. De esta manera, las mediciones normativas no Todo tipo de evaluación -y en especial las educativas- brindan información respecto a cuánto sabe y cuánto , exige modelos teóricos precisos que la justifiquen y la no sabe, sino que proveen datos acerca de su posición respalden. De este modo, la evaluación resulta soste- relativa con respecto a un grupo. nida por nexos conceptuales sólidamente relacionados, Este enfoque supone, como condición previa, que la que permiten entrelazar los distintos pasos del proce- prueba sea aplicada a un grupo normativo –representa- so involucrado, desde la delimitación del objetivo de la tivo, un grupo de individuos con características similares evaluación a la posterior interpretación de los hallazgos. a los futuros destinatarios de dicha prueba-, lo cual per- La selección de la metodología a llevar a cabo -que in- mitirá luego una lectura del rendimiento de cualquier cluye de modo fundamental el tipo de diseño de los ins- otro estudiante. En otras palabras, la interpretación del trumentos, el proceso de implementación y el análisis o los puntajes obtenidos por un alumno en particular, es posterior de los datos-, debe ser consecuente con este realizada en función de las puntuaciones obtenidas por marco general. un grupo de individuos, las cuales se constituyen como Existen diferentes enfoques para la elaboración de referencia para la interpretación de los puntajes alcanza- pruebas que tienen como objetivo la evaluación de dos por otros alumnos. aprendizajes y existen también distintas teorías que sus- Para analizar las consecuencias prácticas de la apli- tentan su medición, así como diversos diseños entre los cación de este enfoque en educación, y a modo de cuales optar para construir las pruebas de evaluación. introducción a otro, alternativo, tomemos un ejemplo Los siguientes apartados tienen como objetivo presen- sencillo. En principio, imaginemos que a un grupo, se- tar, sintéticamente, el enfoque, la teoría de la medición leccionado como representativo, se le administra una y el diseño, adoptados como marco de referencia del prueba, y éste realiza de modo correcto, en promedio, el Operativo Nacional de Evaluación (ONE) 2009. 0% de dicha prueba. Luego, un alumno en particular, contesta correctamente el 50% de la misma, que, por comparación con el grupo normativo, puede traducirse b) sobre el enfoque de la medición en una calificación de 8 puntos. Dentro de este contex- to, supongamos también, que el docente valore como Los enfoques vigentes, para abordar operativos de “insatisfactorio” que el alumno haya contestado sólo el evaluación educativa, a nivel nacional e internacional, 50% de la prueba, ya que, a partir del proceso de apren- son dos, y se diferencian en cuanto al eje de referencia dizaje en cuestión, espera un dominio mayor de los con- que cada uno adopta tanto para la elaboración de las tenidos y capacidades evaluados. Surge entonces una pruebas como para la interpretación posterior de los re- discrepancia entre la calificación 8 (ocho), que señala un sultados obtenidos. Desde este modo, este tipo de me- rendimiento muy bueno, y el criterio pedagógico, que diciones se dividen entre aquellas referidas al grupo valora los conocimientos como insatisfactorios. Dicha normativo y las referidas al criterio. No existe una discrepancia alude al núcleo de las diferencias entre el connotación de valor alguna asociada a cada uno de enfoque referido a la norma –comparación- y el referido estos enfoques. Optar por uno u otro viene dada por el al criterio –pedagógico-. propósito de la evaluación. Si bien la evaluación referida a normas resulta muy Es digno de aclarar que, frecuentemente, se carac- útil en la medición de numerosas variables, es obvio que terizan a las pruebas como referidas al grupo normativo no es la más adecuada para valorar los aprendizajes. En o al criterio, sin embargo, esta terminología es inapro- el contexto educativo, y especialmente en la evaluación piada. No es la prueba, sino el marco de referencia para de los aprendizajes, es conveniente la medición referi- interpretar el desempeño en la prueba, lo que se refiere da a criterios, orientada a partir de la definición de las al criterio o a la norma; de hecho, ambos tipos de inter- capacidades y contenidos en juego. En las evaluaciones pretación pueden utilizarse en una prueba determinada. educativas, los contenidos comunes de los currículos ofi- Luego de subrayar estos conceptos, veamos, concreta- ciales -los cuales identifican los dominios conceptuales
  • 54 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación y los procesos cognitivos involucrados en los distin- Teoría de Respuesta al Ítem (TRI). tos niveles educativos-, constituyen la referencia de los Un test siempre se propone establecer inferencias criterios adoptados. sobre los rasgos psicológicos (no observables) de los su- Resumiendo, tanto la elaboración de instrumentos jetos basándose en la información que manifiestan en como la interpretación de los resultados referida a crite- las respuestas. Tanto la TRI como la TCT consideran que rios, es, sin duda, la más adecuada en el ámbito educati- cada sujeto lleva asociado un parámetro individual. En vo, ya que es el enfoque más congruente con los propó- la TRI se denomina aptitud, incluyendo cualquier rasgo sitos de las evaluaciones que se realizan en esta área. psicológico y se simboliza por la letra griega  (zeta), Consecuentemente, a partir de 2005, se ha seleccio- mientras que en la teoría clásica se denomina puntaje nado este enfoque de la medición como marco de las verdadero (V). evaluaciones llevadas a cabo a través de los Operativos La TCT es una teoría útil para describir la influencia Nacionales de Evaluación (ONE), ya que permite determi- de los errores de medida en las puntuaciones observadas nar si los alumnos han logrado un nivel predeterminado, u obtenidas a través de instrumentos, y sus relaciones a partir de un criterio prefijado, en una disciplina dada. con las puntuaciones verdaderas. Se basa en el Modelo Los instrumentos derivados de este tipo de enfoque Lineal de Spearman, desarrollado a principios del siglo requieren descripciones detalladas de lo que miden, con XX. Se trata del primer modelo que aborda el problema el fin de brindar información precisa sobre los logros res- de la incertidumbre o error inherente a cualquiera de las pecto de un estándar. En la escuela y más allá de ella, la medidas realizadas mediante la aplicación de un test. información provista por instrumentos elaborados con Aún cuando posteriormente se han desarrollado nuevas este enfoque resulta útil, en principio, a maestros que teorías -tales como la TRI-, la TCT continúa vigente. desean mejorar sus prácticas instrucción, a directores e La diferencia principal entre la TCT y los diversos mo- inspectores que necesiten apoyar a los profesores y a los delos basados en la TRI, es que la relación entre el valor diseñadores tanto de políticas para mejorar las escuelas, esperado y el rasgo o aptitud, en la primera es de tipo como a los diseñadores de currículum y de textos que lineal, mientras que en los modelos de la TRI las rela- requieran verificar la efectividad de ambos, curriculum ciones pueden ser funciones de tipo exponencial, tales y textos. como los modelos de Poisson, de la ojiva normal, del Desde el punto de vista de las distintas fases de error binomial, el modelo de Rasch o los modelos logís- construcción de una prueba basada en este enfoque, ticos de 1,2 o  parámetros. Existen numerosos criterios la primera y fundamental, es aquella que tiene como con los cuales comparar la TCT con la TRI, muchos de objetivo explicitar el criterio lógico de selección de los ellos, como los mencionados arriba, son muy técnicos. ítems, teniendo en cuenta que el más adecuado será Numerosas publicaciones dan cuenta de ellos, en el pre- aquel que permita separar mejor a los examinados de sente trabajo se prefiere más bien hacer referencia a al- acuerdo con sus niveles de desempeño en los distintos gunos aspectos conceptuales. dominios. Es digno de subrayar que los criterios deben Sintéticamente, señalemos que la limitación más im- ser definidos a priori, y que estas definiciones son las portante de los tests elaborados según la TCT es que no que permitirán el cierre del proceso de evaluación, al permiten separar las características del examinado de las permitir la interpretación de los resultados de los estu- características del test: cada uno de estos aspectos sólo diantes examinados en términos de logros del dominio puede ser interpretado en el contexto de la interacción o la aptitud en cuestión. entre unas y otras. En concreto, la aptitud de un exami- nado se define en términos de un test o prueba específi- ca. Si el test es “difícil” el examinado aparecerá como de c) acerca de la teoría de la medición poca aptitud, si el test es “fácil” el examinado parecerá tener mucha aptitud. La dificultad de un ítem se define, Toda medición científica se halla fundamentada en según la TCT, como la proporción de examinados que una teoría de la medición que tiene como objetivos contesta el ítem correctamente en un grupo determina- proveer fundamentos conceptuales que permitan esta- do. A su vez, las características métricas de la prueba, blecer asociaciones entre diversos sistemas formales y tales como la confiabilidad y la validez, se definen tam- los atributos que interesa medir; mejorar la utilidad y la bién en términos de un grupo determinado de examina- precisión de las mediciones; analizar distintas propues- dos a partir del cual se construye el baremo o las normas tas para describir, categorizar y evaluar la calidad de las de interpretación de las puntuaciones. Esto implica que medidas y desarrollar nuevos métodos en la obtención es muy difícil comparar los resultados de examinados de instrumentos de mayor calidad. que han sido examinados con distintas pruebas. La necesidad de este sustento teórico es particular- Para subsanar estas limitaciones, en la década de mente relevante en disciplinas como la psicología y la 1960, numerosos investigadores comenzaron a difun- educación, que se interesan por medir aspectos que no dir y aplicar otros métodos de control experimental, el son directamente observables, y que, por tanto, deben del ajuste estadístico. Este último requiere la parame- inferir atributos subyacentes a partir de los comporta- trización explícita de la aptitud que interesa evaluar, así mientos observables de los examinados. como de las propiedades de los ítems, según un modelo En la actualidad, en términos generales, se dispone que relacione sus valores con los datos de las respuestas de dos teorías que sustentan la construcción de pruebas relevadas a través de la aplicación de la prueba. Si el psicométricas: la Teoría Clásica de los Tests (TCT) y la modelo se sostiene y los parámetros de los ítems se co-
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 55 nocen, el modelo ajusta los datos según las propiedades Curvas Características de Ítems (CCi). La CCI es de los ítems del test y por lo tanto puede ser usado para una función matemática que relaciona la probabilidad producir mediciones de la aptitud que están libres de las de éxito en una pregunta con la habilidad, medida por propiedades de los ítems de la prueba aplicada. el conjunto de ítems que la contienen. Todo ítem puede La puntuación de una prueba en el modelo clásico describirse por su CCI y es esta curva la unidad concep- estima el nivel de un atributo (aptitud, dominio de una tual básica de la TRI. capacidad evaluada a través de determinado contenido) Existen diferentes modelos de la TRI que se diferen- como la suma, más estrictamente, la sumatoria, de res- cian en la forma particular que adquiere la función de puestas a ítems individuales, mientras que la TRI utiliza probabilidad, la cual constituye el número específico de el patrón de respuesta. De este modo, la TRI constituye parámetros a analizar. El modelo utilizado para el pro- el marco adecuado para el análisis de los aspectos vitales cesamiento y análisis de los datos del ONE 2009 es el de las pruebas educativas construidas con el enfoque re- Modelo de Rasch. ferido al criterio. Permite evaluar, sobre el dominio de la Por último, es digno de subrayar que las mediciones escala de aptitud, la separación efectiva entre niveles. referidas al criterio (v. apartado 1), de antiguo uso, han La TRI posee ventajas considerables con relación al recibido un nuevo impulso en el ámbito educativo den- paradigma clásico, tales como las de generar medidas tro del marco teórico de la TRI. De este modo se señala diferentes con ítems estrictamente comparables y no la congruencia entre la elección del enfoque y la teoría dependientes de las muestras específicas de investiga- adoptados en el ONE 2009. ción, así como alcanzar un verdadero nivel intervalar de medición. Este modelo posee también dificultades en su implementación, ya que requiere de muestras grandes d) Cuestiones relacionadas con el diseño –entre 200 y 500 sujetos- para calibrar los ítems, pero esta desventaja no resulta un problema en operativos de Los diseños que pueden aplicarse para llevar a cabo una amplio alcance como los ONE. evaluación de aprendizajes son muy variados. Capitali- Una aplicación sumamente útil, de la TRI es que zando la experiencia adquirida en operativos anteriores posibilita la construcción de bancos de ítems, vale decir, e incluyendo novedades teórico-técnicas, a partir del un conjunto de ítem que miden una misma variable y ONE 2009, se ha optado por dividir en dos pruebas la cuyos parámetros están estimados en una misma escala. evaluación de cada estudiante en un dominio específico, Estos ítems con sus parámetros se pueden almacenar y una de ellas constituida por reactivos de opción múltiple, construir en los llamados bancos de ítems. de respuesta cerrada, y la otra por ítems que implican la En resumen, la TRI intenta dar una fundamentación construcción de respuesta, llamados también abiertos. probabilística al problema de la medición de constructos Ambas se administran durante la misma jornada, con un inobservables. Su denominación proviene del hecho de breve intervalo de tiempo -receso, recreo-, entre ellas. considerar al ítem como unidad básica del test. Los mo- El diseño seleccionado apunta a asegurar la mayor co- delos que utiliza son funciones matemáticas que relacio- bertura de las respuestas y de este modo evaluar una nan las probabilidades de una respuesta particular a un diversidad de contenidos y procesos cognitivos. ítem con la aptitud general del sujeto. Si bien su origen Concretamente, cada estudiante responde a dos no es tan nuevo, dada la complejidad de los cálculos cuadernillos (uno con ítems cerrados y otro con ítems para su aplicación solo empezó a difundirse y utilizarse abiertos), asignados en forma aleatoria, excepto los des- gracias a programas de computación específicos como tinados a la evaluación del área Comprensión Lectora, BIGSTEP, LOGIST, BILOG, entre otros. en la cual se conserva un nexo prefijado entre un texto Como todo modelo matemático, la TRI incluye un del Cuadernillo con ítems cerrados y los ítems abiertos. conjunto de supuestos acerca de los datos en los cua- El cuadernillo con los reactivos de opción múltiple les se aplica. En términos generales, consideran tres su- cuenta con 0 ítems, mientras que los de construcción puestos básicos: de respuesta están conformados por 2 ítems. El proceso de construcción de los reactivos con res- unidimensionalidad. Supone que cuando se dise- puesta cerrada ha sido llevado a cabo mediante la im- ña una prueba, una única habilidad es necesaria para plementación de un diseño matricial. explicar o dar cuenta del desempeño del examinado en Se trata de un tipo de diseño que se ha mostrado ade- la prueba. Si bien se reconoce que cuando un estudiante cuado en evaluaciones educativas internacionales porque responde a un ítem en una prueba confluyen múltiples brinda soluciones a los problemas que intervienen cuan- habilidades, los ítems deben diseñarse haciendo énfasis do las variables a considerar son muy numerosas. Su ins- en una de ellas o en una combinación particular prede- trumentación implica la elaboración de un conjunto am- finida. plio de ítems que cubran el dominio del currículo que se desea evaluar. Luego estos ítems se dividen en grupos de independencia local. Se espera que un estudiante preguntas denominados bloques, de tal modo que cada evaluado responda a un ítem en particular sin que recu- uno evalúa de modo incompleto dicho dominio. De ahí, rra a información de otros ítems para hacerlo correcta- que, específicamente, el diseño presenta una estructura mente. Es decir, la ejecución en un ítem no debe afectar en cuadernillos con bloques incompletos balanceados, sus respuestas en otro. que en su conjunto permiten evaluar una amplia gama de dominios y procesos en los aprendizajes a evaluar.
  • 56 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación De esta manera, las pruebas construidas con este di- seño permiten evaluar un amplio rango de contenidos curriculares distribuyendo los contenidos de un dominio de contenido en distintas pruebas, aunque cada estu- diante en particular resuelve cuestiones relacionadas con una parte del dominio (cada uno de formatos o mo- delos de la prueba, que se aplica a cada estudiante está conformado por dos bloques). Cada bloque de ítems cerrados está conformado por 15 ítems. Los 8 bloques de ítems cerrados se distribuyen en forma de espiral a razón de dos por cuadernillo. De este modo resultan 8 Cuadernillos o Modelos de ítems cerrados y 4 Cuadernillos o Modelos de ítems abiertos. Cada cuadernillo de administración, compuesto por ítems cerrados, consta, entonces, de dos de los bloques, que van alternando su posición a lo largo de distintos cuadernillos de tal forma que el que se aplicó en la pri- mera posición aparezca en otro ocupando la segunda y viceversa, como se ejemplifica en la siguiente tabla. Nombre del Nombre del Nombre del bloque en 1º bloque en 2º cuadernillo posición posición PMC1 M_1 M_2 PMC2 M_ M_4 PMC M_5 M_6 PMC4 M_7 M_8 PMC5 M_2 M_ PMC6 M_4 M_5 PMC7 M_6 M_7 PMC8 M_8 M_1 En otras palabras, aunque cada alumno -a la hora de la aplicación del ONE 2009-, contesta sólo algunos reactivos, el diseño que enmarca el operativo de evalua- ción en su conjunto, provee información sobre la tota- lidad de las capacidades y contenidos de los dominios en cuestión. Para la prueba ONE 2009, se han construido, para cada área, en cada nivel, la siguiente cantidad de ítems: Cantidad Cantidad Tipo de Cantidad de bloques de Cuader- ítem de ítems (15 ítems) nillos Abiertos 4 --- 4 Cerrados 120 8 8 El procesamiento de la información aportada por la aplicación piloto de esta cantidad de ítems permitirá se- leccionar las pruebas más confiables y válidas que serán administradas en el ONE 2009 definitivo.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 57 “Evaluación. Enfoques metodológicos” Justificación para un cambio de Por lo tanto, se propone seguir con el empleo de estos análisis para el procesamiento y la producción de enfoque en cuanto a los ONE: de resultados, a fin de construir la necesaria “continuidad” pruebas referidas a normas a pruebas en todo proceso educativo y el “enriquecimiento” hacia referidas a criterios. ¿Para qué?, ¿por la nueva propuesta. Pero para resignificar, en términos del sentido y del qué? y ¿en qué consiste? valor, los procesos de evaluación de la calidad educativa se hace necesario “revisar” los criterios políticos y téc- “Creo que llega el momento de empezar a llamar nicos-pedagógicos asumidos a lo largo de estos años, a las cosas por su nombre, nos hemos propuesto y desde allí, a partir del disenso y el consenso entre los evaluar calidad y estamos midiendo, no evaluando. diferentes actores, construir nuevos y/o complementa- Evaluar exige tener un patrón con qué compararse y rios criterios de evaluación enmarcados en un contexto ese patrón no está del todo claro.” 11 diferente y regidos por la crítica, la reflexión y la toma de conciencia en esta compleja problemática, a fin de lograr una “apropiación” por parte de los actores edu- Como señala la cita que inicia este trabajo, pensar cativos de los objetivos propuestos. en la evaluación de la calidad educativa “exige” tener Durante muchos años, en la DINIECE se utilizó la un patrón con qué compararse, claro y específico. Así es Teoría Clásica de las Pruebas (TCP) para diseñar instru- como se ha adoptado la decisión política de redefinir la mentos de evaluación. Los resultados se presentaron en evaluación tal como se viene desarrollando, y se solici- términos de porcentaje de respuestas correctas. El por- tó a los equipos técnicos-pedagógicos de la DINIECE, la centaje medio de aciertos expresa cuál es el tanto por elaboración de un nuevo diseño de pruebas para evaluar ciento medio de aciertos de los alumnos en los ítem de la calidad educativa. las distintas pruebas, pero no lo que los alumnos saben A partir de una demanda bastante generalizada, o no saben. No es válido identificar el éxito o fracaso en proveniente de diferentes sectores, se torna relevante función de un valor medio de aciertos, y no existe valor la búsqueda y explicitación de una definición de sentido alguno que, a priori, pueda considerarse como rendi- y de valor sobre los procesos vinculados a la evaluación miento satisfactorio o insatisfactorio. Con todo, la pre- de la calidad educativa. Atendiendo a este propósito, se sentación de los resultados en términos de porcentajes pensó en un cambio de enfoque para las futuras prue- facilita su interpretación por el lector no especializado. bas nacionales, capaz de generar y de brindar nuevos Hoy, el nuevo diseño de pruebas para evaluar la ca- aportes y diferentes miradas para mejorar las formas de lidad educativa se inicia bajo dos ejes fundamentales: enseñanza y los aprendizajes de los alumnos. el enfoque de Pruebas Referidas al Criterio (PRC) y la Se debe reconocer el enorme esfuerzo realizado por utilización de la Teoría Respuesta al Ítem (TRI) como mo- la Argentina en todos estos años en materia de evalua- delo matemático para el procesamiento y la producción ción de los procesos de la calidad educativa y los logros de resultados. Los resultados se presentan de acuerdo alcanzados en este campo: con escalas de rendimiento para cada área evaluada. La n La utilización de la Teoría Clásica de las Pruebas escala, por ejemplo de 0 a 500, representa el resultado (TCP) llevado a cabo bajo el enfoque de Prue- que habría obtenido un alumno que hubiera contestado bas Referidas a la Norma (PRN). a una teórica prueba de 500 ítems. Se pueden estable- cer puntos de corte en la escala y se definen las tareas n La producción de las Recomendaciones Metodo- que son capaces de realizar aquellos alumnos que alcan- lógicas para el mejoramiento de las formas de zan los respectivos niveles. De esta manera, se introduce enseñanza y los aprendizajes de los alumnos. un elemento criterial en la evaluación. n El apoyo técnico-pedagógico brindado a los Ministerios de Educación Jurisdiccionales en el desarrollo y fortalecimiento de sus propios equipos técnicos. n “Los sistemas de medición han convertido los 11 Lafuente, Marta. En “Evaluar las evaluaciones. Una resultados educativos en un motivo de debate mirada política acerca de las evaluaciones de la calidad público...”(Tedesco, 200) educativa”. IIPE - UNESCO. Argentina 2003.
  • 58 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación En el marco de este enfoque, la DINIECE se propone cométrica, se refiere “al objeto de medición”). brindar información útil y específica sobre el logro de los Se reconoce que cuando una persona responde objetivos fundamentales del currículo por los estudian- a una pregunta en una prueba, entran en juego tes que terminan un nivel o ciclo. múltiples habilidades, pero las preguntas deben Con esta redefinición de la evaluación se persigue diseñarse haciendo énfasis en una de ellas o en ampliar las posibilidades que ofrece la evaluación edu- una combinación de ellas en particular. cativa, a través de pruebas de aplicación a grandes po- n independencia local: se espera que un estu- blaciones. Se busca la posibilidad de tener estadísticos diante responda a una pregunta en particular de ítem y de prueba que sean independientes de las sin que recurra a información de otros ítems poblaciones en las cuales se apliquen, de forma tal que para hacerlo correctamente. Es decir, la res- se pueda realizar el seguimiento necesario de los resul- puesta de un estudiante en una pregunta no tados y tener una idea del efecto de ciertas políticas o debe afectar sus respuestas en otra. Es prácti- programas. ca generalizada elaborar pruebas en donde se La Teoría del Rasgo Latente, también denominada diseñan ítem en relación con un contexto, del Teoría de Respuesta al Ítem, tuvo su origen hace varias que dependen las respuestas del alumno; aquí décadas pero se desarrolla principalmente en los años también se aplica la independencia local entre ochenta, cuando la computadora irrumpe con fuerza en los ítems y no entre ellos y el contexto. Es decir, Estados Unidos, pues los cálculos exigidos para su apli- el supuesto de independencia local implica que cación resultan casi imposibles de poder ser llevados a la respuesta de un sujeto a un ítem es inde- cabo sin disponer de una plataforma informática para el pendiente, estadísticamente, de las respuestas tratamiento de los datos. a los otros, pero no que los ítem de la prueba Esta teoría también tiene su origen en momentos en no estén relacionados. que la psicometría norteamericana reconoce las graves limitaciones que tiene la Teoría Clásica de las Pruebas. n Curva característica del ítem: viene determi- La principal de estas limitaciones tiene que ver con el nada por la función matemática entre el nivel hecho de que los resultados obtenidos con la aplicación de habilidad o rasgo latente medido y la proba- de un ítem, de una prueba, están limitados por las cir- bilidad de responder correctamente al ítem. cunstancias de aplicación, es decir, hacen referencia ex- clusivamente a las situaciones en que se contestan los A continuación se presentan algunos conceptos co- ítems. Todos los estadísticos obtenidos en una aplicación rrespondientes al enfoque de las Pruebas Referidas al concreta de una prueba son relativos a las características Criterio (PRC), a fin de fundamentar el nuevo diseño de de la prueba y de los sujetos evaluados. pruebas para evaluar la calidad educativa. Como consecuencia de lo que acaba de ser señala- Las Pruebas Referidas al Criterio (PRC), representan do, esos estadísticos tienen un valor relativo, en cuanto procedimientos para evaluar el rendimiento y/o conduc- a las muestras de ítem y los sujetos evaluados (Mariano ta de los sujetos con relación a dominios de contenidos Álvaro Page, 199). bien definidos, en vez de por referencia a la conducta La Teoría de Rasgo Latente o Teoría de Respuesta al de otros sujetos, como en las Pruebas Referidas a las Ítem (TRI) parte del supuesto de que las puntuaciones Normas (PRN) (Martínez Arias, Rosario; 1995). obtenidas en un ítem por un sujeto –y por consiguiente Cuando se quiere comparar el logro de ciertos gru- en una prueba- dependen directamente del grado o ni- pos de estudiantes con los de otros, se puede trabajar vel en que ese sujeto posee el rasgo medido. Este rasgo dentro del enfoque de evaluación referida a normas, es “inobservable”, por lo que se lo denomina “rasgo mientras que cuando se quiere conocer qué conoci- latente” y es un constructo que se utiliza para explicar mientos o competencias específicas logran desarrollar el hecho. Hay una relación directa entre el rendimiento los estudiantes se debe recurrir al enfoque de evaluación observable del sujeto, las puntuaciones obtenidas en la referida a criterios. Esta opción es la más conveniente prueba, y el nivel de posesión del rasgo no observable o desde el punto de vista pedagógico porque permite ob- latente. La relación entre las puntuaciones observadas y tener información relevante acerca de los conocimien- el nivel de posesión del rasgo latente se describen me- tos, destrezas y habilidades específicas que un grupo de diante una función matemática. estudiantes logra dominar (Esquivel, Juan Manuel). La teoría pone en relación el nivel de habilidad y la probabilidad de responder correctamente un ítem, por lo que puede definirse como la relación funcional entre el nivel de habilidad y la probabilidad de responder co- ¿Cómo surgen las Pruebas rrectamente un ítem (Mariano Álvaro Page, 199). Referidas al Criterio? (PRC) En términos generales, la TRI considera tres supues- tos básicos (Hambleton y Swaminathan, 1985): La expresión “Pruebas Referidas al Criterio” apareció por primera vez en un artículo de Robert Glaser (196) n unidimensionalidad: en la TRI se asume que titulado “Instructional Technology and the Measurement cuando se diseña una prueba ésta deberá me- of Learning Outcomes: Some Questions” y publicado en dir, preferiblemente, una dimensión, una habili- la revista American Psychologist, (Mariano Álvaro Page, dad (el término habilidad, en su concepción psi- 199).
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 59 No obstante, a pesar de la aparente novedad del tér- n El número de ítem que miden cada objetivo es mino en un momento en que la evaluación estaba do- variable, pudiendo ser diferente el de distintos minada por el paradigma de las diferencias individuales, objetivos dentro de la misma prueba. lo que representan las PRC y su finalidad ya había sido puesto de relieve muchos años antes. En 191, Thorn- n No es necesario que el formato de los ítems sea dike estableció una distinción similar a la de Glaser, que de elección múltiple, aunque es éste el formato fue totalmente olvidada por el desarrollo de la psicome- más frecuente. tría clásica, especialmente en el intervalo comprendido n Una forma habitual para tomar decisiones del entre las dos guerras mundiales. tipo “apto” “no apto” o “pasa” “no-pasa”, En los años sesenta empiezan a comprobarse los re- es comparar la proporción de aciertos del estu- sultados de la enseñanza programada y de otros pro- diante con un criterio estándar de rendimiento, gramas de intervención y se vio que para su evaluación decidiendo que el sujeto “pasa” si su rendi- era preciso un diagnóstico previo de los sujetos antes miento es igual o mayor que el estándar y “no de la intervención, en términos de lo que eran “capaces pasa” en caso contrario. de hacer”. Las pruebas tradicionales con su énfasis in- terpretativo en el rendimiento del grupo normativo, no Los requisitos básicos para que una prueba pueda servían para esta finalidad ya que no proporcionaban la ser considerada PRC son los siguientes: información necesaria sobre el rendimiento del sujeto. Con raras excepciones, como las que representan los trabajos de Hively (1968), Osburn (1968) y Popham y n La existencia de un conjunto de objetivos, con- Husek (1969), puede decirse que no fue hasta el co- tenido, capacidades, desempeños claramente mienzo de los años setenta cuando comenzó a trabajar- definidos. se de forma sistemática sobre este tipo de pruebas. n Una proposición explícita de la finalidad de la prueba. ¿Qué son las Pruebas Referidas al Criterio (PRC) y cuáles son sus características? ¿Cuáles son las diferencias entre las Pruebas Referidas a las Normas y Se debe señalar en primer lugar que no es fácil dar una definición de PRC, ya que no existe uniformidad ni las Pruebas Referidas al Criterio? siquiera en la denominación dada. La palabra criterio se En apariencia hay pocas diferencias entre PRN y PRC refiere al dominio de contenidos o conductas. ya que ambos tipos de pruebas suelen estar compuestas La definición que hoy es más aceptada es la de Po- por ítem con formatos similares; requieren el mismo tipo pham (1978): “un test referido al criterio se utiliza para de operaciones cognitivas de los sujetos, etc. No obstan- evaluar el estatus absoluto del sujeto con respecto a al- te, hay numerosas diferencias tanto en la construcción, gún dominio de conductas bien definido”. como en la interpretación de las puntuaciones. Hambleton y Rogers (1991) hacen una serie de pre- Las PRN y las PRC difieren en primer lugar en la fina- cisiones a esta definición. En primer lugar, además de lidad de la evaluación. En las PRC el objetivo es deter- dominio de conductas, puede hablarse intercambiable- minar el estatus actual del rendimiento o conducta de mente de objetivos, destrezas y competencias. En se- un sujeto, o una clara descripción de sus características, gundo lugar, el dominio debe estar bien definido, siendo normalmente con objeto de clasificarlo en una categoría variable la amplitud y los contenidos de este dominio, determinada: pasa-falla; etc. Hambleton y Rogers (1991) ya que éstos dependen de la finalidad de la prueba. En encuentran una cierta analogía con las denominadas tercer lugar, cuando una PRC incluye más de un objeti- pruebas de diagnóstico. vo, los ítem que cubren cada uno de los objetivos sue- En las PRN, la finalidad es describir al sujeto en el len organizarse en subpruebas y el rendimiento de los continuo de algún rasgo, expresando su posición relati- sujetos es evaluado en cada uno de los objetivos. En va respecto al grupo de sujetos. cuarto lugar, es una práctica frecuente establecer están- Así pues, en las pruebas referidas a un criterio, las dares de rendimiento o puntos de corte, la definición inferencias que se hacen de las personas son siempre de PRC no incluye explícitamente este requisito, ya que referidas a un determinado objetivo o fin, y se comparan pueden darse interpretaciones meramente descriptivas las puntuaciones obtenidas con los objetivos que esta- del rendimiento de los sujetos, tales como que “Enrique ban previsto alcanzar, en un caso para saber si un sujeto ha respondido correctamente el 75% de las preguntas ha alcanzado cierto nivel y, en otro, para saber si alcan- en la prueba de Geometría”. za el nivel exigido para determinada tarea. En cambio, las pruebas referidas a la norma, la puntuación de cada Otras precisiones: sujeto se compara con las puntuaciones de los demás sujetos a los que se les ha aplicado la prueba, con las n El número de objetivos medidos en PRC puede puntuaciones del grupo o muestra representativa de la variar entre las diferentes pruebas. población a la que pertenece.
  • 60 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación En cuanto a la construcción de la prueba, am- dimiento estructurado para emparejar los ítems bos tipos establecen los elementos en términos de las con el dominio, recoger y resumir los datos. conductas o rendimientos que el sujeto exhibe en al- n Análisis estadístico de los ítems: los datos ob- gún momento determinado. En ambos casos se pone tenidos en el estudio piloto pueden utilizarse el acento en que las respuestas a valorar sean públicas, para evaluar la eficacia de los ítems en términos estandarizadas y fácilmente objetivables. En las PRN ra- de si funcionan o no en la forma en que estaba ramente se determina un dominio inicial de elementos, previsto. considerando únicamente la teoría del rasgo en la que se basa el autor de la prueba, para determinar la calidad n Los pasos en este proceso son: seleccionar gru- de los ítems. En las PRC la determinación del dominio pos criterios (se refiere a la selección de los es- de contenido o especificaciones de contenido es central tudiantes a los que se les aplicará la prueba); para la construcción de la prueba. calcular los estadísticos del ítem (se refiere a En cuanto a la selección de los ítems, las propie- el índice de dificultad, es la proporción o el dades psicométricas consideradas para su inclusión en la porcentaje de personas que contestan correc- prueba son diferentes. En las PRN el objetivo es maximi- tamente el ítem y el índice de discriminación, zar las diferencias individuales, lo que lleva a la inclusión mide los cambios en el rendimiento o las dife- de un gran número de ítem de dificultad media para rencias relacionadas con la instrucción); y rea- aumentar el poder discriminativo de la prueba, (para lizar un análisis del posible sesgo de los ítem poner de relieve las diferencias individuales, debe maxi- (serán eliminados todos aquellos ítem que usen mizarse la varianza de la prueba, seleccionando ítem de un lenguaje sesgado referido al género, minoría dificultad media y alto poder discriminativo). En las PRC étnica o subgrupo particular). son los objetivos de la prueba los que marcan la norma para la inclusión de los ítems, así como el propósito y la finalidad del mismo. Por ejemplo, cuando se trata de ¿Cuál es la longitud de la prueba? pruebas de “apto” vs. “no apto” para la evaluación de los rendimientos en un programa particular, suelen in- Hambleton, Hutten y Swaminthan (1976) en un es- cluirse elementos fáciles, respondidos por el 70 u 80% tudio empírico en que comparan métodos de obtener de los sujetos. los puntajes de dominio y su efecto en varios factores Por último, otra de las diferencias se encuentra en (entre ellos la longitud de la prueba) concluyen que un los significados de la puntuación, en una PRN las res- número de ítem igual a ocho da “suficiente base para puestas son consideradas como signos del rasgo laten- evaluar el dominio del estudiante o para tomar decisio- te que se pretende medir con la prueba. En las PRC la nes de instrucción para los datos de pruebas con refe- respuesta se considera un estimador de la conducta del rencia a criterios”. dominio (Marines Arias, Rosario 1995). Por su parte Popham (1978) afirma lo siguiente: “Para simplificar un poco, para muchas situaciones edu- cativas en las que se emplearán pruebas con referencia ¿Cómo se realiza a criterios, la prueba debe consistir de 10 a 20 ítem por dominio conductual”. el análisis de los ítems? Por otra parte, Sheehan y Davis (1979) recomiendan menos ítem por objetivo, ya que desarrollaron una bate- El aspecto más crítico en la construcción de un PRC ría de pruebas con referencia a criterios de matemática, después de la especificación del contenido y de los obje- en la que emplearon cuatro ítem por objetivo. tivos es la generación de ítem12 que se conformen a las También, en las pruebas desarrolladas por Esquivel especificaciones del contenido y a los objetivos. (1985) en matemática y ciencias se empleó tres ítems por objetivos. En general se determina que cuando las n La validez del contenido de los ítems: según el decisiones son formativas y para muestras de individuos concepto de validez de contenido, la determi- el número de ítem varía entre tres y cinco por objetivo, nación de este tipo de validez requiere evaluar mientras que decisiones sumativas e individuales requie- el grado en que la muestra de ítem de la prueba ren entre ocho y diez ítem por objetivo. es representativa del contenido del dominio. Se han propuesto diversos procedimientos basa- dos fundamentalmente en el juicio de expertos (Berk 1984). n Puede clasificarse en dos tipos: a) congruencia ítem-objetivo o grado en que el ítem mide el objetivo que pretende medir, b) sesgos de con- tenido. n Crocker y Algina (1986) recomiendan definir el dominio de interés, seleccionar un panel de ex- 12 Para la construcción de ítem ver “Criterios para la elaboración, selección, supervisión, envío de ítem y texto” pertos en el contenido, proporcionar un proce- de la DINIECE.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 61 ¿Cómo se establecen a) Método de Nedelsky: definió el estándar absoluto en términos de “conocimientos y destrezas que un los estándares o puntos de corte? sujeto posee para pasar de curso”. Los define a partir de los elementos de la prueba de elección múltiple, Finalmente, una de las principales funciones de las en términos de la verosimilitud de que los sujetos pruebas es proporcionar datos para la toma de deci- sean capaces de eliminar respuestas incorrectas. siones, especialmente cuando se utilizan TRC. En estas situaciones suele ser necesario establecer un punto de b) Método de Angoff: el procedimiento requiere que corte para decidir acerca del rendimiento del sujeto en los jueces de la muestra de expertos examinen cada la prueba. La práctica de obtener los puntos de corte elemento de la prueba y estimen la probabilidad de para determinar las capacidades mínimas se conoce en que una persona mínimamente competente respon- la evaluación educativa con el nombre de fijación de es- da a cada ítem correctamente. Angoff sugiere que tándares. El estándar es un punto en la escala de las esta probabilidad es más fácil de estimar si los jueces puntuaciones de la prueba que sirve para clasificar a los piensan en términos de un amplio número de indivi- sujetos en dos categorías que reflejan diferentes niveles duos mínimamente competentes y estiman qué pro- de capacidad, con relación a un dominio. Es frecuente porción de este grupo respondería a cada elemento que estas categorías se expresen en términos de “apto” correspondiente. La suma de proporciones represen- o “no apto”, “pasa” o “falla”. Shepard (1984) conside- taría la puntuación mínima aceptable. El método An- ra que es el talón de Aquiles de los TRC. goff hasta el momento es muy utilizado, investigado El tema es tan importante que fue origen de un gran y recomendado. debate durante los años setenta, de tal forma que la c) Método de Ebel: propuso un sistema similar al An- revista “Journal of Educational Measurement” dedicó goff basado en los juicios acerca de los ítems, pero un número monográfico a esta cuestión en 1978. Glass teniendo en cuenta además la relevancia de conteni- realizó una revisión exhaustiva sobre los estándares y do del ítem y su nivel de dificultad. Para la valoración puntos de corte de la que concluye que todos los proce- de cada ítem sugiere usar cuatro niveles de relevan- dimientos son arbitrarios o que están basados en premi- cia –esencial, importante, aceptable y cuestionable- sas arbitrarias (Martínez Arias, Rosario, 1995). y tres niveles de dificultad –fácil, medio y difícil- d) Método de Jaeger: intenta hacer la tarea de los Clasificación de procedimientos jueces más simple y concreta. Cada juez debe res- ponder con Sí o No a la siguiente pregunta, para Ante la multiplicidad de métodos, fue necesario es- cada ítem “¿será capaz de responder correctamente tablecer algunos esquemas de clasificación. Meskauskas a este ítem un sujeto que reciba la calificación de (1976) propuso dividirlos en “modelos de estado” y apto en un examen de...?” y “si no responde al ítem “modelos continuos”, siendo los modelos de estado los correctamente, ¿se le negaría el diploma? Sí... No... que asumen que la capacidad es binaria, ya que el sujeto domina el tema o no lo domina; los modelos continuos A pesar de los avances técnicos, todavía existen difi- asumen que el rasgo o constructo evaluado es continuo cultades importantes en el establecimiento de estánda- y que el papel de los métodos consiste en determinar res, Angoff expresa “hemos observado que los diversos el nivel del rasgo que determina un rendimiento com- procedimientos de juicio para establecer estándares, no petente. solamente plantean problemas de acuerdo entre sí, sino Se han propuesto muchos modelos de estado, pero también de obtener los mismos resultados en la aplica- apenas se han usado en las aplicaciones prácticas, domi- ción repetida. nando este ámbito los modelos continuos. Hambleton y Eignor (1980) Hambleton y Rogers (1990) hacen una cla- 2) Métodos basados en el rendimiento de grupos de sificación de éstos en tres tipos denominados “modelos validación: muchos autores sugieren que el criterio de empíricos, modelos de juicios y modelos combinados”. validez para evaluar un estándar debe determinarse juz- Jaeger (1989) considera que en todos está implícito el gando los rendimientos de los sujetos examinados. juicio y prefiere clasificarlos en “modelos centrados en la prueba” y “modelos centrados en el rendimiento de a) Método del grupo límite. los sujetos”. b) Método de los grupos de contraste. c) Otros métodos empíricos. Descripción de los procedimientos ) Métodos basados en los errores en las decisio- 1) Basados en juicios sobre el contenido de la prue- nes: Van der Linden (1980) “no es una técnica para es- ba: son un conjunto de procedimientos basados en jui- tablecer estándares, sino una técnica para minimizar las cios sobre los elementos de la prueba. Aunque se han consecuencias de los errores de medida y de muestreo”. desarrollado muchos, los que mayor trascendencia han Son modelos continuos que asumen una variable latente tenido son los de Nedelsky (1954), Angoff (1971), Ebel continua con un estándar predeterminado. (1972) y Jaeger (1978).
  • 62 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 6 Anexos Anexo 1 ¿Cómo se construye una 6 / revisar la prueba. Usar los resultados de 5- c. para la revisión. Prueba Referida al Criterio? 7 / Preparar la forma definitiva de la prueba. Hambleton y Rogers (1991) proponen 11 dimensio- a) Determinar la longitud de la prueba, número de nes en la construcción de una PRC. Dependiendo de la formas necesarias y número de ítem por objetivo. finalidad de la prueba se tendrá en cuenta a cada una b) Seleccionar ítem del conjunto analizado. de las dimensiones. 1 c) Preparar instrucciones, ejemplos, cuadernillos, ho- jas de respuestas, claves de corrección, etc. 1 / Planteamientos iniciales. d) Especificar posibles modificaciones a las instruc- a) Especificar el propósito de la prueba. ciones, tiempo para alumnos con necesidades es- b) Especificar los objetivos, contenidos, capacidades, peciales, etc. desempeños que la prueba pretende evaluar. c) Especificar los grupos a los que se aplicará la prueba: 8 / establecimiento de un estándar o punto características sociodemográficas, lingüísticas, etc. de corte. d) Decidir el formato de los ítems. a) Determinar si es necesario establecer un estándar e) Determinar el tiempo y los recursos económicos de rendimiento, si no lo es, pasar a 9. que se pueden dedicar a la construcción de la b) Establecer el o los estándares, si habrá más de dos prueba. categorías. f) Identificar y seleccionar jueces expertos en el con- c) Especificar modificaciones a los estándares para tenido de la evaluación. posibles casos especiales. g) Especificar la longitud de la prueba y el tiempo d) Especificar interpretaciones alternativas de las aproximado de cumplimentación. puntuaciones de la prueba para los casos de c. 2 / revisión de los objetivos. 9 / aplicación en forma piloto de la prueba a) Revisar las descripciones de los objetivos para de- definitiva. terminar si son o no aceptables. a) Diseñar la aplicación de la prueba para recoger da- b) Seleccionar el conjunto definitivo de objetivos que tos acerca de la fiabilidad y validez. evaluará la prueba. b) Aplicar la prueba a muestras representativas de c) Preparar especificaciones de contenidos para los alumnos. ítems de cada objetivo y revisarlos en cuanto a su c) Evaluación del procedimiento de administración, claridad, seguridad. ítem, fiabilidad y validez. d) Hacer las revisiones finales a partir de los datos 3 / redactar los ítems. anteriores. a) Construir un número de ítem considerablemente mayor que el definitivo para el estudio piloto. 10 / Preparación del manual de instrucciones. b) Introducir los ítems en un banco de ítem. a) Manual para los aplicadores de la prueba. c) Edición de los ítems. b) Manual técnico. 4- / evaluación de la validez de contenido. 11 / recogida de datos adicional para el análisis a) Identificar un grupo de expertos en el contenido sobre fiabilidad y validez. de la prueba y especialistas en evaluación. b) Examinar el grado de emparejamiento entre ítem y objetivos, representatividad del contenido, etc. c) Revisar la adecuación técnica de los ítems. 13 Extraído de: Martínez Arias, Rosario. d) Revisar de nuevo los ítems. e) Escribir ítems adicionales si es necesario. 14 Camilli y Shepard: “sesgo de un test es una fuente de invalidez o error sistemático que se refleja en cómo un test mide a los miembros de un grupo particular”. El sesgo ha 5 / aplicación de la prueba. sido estudiado fundamentalmente en diferencias relaciona- a) Preparar una prueba piloto. das con la etnia o el género. También, como la clase social, b) Administrar la prueba a muestras adecuadas. edad, religión, etc. c) Realizar el análisis de ítem y estudio del sesgo14.
  • 64 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación BIBLIOGRAFÍA · Nunnally, Jum C. y Bernstein, Ira J. “Teoría Psico- · UNAM. “La evaluación referida a un criterio: un métrica”. McGraw-Hill/Interamericana de Méxi- modelo en el proceso de formación”. Área de eva- co, 1995. luación, 1976. · Page, Mariano Á. “Elementos de Psicometría”. Eu- · IIPE – UNESCO. “Evaluar las evaluaciones. Una mira- dema, 1993. da política acerca de las evaluaciones de la calidad educativa”. Argentina, 2003. · Esquivel, Juan M. “El diseño de las pruebas para medir logro a académico: ¿Referencia a Normas o a · Sachs Adams, Georgia. “Medición y evaluación en Criterios? Costa Rica. educación, psicología y guidance”. Barcelona, Her- der, 1970. · Esquivel, Juan M. “Medición de la calidad de la en- señanza”. Costa Rica, 1986. · House, E. R. “Evaluación, ética y poder”. Morata, 1994. · Martínez Arias, Rosario. “Psicometría: Teoría de los Test Psicológicos y Educativos”. Editorial Sínte- · Tenti Fanfani, Emilio (Comp.) “El rendimiento esco- sis, 1995. lar en la Argentina”. Losada, 2002. · Meherens, W.A. “Medición basada en Normas y en Criterios”. CECSA. México, 1982.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 65 Anexo 2 GRÁFICO 1 / Circuito metodológico y pedagógico de la elaboración y aplicación de los instrumentos de evaluación e interpretación y comunicación de los resultados. Como parte de las acciones de evaluación, se elabo- caciones es la de un cuadro de doble entrada en el que ran pruebas que evalúan el dominio de contenidos y ca- se ingresan dos tipos de información: las capacidades y pacidades a fin de relevar información sobre el nivel de los contenidos a evaluar, que surgen de los CbC de la logros y dificultades de los alumnos de un determinado EGB y del Polimodal, de los diseños curriculares jurisdic- año en distintas áreas de conocimiento. cionales y de las opiniones de los expertos acerca de lo Las pruebas están conformadas por un conjunto de que se enseña en las escuelas. ejercicios cerrados, de respuesta fija de selección múlti- Los contenidos y capacidades listados para cada área ple y por ejercicios de respuesta abierta, de desarrollo. han surgido de acuerdos gestados entre las jurisdiccio- Cada ejercicio de selección múltiple está constituido por nes a mediados de la década del ’90. Los ejercicios tie- un cuerpo y cuatro distractores. Sólo uno de ellos cons- nen una distribución proporcional de valores al interior tituye la respuesta correcta. de cada tabla, justamente, por su peso en los CbC de la Los ejercicios se diseñan, seleccionan y organizan EGB y del Polimodal, en los diseños curriculares jurisdic- de acuerdo con los contenidos y capacidades estable- cionales y según las opiniones de los expertos acerca de cidos en las tablas de especificaciones (Paso 1 Del lo que se enseña en las escuelas. Cada cruce identifica GráFiCo 1). una capacidad determinada en relación con un recorte Una de las formas usuales de las tablas de especifi- del saber.
  • 66 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación El conjunto final de contenidos y capacidades a ser evaluados cumple con las siguientes condiciones: Son centrales desde el punto de vista de la disciplina. Están presentes en los diseños curriculares de todas las CONTENIDOS jurisdicciones. Y CAPACIDADES Tienen alta probabilidad de haber sido enseñados. CONDICIONES Tienen la posibilidad de ser evaluados en forma escrita. Cuentan con la posibilidad de ser evaluados en forma masiva. Por estas razones, las tablas de especificaciones Al construir los ejercicios de las distintas áreas del son un instrumento indispensable para la construcción saber (Paso 2 Del GráFiCo 1) se tienen en cuenta de las pruebas otorgándoles un alto nivel de validez y ciertos criterios: confiabilidad. La consigna de trabajo debe ser escrita en forma clara, breve y simple. Deben tener vocabulario adecuado para los estudiantes. Deben ser apropiados al nivel cognitivo de los estudiantes. Deben tener un nivel apropiado de dificultad. Deben tener una única respuesta correcta. El cuerpo principal debe ser claro y poseer solo la información CRITERIOS necesaria para la resolución del ejercicio. La inclusión de gráficos y/o ilustraciones debe aportar información significativa que ayude a la comprensión del ejercicio y su resolución. Cada uno de los distractores debe plantear una respuesta que, aunque errada, responda a “cierta lógica” del estudiante y/o presentar errores comunes o ideas falsas corrientes. Los distractores deben ser similares en longitud, complejidad y estructura gramatical entre sí y con la respuesta correcta.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 67 Una vez construidos los ejercicios, son revisados por A partir del análisis de los logros y de los errores co- especialistas en contenidos que supervisan la corrección metidos con mayor frecuencia en los ejercicios, se plan- “científica” de los mismos; por pedagogos que analizan tean recomendaciones metodológicas para la ense- la pertinencia didáctica y por correctores de estilo que ñanza que pueden ayudar a superar estas dificultades corrigen la sintaxis y la normativa (Paso3 Del Grá- (Paso 9 Y 10 Del GráFiCo i), que son enviadas a FiCo i). todas las escuelas, jurisdicciones y organismos e institu- Las pruebas se elaboran previendo, también, los ciones públicas y privadas, así como a la prensa para su diferentes niveles de dificultad de cada ejercicio. Estos difusión (Paso 11 Del GráFiCo i). niveles de dificultad, que en un principio responden a hipótesis de expertos, son probados con pequeños gru- pos de alumnos y en operativos piloto (Paso 4 Y 5 Del En suma, las pruebas de evaluación de la GráFiCo i). calidad se construyen para evaluar los nive- A continuación, se presentan ejemplos de ejercicios les de rendimiento académico en distintos con diferente nivel de dificultad: años del sistema educativo y en distintas Una vez probada en las muestras pilotos la calidad áreas disciplinares; definiendo estos niveles psicométrica de los ejercicios y sus niveles de dificultad, en términos de los contenidos y de las capa- se integran a las pruebas en las proporciones estableci- cidades que poseen los alumnos. das en las tablas de especificaciones, tratando que los ejercicios de resolución fácil, mediana y difícil se encuen- tren distribuidos armónica y representativamente a lo largo de todo el instrumento para facilitar su resolución (Paso 6 Y 7 Del GráFiCo i). Los criterios de calidad estadística que se toman en cuenta para estas pruebas, a fin de seleccionar los ejercicios, son los siguientes: Índice de discriminación: indica la capacidad del ejercicio para diferenciar entre los alumnos que obtienen alto CRITERIOS rendimiento y los que obtienen bajo rendimiento. DE CALIDAD PSICOMÉTRICA Índice de dificultad: indica el porcentaje de alumnos que responde correctamente el ejercicio.
  • 68 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 69 Adenda Capacidades Cognitivas ONE 2009 Matemática En Matemática se evalúa una capacidad cognitiva general: la Resolución de Problemas. A los efectos de la evaluación, se han considerado tres capacidades cognitivas específicas, incluidas en la resolución de problemas: Capacidad Cognitiva general Descripción Solución de situaciones nuevas para el alumno, en las que necesita usar los conocimientos matemáticos de que dispone. La resolución de problemas puede resolución requerir de los estudiantes: reconocer, relacionar y utilizar información; determi- de problemas nar la pertinencia, suficiencia y consistencia de los datos; reconocer, utilizar y rela- cionar conceptos; utilizar, transferir, modificar y generar procedimientos; juzgar la razonabilidad y coherencia de las soluciones y justificar y argumentar sus acciones Capacidades Cognitivas Descripción específicas reconocimiento de Capacidad cognitiva de identificar datos, hechos, conceptos, relaciones y propie- datos y conceptos dades matemáticas, expresados de manera directa y explícita en el enunciado. resolución de operaciones Reemplaza a la anterior Operar usando algoritmos. Consiste en la resolución de (mediante distintos operaciones usando distintos procedimientos. procedimientos) resolución de situaciones Capacidad cognitiva de solucionar situaciones problemáticas contextualizadas, en contextos intramatemáticos presentadas en contextos que van desde los intramatemáticos hasta los de la y/o de la vida cotidiana realidad cotidiana. interpretar información: n Comprender enunciados, cuadros, gráficos n Diferenciar datos de incógnitas n Interpretar símbolos, consignas, informaciones n Manejar el vocabulario de la matemática n Traducir de una forma de representación a otra, de un tipo de lenguaje a otro expresión o emisión de procedimientos y resultados Comunicación n Describir procedimientos de resolución utilizados en matemática n Redactar correctamente la formulación de un resultado n Describir las distintas etapas de una construcción geométrica n Describir las distintas etapas de un cálculo n Redactar una justificación, una argumentación n Completar un cuadro, un gráfico n Producir un texto, un cuadro, un gráfico, un dibujo n Expresarse con un adecuado vocabulario matemático n Formular un problema o situación problemática
  • 70 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación Lengua CaPaCiDaDes CoGnitivas: Operaciones menta- Los contenidos específicos que se evalúan dentro de les que el sujeto utiliza para establecer relaciones con y estas tres capacidades son: entre los objetos, situaciones y fenómenos. Se logran a través del proceso de enseñanza y del proceso de apren- dizaje y cobran significado de acuerdo con la determina- Información explícita.Secuencia de hechos eXtraer ción de contenidos socialmente relevantes y altamente o ideas.Resumen.Procedimientos textuales significativos, frente a los que se ponen en juego y a específicos de cada tipo textual (narratición, través de los cuales se desarrollan. En el área de Lengua, explicación, argumentación). la capacidad general que evalúa nuestra prueba es la comprensión lectora. Dentro de ella se encuentran las interPretar Tema, idea central, tesis.Relaciones tex- siguientes capacidades: tuales.Procedimientos de cohesión (re- ferencia, paráfrasis, elipsis, conectores, etc.).Procedimientos textuales. Enunciación. eXtraer: Localizar información en una o más partes Características de personajes.Vocabulario. de un texto. Tipología textual.Géneros discursivos. evaluar Los lectores deben revisar, buscar, localizar y seleccionar la información. Deben cotejar la Principios constructivos del texto literario. información proporcionada en la pregunta Tipos de narradores.Variedades y registros con información literal o similar en el texto y lingüísticos. utilizarla para encontrar la nueva información solicitada. interPretar: Reconstruir el significado global y local y hacer inferencias desde una o más partes de un texto. Los lectores deben identificar, comparar, con- trastar, integrar información con el propósito de construir el significado del texto. evaluar Y reFleXionar: Relacionar un texto con su propia experiencia, conocimientos e ideas. Los lectores deben distanciarse del texto y considerarlo objetivamente. Deben utilizar conocimiento extra-textual (la propia expe- riencia, elementos proporcionados por la pregunta, conocimiento de mundo, conoci- miento de la lengua, conocimiento de distin- tos géneros discursivos). Los lectores deben justificar su propio punto de vista.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 71 Ciencias Sociales análisis De situaCiones: Capacidad cognitiva interPretaCiÓn/eXPloraCiÓn: Capacidad de reconocer relaciones y/o de seleccionar cursos de ac- cognitiva de obtener y cruzar información proveniente ción que requieren la aplicación de conceptos y/o princi- de diferentes fuentes (textos, mapas, gráficos, etc.). pios y/o información previamente adquiridos. reConoCiMiento De ConCePtos: Capacidad CoMuniCaCiÓn: Capacidad cognitiva de inter- cognitiva de identificar conceptos y principios por medio pretar la información y expresar un procedimiento o un de ejemplos, casos, atributos o definiciones de los mis- resultado. Por razones metodológicas, los ítem que eva- mos o viceversa: identificar ejemplos, casos, atributos o lúan la comprensión o interpretación de la información definiciones de conceptos y principios dados. se encuentran en la capacidad de Interpretación/ Exploración de la tabla de especificaciones. reConoCiMiento De heChos: Capacidad cog- Los ítems para evaluar la expresión de un procedi- nitiva de identificar datos y/o hechos en un conjunto de miento o de un resultado se incluyen, en la tabla, en la información mediante la utilización de conocimientos capacidad llamada Comunicación. que el alumno posee. Las posibles alternativas para evaluar esta capacidad son las siguientes: reConoCiMiento De valores: Capacidad cog- nitiva de elegir conductas de acuerdo con valores en - Plantear una situación problemática. situaciones vinculadas con la responsabilidad social e - Describir la solución de una situación identificar valores implícitos o explícitos en discursos y prácticas. problemática. - Redactar una fundamentación. - Completar un cuadro, un mapa, etc. - Producir un texto, un cuadro, un mapa, un grá- fico, una tabla, etc. - Expresarse con un adecuado vocabulario de la disciplina. - Describir las distintas etapas de una construc- ción científica.
  • 72 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación Ciencias Naturales Capacidades Cognitivas Definición Incluye: la identificación de características y relaciones, Reconocimiento de la interpretación de datos y hechos: comparando, secuenciando, agrupando datos, hechos y conceptos y clasificando según criterios explicitados. la aplicación de conceptos científicos. Incluye: la interpretación, organización y traducción de información en distintos Comunicación formatos (tablas, gráficos, diagramas, esquemas y símbolos), y la expresión de argumentos o conclusiones a partir de evidencias tales como datos experimentales. Incluye: el análisis de los datos experimentales, su validez, la identificación de patro- Análisis de situación nes y el reconocimiento de las variables involucradas, y la identificación, interpretación y relación de los distintos procesos de la investigación científica.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 7 Proyecto Uso de la Información 2009 Pautas para la presentación de Proyectos Jurisdiccionales 2009 A.- Antecedentes dolo a funcionarios, supervisores, directivos y/o docentes. En tres llamados distintos (´02-0; ´04 y ´06-´07) se • Los proyectos jurisdiccionales se centrarán en el financiaron y asistieron técnicamente proyectos jurisdic- uso de la información producida a partir del ONE cionales de uso de la información surgida de la evalua- ´05. ción de la calidad educativa. • Las Jurisdicciones pueden utilizar, en forma com- En las revisiones que se han realizado de la propues- plementaria de las bases del ONE ´05, informa- ta, los responsables jurisdiccionales de evaluación desta- ción surgida de estudios propios o evaluaciones caron tres puntos: provinciales. • Permitió que se implementaran propuestas que • Estarán asesorados por la DiNIECE. Para el caso se venían formulando durante varios años pero en que el proyecto contemple la participación de que nunca habían contado con fondos para po- otra institución o profesionales externos, deberá der realizarse. contar previamente con el expreso acuerdo de la • Brindó la posibilidad de expandir el ciclo de eva- DiNIECE. luación de la calidad educativa a través de accio- • La jurisdicción contará con un año (doce meses nes de devolución y uso de la información obte- corridos) para ejecutar el proyecto a partir de re- nida. cibir la transferencia de la DiNIECE. Vencido ese • Respaldó acciones provinciales de evaluación plazo, deberá nuevamente solicitar la aprobación para que puedan finalizarse y ser efectivas. del proyecto y la autorización para el uso de los fondos, explicando los motivos de la demora. Como parte de la evaluación interna de la DiNIECE, se destacó: C.- Procedimiento administrativo • La importancia de la propuesta para impulsar el uso de información. Las Jurisdicciones que lo deseen podrán presentar • La heterogeneidad de propuestas recibidas. proyectos de uso de información, conforme a los cri- • La heterogeneidad en el nivel de implementación terios y esquemas que se postulan en el presente do- de los proyectos. cumento. A lo largo de estos tres llamados se ha mejorado el Al ser aprobado técnicamente por el Equipo Pedagó- seguimiento y la sistematización de la experiencia. Esto gico de la DiNIECE, se remitirá, junto con un acta-acuer- ha permitido contar con documentación sobre los pro- do, a la Jurisdicción. Allí será firmado por la autoridad yectos de uso de información de los resultados de la eva- correspondiente y reenviado a la Dirección Nacional. luación de la calidad educativa en el país y la posibilidad Una vez que se dé entrada, y a la mayor brevedad posi- de realizar un mejor seguimiento de los compromisos ble, se realizará la transferencia de fondos. asumidos por las distintas partes. La convocatoria está abierta hasta el 0/06/09. Es importante señalar que las transferencias pueden darse en distinto momentos del año. Sin embargo, la primera B.- Pautas para la presentación de Proyec- que realizará esta Dirección Nacional en el área de eva- luación será en el mes de marzo de 2009. Para incluir al tos Jurisdiccionales 2009 proyecto de uso de la información en esa partida éste deberá ser enviado antes de la segunda quincena de fe- En convocatorias anteriores eran dos las condiciones brero. que las Jurisdicciones debían respetar en sus proyectos: que se formularan de acuerdo al esquema de presenta- ción propuesto por la DiNIECE y que fueran técnicamen- te viables . D.- Monitoreo y seguimiento Se agregan a los anteriores, los siguientes criterios: Una vez aprobado el proyecto, la jurisdicción deberá • El Proyecto deberá estar orientado a mejorar el presentar a la DiNIECE tres informes que documenten funcionamiento del sistema educativo, destinán- su ejecución:
  • 74 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación • El primero será entre el primer y segundo trimes- G.- Esquema para la presentación de proyecto tre de aprobado el proyecto. El mismo reflejará los procesos de inicio e implementación. Los proyectos que se presenten utilizarán el esquema • El segundo describirá los procesos de ejecución y que se indica a continuación, similar al de otras convo- desarrollo. catorias: • El tercero abarcará los procesos de finalización y evaluación del proyecto. 1. Marco General del Proyecto de Uso de la Infor- mación de Evaluación: refiere a una breve explicación de las razones que fundamentan la implementación del E.- Proyectos sugeridos Proyecto, de acuerdo con las prioridades identificadas por la Jurisdicción, con respecto al uso de la información Respetando las condiciones y criterios fijados en puntos de evaluación. Se deberá explicitar por qué resulta nece- anteriores, cada jurisdicción podrá elaborar el proyecto saria su realización. que le parezca más adecuado a la realidad de su situa- ción educativa y posibilidades. A modo de sugerencia, se 2. Grupo - meta: el Proyecto puede estar dirigido a señalan las siguientes propuestas: diferentes actores del sistema educativo, de acuerdo con las necesidades que cada Jurisdicción identifique como • Jornadas de trabajo donde se presente y analice prioritarias. La idea es caracterizar a los destinatarios del la información. Proyecto, teniendo en cuenta: • Estas jornadas pueden estar dirigidas a funcio- narios del sistema, a inspectores y/o directivos. • Cantidad aproximada de destinatarios. Para ello, puede resultar útil la elaboración de • Nivel de decisión y acción de los mismos. material impreso donde se presenten los datos • Nivel/es educativo/s involucrado/s. (Ejemplo: Proyecto presentado por la Provincia de La Rioja en la convocatoria 2006). Por ejemplo: cantidad de supervisores de escuelas de • Talleres de trabajo donde se presente la informa- EGB de la Provincia; cantidad de directivos y docentes ción, se la analice y se formulen recomendacio- de establecimientos de Nivel Polimodal de las regiones nes o planes para mejorar la calidad educativa con rendimiento más bajo. (Ejemplo: Proyecto presentado por la Provincia de Entre Ríos en la convocatoria 2006). . Objetivos: enunciar los logros que se pretenden • Trabajo de devolución y formulación de planes alcanzar en relación con el uso de la información de eva- de mejora en escuelas que tengan bajos resulta- luación con la implementación del Proyecto. dos (Ejemplo: Proyecto presentado por la Provin- cia de Salta en la convocatoria 2006). 4. Estrategia general: supone explicitar el curso de acción a través del cual se prevé la consecución de los objetivos del Proyecto. Por ejemplo si se prevén encuen- tros de carácter presencial, una modalidad semipresen- F.- Sobre el presupuesto y los fondos cial o a distancia. Si los encuentros exigen el traslado de los destinatarios a algún punto de la Jurisdicción o Es importante que el presupuesto del proyecto esté el traslado del equipo responsable del Proyecto a distin- bien definido. tos puntos de la misma. Si se elaborarán materiales de trabajo, etc. Los rubros en que podrán utilizarse los fondos son: 5. Acciones: implica una mayor especificación de la • Asistencia técnica y profesional. estrategia general. Se deberán enunciar en forma se- • Alquiler de Lugares y Equipos. cuencial las tareas y los responsables que las llevarán a • Impresiones. cabo para la consecución de los objetivos. • Insumos de librería. • Insumos informáticos (no equipos). 6. Cronograma: especificar un listado de las acciones • Correo. con las fechas tentativas de inicio y finalización. En cuanto al monto de los fondos que se soliciten, 7. Recursos: deben estar claramente detallados en el presupuesto, corresponderse con la propuesta que se realice y la rea- • Materiales: folletos, copias, anillados, alguna lidad del sistema educativo jurisdiccional (tanto en di- bibliografía particular. mensiones como en factibilidad de realización). • Humanos: curriculum vitae de los responsables de la implementación del Proyecto. 8. Productos: refieren a los resultados a los que se llegará por haber realizado las acciones.
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 75 9. Presupuesto y Costos: implica explicitar el costo BIBLIOGRAFÍA total y el de cada una de las acciones que se ejecutarán en el Proyecto. (VER PUNTO “F”). • Criterios de evaluación ONE 2005. DINIECE, Ministerio de Educación, Ciencia y Tecnología de la Na- 10. Seguimiento y Monitoreo: ción, 2005. • Allen, David (compilador - 2000), La evalua- • Informe inicial: Entre el er y el 6to mes de ción del aprendizaje de los estudiantes, Buenos Aires, aprobado el proyecto. Reflejará los procesos de inicio e Paidós. implementación. • Barberá Gregori, Elena (1999), Evaluación de la • Informe de proceso: Entre el 6to y el 9no mes. enseñanza, evaluación del aprendizaje, Barcelona, ede- Describirá los procesos de ejecución y desarrollo. bé. • Informe de cierre: Al finalizar la ejecución del • Carrión Carranza, Carmen (2001), Valores y proyecto. Abarcará los procesos de finalización y evalua- principios para evaluar la educación, México, Paidós. ción del proyecto. • Cano García, E. (1999), Evaluación de la cali- dad educativa, Madrid, La Muralla. 11. Requerimiento a la DiNIECE: • Landsheere, G. de (1999), El pilotaje de los sis- temas educativos, Madrid, La Muralla – OEI. • ASISTENCIA TÉCNICA: describir el tipo de asis- • López, F. (1994) La gestión de la calidad en tencia que se requerirá y para qué momento. Por ejem- educación, Madrid, La Muralla. plo: previa o durante la implementación del Proyecto. • INFORMACIÓN DE EVALUACIÓN: bases de da- SITIOGRAFÍA tos con los resultados de los ONE, diferentes tipos de • Elola, Nydia y Toranzos Lilia, (2000) Evaluación procesamiento de la información, materiales de uso de educativa. Una aproximación conceptual., Biblioteca Di- la información de evaluación. gital, OEI. • OTRA (especificar). http://www.campus-oei.org/calidad/luis2.pdf H.- Apoyo desde la DiNIECE Las jurisdicciones cuentan con el Equipo Nacional para asistirlos y ayudarlos tanto en el planteo de los pro- yectos como en su implementación. Por cualquier duda o consulta, pueden contactarse con Jorge Novello y/o Rafael del Campo al 011-4129-1486 int. 1486 o escribir a jnovello@me.gov.ar – rdelcampo@me.gov.ar.
  • 76 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación
  • Hacia una cultura de la Evaluación / ONE 2009 / Censo 77 GLOSARIO AGRUPAMIENTO DE ÍTEMS: Conjunto de ítems que eva- su vez, a diversos pero compatibles proyectos curriculares ins- lúan una misma capacidad cognitiva o un mismo contenido. titucionales. Este agrupamiento da la posibilidad de calcular un puntaje par- cial de la prueba, de la cual forman parte. CIVED: Civic Eduaction Study o Estudio Internacional de Educación Cívica. Prueba de evaluación internacional puesta en ANÁLISIS DE SITUACIONES: Ver Capacidades Cognitivas. marcha por la IEA (International Association for the Evaluation of Educational Achievement) cuyo objetivo es evaluar los conoci- ANCLAJES: Un conjunto de ítems comunes a pruebas dife- mientos y actitudes de los alumnos dentro de cuatro campos: rentes que se aplican a grupos de alumnos también distintos y 1. Democracia. permiten la equiparación de los puntajes obtenidos. 2. Identidad Nacional. . Cohesión Social y Diversidad. APLICACIÓN CENSAL: Aplicación de una prueba de evalua- 4. Economía / Medios de Comunicación ción, a la totalidad de los alumnos de una cohorte de todo el y Medio Ambiente. país. Brinda información relevante sobre la población total. En nuestro país esta prueba se aplica en 9° año de la EGB. APLICACIÓN MUESTRAL: Aplicación de una prueba de eva- o 2° año del nivel Secundario y en ° año del nivel Polimodal o luación, a grupos de alumnos seleccionados de manera tal que último año del nivel Secundario. sus características sean representativas de la población total. La selección de la muestra en nuestro caso, es aleatoria y estratifi- COMPRENSIÓN LECTORA: Ver Capacidades Cognitivas. cada (por jurisdicción, ámbito, régimen y modalidad). CONFIABILIDAD: El grado de estabilidad de los puntajes AZAR: Ver Respuesta por Azar. obtenidos en mediciones sucesivas del mismo atributo o la con- sistencia de los puntajes arrojados por los distintos ítems que BANCO DE ÍTEMS: Un conjunto de reactivos (interrogantes, conforman la prueba. disparadores o ejercicios) organizados según el criterio lógico del área disciplinaria, curricular o por competencia, curso o CONTENIDOS: Conjunto de saberes o formas cultura- edad de los alumnos, destinados a ser utilizados para construir les cuya asimilación y apropiación por parte de los alumnos futuros instrumentos de evaluación. se considera esencial para su desarrollo personal y social. Son instrumentos para leer, analizar e interpretar la realidad. La ex- BLOQUE DE ÍTEMS: Conjunto de ítems de una prueba. Los plicitación de los contenidos, desde lo establecido por las di- bloques permiten una mayor cobertura de la diversidad de con- ferentes disciplinas, permite determinar con mayor certeza de tenidos y capacidades. A partir de 2009 los ONE se estructuran qué conocimiento debe apropiarse el alumno y cómo organizar en bloques. las estrategias didácticas para implementar en los procesos de enseñanza y aprendizaje. Son seleccionados y organizados por CALIDAD (de la Educación): Una educación de calidad es el sistema educativo para ser enseñados y aprendidos en la es- aquella que logra que los alumnos realmente aprendan lo que cuela, sobre lo construido por la cultura vigente en un determi- se supone deben aprender, aquello que está establecido en los nado momento histórico. planes y programas curriculares al cabo de determinados ciclos del sistema educativo formal. Es trabajar atendiendo a los resul- CUESTIONARIOS COMPLEMENTARIOS: También denomi- tados e incrementar oportunidades de aprendizaje para todos nados como cuestionarios de contexto. Cuestionarios auto-ad- con la permanente intención de ir disminuyendo las diferencias. ministrados a los directivos, a los docentes y a los alumnos de Es aquella que brinda medios y orienta a los equipos de super- las escuelas donde se llevan a cabo las pruebas de evaluación, a visión, docentes y alumnos para que se realice efectivamente el fin de recoger información relevante acerca de las condiciones proceso de enseñanza y el proceso de aprendizaje, poniendo materiales, institucionales y sociales en las cuales, la comunidad énfasis en las estrategias de gestión y didácticas. educativa desarrolla sus respectivas tareas. CAPACIDADES COGNITIVAS: Operaciones mentales que el DIFICULTAD DE UN ÍTEM: Medida que indica cuán difícil re- sujeto utiliza para establecer relaciones con y entre los obje- sultó un ítem para los estudiantes que lo resolvieron. Sus valo- tos, situaciones y fenómenos. Se logran a través del proceso res oscilan entre menos infinito y más infinito en la escala logit de enseñanza y del proceso de aprendizaje y cobran significado usada en el modelo Rasch. En términos más prácticos, los ítems de acuerdo con la determinación de contenidos socialmente asumen valores entre - y +. Valores positivos y altos indican relevantes y altamente significativos, frente a los que se ponen alta dificultad y valores negativos indican baja dificultad. en juego y a través de los cuales se desarrollan. En las tablas de especificaciones que enmarcan la aplicación de nuestros ins- DISTRACTORES: Cualquiera de las opciones o respuestas trumentos de evaluación, quedaron establecidas hasta el mo- erróneas posibles, que conforman los ejercicios de selección mento capacidades cognitivas de acuerdo a la disciplina que se múltiple o de respuesta fija. evalúe (Ver Adenda). EQUIDAD: Calidad para todos. Es reconocer puntos de par- CBC: Contenidos Básicos Comunes. Conjunto de saberes tida distintos y puntos de llegada similares, a partir de una visión relevantes que integran el proceso de enseñanza de todo el crítica y objetiva de datos confiables. Una escuela es equitativa país. Son la matriz básica para un proyecto cultural nacional; cuando posee la capacidad de compensar mejor las desigualda- matriz a partir de la cual, cada jurisdicción continua actualizan- des sociales, debilitando el condicionamiento del origen social do sus propios lineamientos o diseños curriculares y da paso, a de los alumnos con respecto a sus logros de aprendizaje.
  • 78 Dirección Nacional de Información y Evaluación de la Calidad Educativa / Ministerio de Educación la enseñanza en todo el país). EQUIPARACIÓN: Proceso estadístico que se utiliza para ajustar puntuaciones de dos o más pruebas de modo que sean NIVELES DE DESEMPEÑO: Categorías de tareas que permi- intercambiables y comparables, es decir que se pueda estable- ten identificar grupos de estudiantes con niveles similares de cer una correspondencia entre sus puntuaciones, de tal modo rendimiento frente a la prueba. Se establecen fundamental- que las puntuaciones de cualquiera de ellas puedan expresarse mente con el propósito de facilitar la comunicación de lo que en términos de las de las otras. pueden hacer los estudiantes. Se determinan combinando los hallazgos de los ONE y los criterios conceptuales curriculares y ESCALAMIENTO: El desarrollo de reglas sistemáticas y de pedagógicos. unidades significativas de medida para cuantificar las observa- ciones empíricas. Una escala de medida se establece cuando se NIVELES DE LOGRO: Ver Niveles de Desempeño. define el conjunto de valores posibles que pueden asignarse y se establece la regla de asignación que establece la correspon- OMISIÓN: Ausencia total de respuesta en un ejercicio. El dencia entre el sistema empírico y el sistema numérico. Proceso índice de omisión es el porcentaje de ejercicios no respondidos de transformación de las respuestas en puntuaciones. sobre el total de la población de alumnos evaluados. EVALUACIÓN: Proceso sistemático de relevamiento de da- ONE (Operativo Nacional de Evaluación): Acciones de eva- tos, incorporado al sistema de acciones educativas, que permite luación instrumentadas a partir del nuevo marco legal otorgado obtener información válida y confiable para formular juicios por la sanción de la Ley Federal de Educación, con el objetivo de valor acerca de una realidad, en este caso nos referimos al de suministrar información válida y confiable sobre qué y cuán- campo educativo. Estos juicios pueden ser utilizados en la toma to aprenden los alumnos durante su permanencia en el sistema de decisiones con el objeto de mejorar las acciones educativas educativo formal y acerca de cuáles son los factores asociados valoradas. a ese aprendizaje. FACTORES ASOCIADOS: Variables sociales, culturales y OPERACIÓN USANDO ALGORITMOS: económicas que inciden en el rendimiento académico de los Ver Capacidades Cognitivas. alumnos. PIRLS: Progress in International Reading Literacy Study o Es- INDICADOR: Parámetro que permite cuantificar e inferir el tudio internacional sobre el progreso de la alfabetización lecto- valor y la existencia o inexistencia de una variable. Da cuenta de ra. Prueba de evaluación internacional puesta en marcha por la cómo vamos a traducir en el ámbito empírico nuestra definición IEA (International Association for the Evaluation of Educational conceptual de la variable. Sirve de puente entre las conceptuali- Achievement), cuyo objetivo es evaluar tanto los procesos que zaciones y la realidad empírica. se ponen en juego para la comprensión como los propósitos de lectura. En nuestro país se aplica en 4° año de la E.G.B. (Ver do- INTERPRETACIÓN Y EXPLORACIÓN: cumento “ Pruebas Nacionales e Internacionales para 2001”). Ver Capacidades Cognitivas. PISA: Programme for International Student Assessment o INSTRUMENTO PILOTO: Prueba de evaluación denominada Programa para la evaluación internacional de estudiantes. Prue- “piloto” que consiste en una instancia previa a la construcción ba de evaluación internacional o programa creado por la OECD del instrumento definitivo en la que se administra un conjunto (organización para la Cooperación y el Desarrollo Económico) de ítem a una muestra de sujetos, a fin de obtener información que evalúa tres áreas: sobre la calidad y pertinencia de dichos ítem para evaluar los contenidos y las capacidades previamente establecidos en las 1. Prueba de Alfabetización Lectora estructurada sobre tablas de especificaciones. la base de tres dimensiones: Procesos o tareas de lectura - Contenidos o tipos de textos - Contextos o INFORME DE RESULTADOS: Publicación destinada a la difu- propósitos del texto. sión de la información relevada sobre los aprendizajes de los 2. Prueba de Alfabetización Científica estructurada so- alumnos y de los datos vinculados con su historia académica, bre la base de tres dimensiones: Procesos Científicos las expectativas de los docentes respecto de éstos, las formas - Conceptos Científicos - Situaciones y Contextos. de organización del trabajo docente y de la escuela en su con- . Prueba de Alfabetización Matemática estructurada junto. Información que se recoge mediante la aplicación de sobre la base de tres dimensiones: Las Grandes Ideas pruebas estandarizadas y de cuestionarios complementarios, (contenidos) - Competencias matemáticas o procesos respectivamente. de matematización - Situaciones y contextos. INTERPRETACIÓN Y EXPLORACIÓN: El objetivo del estudio PISA 2000 es elaborar indicadores Ver Capacidades Cognitivas. del alcance de la preparación de los alumnos de 15 años de los sistemas educativos de los países participantes, ya que ésta es ÍTEM: Mínima parte de un test o prueba que recibe pun- la edad en la que la mayoría de los alumnos de los países miem- taje. Los formatos de ítem más utilizados para evaluar rendi- bros de OECD terminan su escolaridad obligatoria. La evalua- miento académico son los de elección múltiple o de respuesta ción no se limita a lo que los alumnos han aprendido sino que fija, en los cuales el alumno debe elegir la respuesta correcta pone especial interés en el uso que hacen de estos aprendizajes de entre un conjunto limitado de respuestas posibles y los de para jugar un papel comprometido como ciudadanos. construcción o ítem abierto, en los cuales el alumno debe cons- truir la respuesta. PRODUCCIÓN ESCRITA: Ver Capacidades Cognitivas. NAP: Núcleos de Aprendizaje Prioritarios. Constituyen un PRUEBA PILOTO: Ver Instrumento Piloto. conjunto de saberes comunes que deben estar al alcance de to- dos los niños y las niñas del país, de manera tal que nos permita PRUEBA REFERIDA A CRITERIOS: Los instrumentos referidos compartir el mundo a todos los argentinos, y reafirmar, desde a criterios están enfocados a determinar si un alumno ha logra- el Estado, el derecho y la oportunidad de todos a acceder a do un nivel predeterminado o criterio prefijado, en una discipli- nuestra cultura. (El acuerdo alcanzado en el Consejo Federal de na dada. Proveen información precisa sobre logros respecto de Cultura y Educación, entre el Ministerio nacional, las provincias ese criterio (estándares o metas educativas). y la Ciudad de Buenos Aires, permitió establecer los Núcleos de Aprendizajes Prioritarios, conformándose una base común para PRUEBA REFERIDA A NORMAS: Los instrumentos referidos a normas comparan al estudiante con la norma de su grupo.
  • Las mediciones normativas reportan cuál es la posición relativa de un sujeto con respecto de la norma de su grupo. TIMSS: Third International Mathematics and Science Stu- dy o Tercer Estudio Internacional de Matemática y Ciencias. RECOMENDACIONES METODOLÓGICAS: Publicaciones Prueba de evaluación internacional, puesta en marcha por la y videos destinados a los docentes, cuyo contenido surge del IEA (international Association for the Evaluation of Educational análisis y de la interpretación de los resultados alcanzados por Achievement). Su objetivo es evaluar el nivel de rendimiento de los alumnos en cada uno de los Operativos Nacionales de Eva- los alumnos, de manera conjunta en Matemática y Ciencias. El luación. En este material se plantean propuestas, tanto teóricas núcleo central del estudio es la población de alumnos de 1 como metodológicas para la enseñanza de aquellos contenidos años. (Ver documento “Pruebas Nacionales e Internacionales y capacidades, que en forma recurrente presentan dificultad en para 2001”). los alumnos. VALIDEZ: El grado en que un test o prueba mide lo que dice RECONOCIMIENTO DE CONCEPTOS Y PRINCIPIOS: Ver medir o evalúa lo que pretende evaluar. Brinda información vá- Capacidades cognitivas. lida con respecto al atributo que mide o evalúa el test. RECONOCIMIENTO DE HECHOS: Ver Capacidades cognitivas. RECONOCIMIENTO DE VALORES: Ver Capacidades cognitivas. BIBLIOGRAFÍA REFLEXIÓN SOBRE LOS HECHOS DEL LENGUAJE: Ver Capacidades cognitivas. Coll,César. Aprendizaje escolar y construcción del cono- RESOLUCIÓN DE PROBLEMAS: Ver Capacidades cognitivas. cimiento, Barcelona, 1990. RESPUESTA POR AZAR: Respuesta que los alumnos dan for- Coll, César; Pozo, J.I; Sarabia, B; Valls, E. Los contenidos tuitamente, sin dominar el contenido y capacidad específicos en la Reforma. Enseñanza y aprendizaje de concep- evaluados en el ítem. tos, procedimientos y actitudes, Madrid, 1992. SERCE: Segundo Estudio Regional Comparativo y Expli- Cortada de Kohan, Nuria. Teorías Psicométricas y Cons- cativo (SERCE 2006). El SERCE es un Estudio de Evaluación, trucción de Tests, Buenos Aires, 1999. producto de una construcción colectiva y participativa de los países latinoamericanos que conforman la red del Laboratorio Instituto para el Desarrollo de la Calidad Educativa. Do- Latinoamericano de Evaluación de Calidad Educativa (LLECE). cumento Pruebas Nacionales e Internacionales para SISTEMA NACIONAL DE EVALUACIÓN DE LA CALIDAD DE 2001, LA EDUCACIÓN: dispositivo administrativo para la conducción Hambleton, R.K; Swaminathan, H; Jane Rogers, H. Fun- del sistema educativo. Su función es ofrecer información sobre los resultados de la educación, el funcionamiento de distintos damentals of Item Response Theory, United States niveles del sistema, las condiciones que afectan los procesos of América, 1991. en las distintas instancias y el aporte de distintos actores. Esto con el propósito de definir las políticas educativas, orientar el Jacob, 1994; tomado de Cea D’Ancona, Ma. Ángeles. desarrollo de planes de mejoramiento y rendir cuentas sobre la Metodología Cuantitativa. Estrategias y Técnicas de respuesta del sistema a las demandas de la sociedad. Investigación Social, Madrid, 1996. TABLA DE ESPECIFICACIONES: En el caso de nuestras prue- Martinez Arias, Rosario. Psicometría: Teoría de los Tests bas de evaluación es un cuadro de doble entrada en el cual se Psicológicos y Educativos, Madrid, 1995. ingresan dos tipos de información: las capacidades y los conte- nidos a evaluar, Cada cruce identifica un desempeño, es decir, Ministerio de Cultura y Educación de la Nación. Manual una capacidad determinada en relación con contenidos de cada de Estrategias para el uso e incorporación de la in- área de conocimiento. formación de la Evaluación, Buenos Aires, 1997. TEORÍA CLÁSICA DE LAS PRUEBAS (TCP): ver Teoría Clásica Ministerio de Cultura y Educación de la Nación. Re- de los Test (TCT). comendaciones Metodológicas para la Enseñanza TEORÍA CLÁSICA DE LOS TEST (TCT): Teoría basada en el Mo- - 3er Operativo Nacional de Evaluación (1995), Bue- delo Lineal de la Regresión con dos variables: teoría psicométrica nos Aires, 1997. que considera como hipótesis fundamental, que el puntaje de un sujeto en un test (observable) es función de dos componentes: el Ministerio de Cultura y Educación de la Nación. Conte- puntaje verdadero (inobservable) y el puntaje de error. nidos Básicos Comunes para la Educación General Básica, Buenos Aires, 1995. TEORÍA DE LA RESPUESTA AL ÍTEM (TRI): Teoría basada en la modelización de las probabilidades de respuestas correctas Ministerio de Cultura y Educación de la Nación. Núcleos a un ítem según las funciones de distribución normal y logís- de Aprendizaje Prioritarios para la Educación Gene- tica. Intenta dar una fundamentación probabilística al proble- ma de la medición de constructos inobservables. Considera al ral Básica, Buenos Aires, 2004 - 2006. ítem como unidad básica del test. Sus modelos son funciones Ministerio de Cultura y Educación de la Nación. Propuesta matemáticas que relacionan la probabilidad de una respuesta particular a un ítem, con la aptitud general del sujeto. de Tablas de Especificaciones, Buenos Aires, 1999. TEORÍA DEL RASGO LATENTE: ver Teoría de la Respuesta al Vianna, Heraldo Marelim. Termos Técnicos em medidas Ítem (TRI). educacionais, Sâo Paulo, 1981.