Nada es Gratis » Exámenes externos, resultados y teaching to the test

Ya aprobada la LOMCE quizá no tiene mucho sentido comentarla más, sino esperar a que vaya generando resultados. Pero quizá vale la pena que quede por escrito una predicción, para que luego alguien pueda venir a sacarme los colores cuando se haga el análisis. De todo lo que hay en esa ley lo que me parece más probable que tenga un efecto duradero, y probablemente positivo, son los exámenes de fin de ciclo (también llamados CBEEE por su acrónimo en inglés), particularmente el examen de final de la secundaria. Y no solo eso, también será interesante averiguar si estos exámenes tendrán efectos negativos en actividades no cubiertas por el examen. Yo creo, énfasis en creo porque la evidencia de esto es más circunstancial, que no, siempre y cuando las pruebas se diseñen bien.

Alguna de la evidencia relevante ya la hemos comentado aquí. El gráfico que sigue (sacado de este artículo) ha salido en varias entradas de este blog (por ejemplo aquí). Lo que recoge es la diferencia de resultados individuales entre países (después de controlar por las variables observables relevantes de TIMSS) divididos en cuatro bloques. Las columnas en azul representan los resultados de países con exámenes externos de fin de ciclo, las columnas en amarillo los de países sin exámenes externos. Las columnas de la derecha representan países con cierta autonomía en la gestión de recursos humanos en las escuelas. Las de la izquierda, países sin autonomía. Como se puede ver los exámenes externos tienen una influencia importante, y cuando existen la autonomía todavía ayuda algo. Por el contrario, si no hay exámenes, la autonomía es, de hecho, negativa. Mi interpretación es que exámenes comparables objetivamente crean un entorno de rendición de cuentas, en el que la autonomía permite optimizar mejor, con el conocimiento del terreno. Por el contrario, dar libertad sin pedir cuentas es una receta para el desastre.

Es legítimo pensar que con esta evidencia no es suficiente para concluir que los exámenes serán beneficiosos. Los países se distinguen en muchas cosas entre sí y aunque las que observa TIMSS ya están controladas en la regresión (incluyendo renta del país y de las familias, recursos de la escuela, inmigración y otros sospechosos habituales), siempre podría ser que los países especialmente motivados por la educación, o mejor gestionados en general, fueran los que impusieran estos exámenes, y lo que estuviéramos capturando fuera simplemente ese plus de motivación o buena organización.

Por esto vale la pena mirar a otros estudios. Ludger Woessman ha estudiado las diferencias de resultados entre estados alemanes en PISA. Aunque muchas de las críticas al estudio anterior se pueden repetir para este, dentro de un país hay muchas más cosas no observables que se pueden mantener constantes, como la cultura, la lengua o el marco de bienestar y legal. Los resultados por estados controlando por las variables observables más importantes (estatus socioeconómico y profesional de los padres) se pueden ver en el gráfico que sigue.

Los efectos son de una magnitud algo inferior, pero nada despreciables. Cerca de 30 puntos de PISA. Igual me pongo pesado con esto, pero si 100 puntos más de PISA son 2 puntos más de crecimiento, como sugieren algunas estimaciones, 30 puntos son… hagan la cuenta, que luego viene el tío PIAAC con la rebaja. En todo caso, quién los pillara.

¿Será esto algo que solamente pasa en Alemania? Vamos a ver que no, usando datos de Estados Unidos y Canadá. Seguramente el mejor estudio sobre exámenes externos es el de Dee y Jacob, que estudia el impacto de la ley NCLB (No Child Left Behind, o Ningún Niño Rezagado) que se aprobó en el congreso americano en 2001, ya bajo el mandato de George Bush, aunque había sido diseñada bajo la administración Clinton, con un apoyo de los dos partidos muy poco habitual. La ley pretendía mejorar los resultados de las escuelas exigiendo que los estados pusieran unos estándares mínimos para cada escuela pública medidos por exámenes externos, con premios y castigos para las escuelas que no los satisficieran.

El artículo explota el hecho de que algunos estados ya habían implementado reformas en la dirección de mayor rendición de cuentas bastantes años antes de que la ley entrara en efecto. Y compara la evolución de los resultados de los estudiantes en los estados que ya habían impuesto exámenes externos con consecuencias, con la de los que solamente la implementaron como consecuencia de NCLB. Crucialmente, el efecto se estudia con un examen que no tiene consecuencias, y que es una pura evaluación de diagnóstico (el NAEP o Evaluación Nacional del Progreso Educativo). Esto es importante porque el examen con consecuencias ha sido manipulado en algunos estados que vieron en las evaluaciones iniciales que los resultados eran muy malos. Además NAEP goza de buena reputación por sus propiedades psicométricas.

Aunque el análisis econométrico es más complicado, el siguiente gráfico no indica ya bastante bien los resultados:

Los gráficos señalan las tendencias de resultados en cuarto curso los estados que ya habían adoptado exámenes externos en 1998 con círculos, y los que lo hicieron después de 2002 con triángulos, primero en matemáticas y luego en lectura. Como se puede ver las tendencias positivas se acentúan más fuertemente en los estados que entran en NCLB en 2002, y esto mismo es lo que recoge el análisis econométrico más sofisticado. Lógicamente puede haber problemas. Quizá los estados más susceptibles a una mejora adoptaron antes los exámenes, pero eso de hecho haría que los efectos aquí identificados subestimaran los efectos.

El estudio también comprueba que los efectos son más importantes en los estudiantes más desfavorecidos, algo esperable dado que la ley se enfoca en aquellas escuelas con resultados muy pobres para empezar en términos absolutos, no en valor añadido. Los autores también comprueban que aunque los exámenes se centran en lectura y matemáticas, no parece haber efectos negativos en ciencia, que también se mide con el NAEP. Ojo, tampoco encuentra efectos positivos en ciencia, por tanto el que la ley se enfoque solamente en matemáticas y lectura puede hacer que se pierda algún efecto positivo potencial.

Aún me queda un artículo más que discutir. Este artículo de Bishop, utiliza datos de Canadá, de un examen internacional de 1991 el IAEP (Evaluación Internacional de Progreso Educativo). La estrategia empírica es parecida a la del artículo de Woessman que ya hemos discutido (como sus problemas), pero usando la variación entre estados de Canadá.

El artículo, sin embargo, me interesa por otro motivo, porque permite ver cómo varían otros resultados y estrategias didácticas además del examen. Esto hace posible saber si la mejora de resultados viene a expensas de otras actividades deseables (el odioso “teach to the test”). Y la buena noticias es que parece que no. Como se ve en el siguiente cuadro, los chicos que están expuestos a los CBEEE ven menos la televisión, leen más por placer y miran más programas de ciencia.

Tampoco parece que las estrategias de los profesores sean peores en estos estados. Los estudiantes hacen más experimentos (¡en cuarto de primaria, señores! Mi hijo hizo su primer experimento en primero de la ESO como un trabajo extra y porque su padre es un “freaky” que se dedica a esto profesionalmente.) en los estados expuestos a los CBEEE y enfatizan menos los cálculos con números enteros, una competencia que se considera más apropiada para quinto curso.

Una forma (parcial e incompleta) de ver si las provincias que adoptan exámenes son las más motivadas es ver si se diferencian en alguna dimensión previsiblemente relacionada con la motivación. La respuesta es que no. Los problemas de disciplina que tienen son parecidos a los de otros estados y de hecho tienen más absentismo de los estudiantes que las que no tienen CBEEE.

Ninguna de esta evidencia es totalmente convincente porque no es experimental, pero tanta acumulación de evidencia circunstancial nos sugiere que hay algo detrás. Particularmente cuando la lógica económica detrás del resultado es contundente. Si las acciones de los individuos tienen consecuencias es natural que estos como mínimo intenten que las consecuencias sean favorables.

Esta misma lógica sugiere por cierto, que por el mismo motivo el teach to the test debe ser una preocupación. Preocupación que comparto, y por esto el primer paso es que el “test” tiene que estar muy bien diseñado. Todos los profesores evaluamos, de una u otra manera, y por tanto todos enseñamos para el “test”. La cuestión es que procuramos pensar mucho en el tipo de examen que ponemos. La otra observación es que las competencias cognitivas compiten menos entre ellos de lo que podríamos pensar. Por esto los resultados de ciencia no empeoran por efecto del NCLB y los chicos en Canadá no dejaron de ver NOVA por hacer CBEEE. Una posible excepción, claro, es la memoria. Si vamos a diseñar exámenes memorísticos sí que veo posible que enfocarnos en dos asignaturas puede ir en detrimento de las demás. Pero si se trata de resolver problemas novedosos es incluso posible que trabajar en ciencia ayude en la resolución de matemáticas o al revés. Por esto pienso que el teach to the test no será tan grave problema si se diseñan bien los exámenes.