Exámenes externos, resultados y teaching to the test

Ya aprobada la LOMCE quizá no tiene mucho sentido comentarla más, sino esperar a que vaya generando resultados. Pero quizá vale la pena que quede por escrito una predicción, para que luego alguien pueda venir a sacarme los colores cuando se haga el análisis. De todo lo que hay en esa ley lo que me parece más probable que tenga un efecto duradero, y probablemente positivo, son los exámenes de fin de ciclo (también llamados CBEEE por su acrónimo en inglés), particularmente el examen de final de la secundaria. Y no solo eso, también será interesante averiguar si estos exámenes tendrán efectos negativos en actividades no cubiertas por el examen. Yo creo, énfasis en creo porque la evidencia de esto es más circunstancial, que no, siempre y cuando las pruebas se diseñen bien. 

Alguna de la evidencia relevante ya la hemos comentado aquí. El gráfico que sigue (sacado de este artículo) ha salido en varias entradas de este blog (por ejemplo aquí). Lo que recoge es la diferencia de resultados individuales entre países (después de controlar por las variables observables relevantes de TIMSS) divididos en cuatro bloques. Las columnas en azul representan los resultados de países con exámenes externos de fin de ciclo, las columnas en amarillo los de países sin exámenes externos. Las columnas de la derecha representan países con cierta autonomía en la gestión de recursos humanos en las escuelas. Las de la izquierda, países sin autonomía. Como se puede ver los exámenes externos tienen una influencia importante, y cuando existen la autonomía todavía ayuda algo. Por el contrario, si no hay exámenes, la autonomía es, de hecho, negativa. Mi interpretación es que exámenes comparables objetivamente crean un entorno de rendición de cuentas, en el que la autonomía permite optimizar mejor, con el conocimiento del terreno. Por el contrario, dar libertad sin pedir cuentas es una receta para el desastre.

cbeee1

Es legítimo pensar que con esta evidencia no es suficiente para concluir que los exámenes serán beneficiosos. Los países se distinguen en muchas cosas entre sí y aunque las que observa TIMSS ya están controladas en la regresión (incluyendo renta del país y de las familias, recursos de la escuela, inmigración y otros sospechosos habituales), siempre podría ser que los países especialmente motivados por la educación, o mejor gestionados en general, fueran los que impusieran estos exámenes, y lo que estuviéramos capturando fuera simplemente ese plus de motivación o buena organización.

Por esto vale la pena mirar a otros estudios. Ludger Woessman ha estudiado las diferencias de resultados entre estados alemanes en PISA. Aunque muchas de las críticas al estudio anterior se pueden repetir para este, dentro de un país hay muchas más cosas no observables que se pueden mantener constantes, como la cultura, la lengua o el marco de bienestar y legal. Los resultados por estados controlando por las variables observables más importantes (estatus socioeconómico y profesional de los padres) se pueden ver en el gráfico que sigue.

cbeee2

Los efectos son de una magnitud algo inferior, pero nada despreciables. Cerca de 30 puntos de PISA. Igual me pongo pesado con esto, pero si 100 puntos más de PISA son 2 puntos más de crecimiento, como sugieren algunas estimaciones, 30 puntos son… hagan la cuenta, que luego viene el tío PIAAC con la rebaja. En todo caso, quién los pillara.

¿Será esto algo que solamente pasa en Alemania? Vamos a ver que no, usando datos de Estados Unidos y Canadá. Seguramente el mejor estudio sobre exámenes externos es el de Dee y Jacob, que estudia el impacto de la ley NCLB (No Child Left Behind, o Ningún Niño Rezagado) que se aprobó en el congreso americano en 2001, ya bajo el mandato de George Bush, aunque había sido diseñada bajo la administración Clinton, con un apoyo de los dos partidos muy poco habitual. La ley pretendía mejorar los resultados de las escuelas exigiendo que los estados pusieran unos estándares mínimos para cada escuela pública medidos por exámenes externos, con premios y castigos para las escuelas que no los satisficieran.

El artículo explota el hecho de que algunos estados ya habían implementado reformas en la dirección de mayor rendición de cuentas bastantes años antes de que la ley entrara en efecto. Y compara la evolución de los resultados de los estudiantes en los estados que ya habían impuesto exámenes externos con consecuencias, con la de los que solamente la implementaron como consecuencia de NCLB. Crucialmente, el efecto se estudia con un examen que no tiene consecuencias, y que es una pura evaluación de diagnóstico (el NAEP o Evaluación Nacional del Progreso Educativo). Esto es importante porque el examen con consecuencias ha sido manipulado en algunos estados que vieron en las evaluaciones iniciales que los resultados eran muy malos. Además NAEP goza de buena reputación por sus propiedades psicométricas.

Aunque el análisis econométrico es más complicado, el siguiente gráfico no indica ya bastante bien los resultados:

cbeee3
cbeee4

Los gráficos señalan las tendencias de resultados en cuarto curso los estados que ya habían adoptado exámenes externos en 1998 con círculos, y los que lo hicieron después de 2002 con triángulos, primero en matemáticas y luego en lectura. Como se puede ver las tendencias positivas se acentúan más fuertemente en los estados que entran en NCLB en 2002, y esto mismo es lo que recoge el análisis econométrico más sofisticado. Lógicamente puede haber problemas. Quizá los estados más susceptibles a una mejora adoptaron antes los exámenes, pero eso de hecho haría que los efectos aquí identificados subestimaran los efectos.

El estudio también comprueba que los efectos son más importantes en los estudiantes más desfavorecidos, algo esperable dado que la ley se enfoca en aquellas escuelas con resultados muy pobres para empezar en términos absolutos, no en valor añadido. Los autores también comprueban que aunque los exámenes se centran en lectura y matemáticas, no parece haber efectos negativos en ciencia, que también se mide con el NAEP. Ojo, tampoco encuentra efectos positivos en ciencia, por tanto el que la ley se enfoque solamente en matemáticas y lectura puede hacer que se pierda algún efecto positivo potencial.

Aún me queda un artículo más que discutir. Este artículo de Bishop, utiliza datos de Canadá, de un examen internacional de 1991 el IAEP (Evaluación Internacional de Progreso Educativo). La estrategia empírica es parecida a la del artículo de Woessman que ya hemos discutido (como sus problemas), pero usando la variación entre estados de Canadá.

El artículo, sin embargo, me interesa por otro motivo, porque permite ver cómo varían otros resultados y estrategias didácticas además del examen. Esto hace posible saber si la mejora de resultados viene a expensas de otras actividades deseables (el odioso “teach to the test”). Y la buena noticias es que parece que no. Como se ve en el siguiente cuadro, los chicos que están expuestos a los CBEEE ven menos la televisión, leen más por placer y miran más programas de ciencia.

cbeee5

Tampoco parece que las estrategias de los profesores sean peores en estos estados. Los estudiantes hacen más experimentos (¡en cuarto de primaria, señores! Mi hijo hizo su primer experimento en primero de la ESO como un trabajo extra y porque su padre es un “freaky” que se dedica a esto profesionalmente.) en los estados expuestos a los CBEEE y enfatizan menos los cálculos con números enteros, una competencia que se considera más apropiada para quinto curso.

cbeee6

Una forma (parcial e incompleta) de ver si las provincias que adoptan exámenes son las más motivadas es ver si se diferencian en alguna dimensión previsiblemente relacionada con la motivación. La respuesta es que no. Los problemas de disciplina que tienen son parecidos a los de otros estados y de hecho tienen más absentismo de los estudiantes que las que no tienen CBEEE.

cbeee7

Ninguna de esta evidencia es totalmente convincente porque no es experimental, pero tanta acumulación de evidencia circunstancial nos sugiere que hay algo detrás. Particularmente cuando la lógica económica detrás del resultado es contundente. Si las acciones de los individuos tienen consecuencias es natural que estos como mínimo intenten que las consecuencias sean favorables.

Esta misma lógica sugiere por cierto, que por el mismo motivo el teach to the test debe ser una preocupación. Preocupación que comparto, y por esto el primer paso es que el “test” tiene que estar muy bien diseñado. Todos los profesores evaluamos, de una u otra manera, y por tanto todos enseñamos para el “test”. La cuestión es que procuramos pensar mucho en el tipo de examen que ponemos. La otra observación es que las competencias cognitivas compiten menos entre ellos de lo que podríamos pensar. Por esto los resultados de ciencia no empeoran por efecto del NCLB y los chicos en Canadá no dejaron de ver NOVA por hacer CBEEE. Una posible excepción, claro, es la memoria. Si vamos a diseñar exámenes memorísticos sí que veo posible que enfocarnos en dos asignaturas puede ir en detrimento de las demás. Pero si se trata de resolver problemas novedosos es incluso posible que trabajar en ciencia ayude en la resolución de matemáticas o al revés. Por esto pienso que el teach to the test no será tan grave problema si se diseñan bien los exámenes.

Hay 20 comentarios
  • Muy buen articulo! Felicidades! Se me hace raro que tardemos tanto en adoptar cosas en el sistema educativo que han sido obvias para muchos paises desde hace siglos, y aun asi, con toda esta evidencia, nos encontremos ante tal rechazo.

    Muy importante la calidad del examen como se resalta en el articulo. Por desgracia no se como va a ser el sistema de crear los examenes, y algo tan opaco y controlado por politicos me da miedo. Mi duda es si podria privatizar los examenes estandarizados, como ocurre en Inglaterra. Ya se que la propuesta se expone a una respuesta "no a la privatizacion de la educacion" aunque no lo sea. Puede que existan colegios que quieran solo examenes de memorizar, pero tengo fe en la comunidad educadora, y estoy seguro que la mayoria preferira examenes que ayuden a desarrollar las habilidades de sus alumnos. Un test estandarizado no tiene que ser que todo el mundo reciba el mismo examen (entre generaciones reciben siempre uno distinto), y existen muchas maneras de ensenyar la misma asignatura. No se, siempre tendre duda si la opcion la usaran los colegios para no tener que cambiar nada, o realmente para mejorar. Pero seria interesante ver si es necesario que el examen para tener estos efectos sea unico, o basta con garantizar que tengan un nivel minimo, y se puede elegir entre un menu de examenes.

  • Enhorabuena por su blog. Me encantaria leer un análisis de usted sobre los motivos de tanta resistencia a la LOMCE por parte de algunos sectores de la comunidad educativa.

  • A mi la idea de un examen en secundaria me parece mas que razonable. ¿Alguien sabe a que se debe el rechazo a la ley? Tiene que ver con el examen?

    • Muchas gracias por el segundo enlace (el primero aún no lo he visto).
      El futuro, evidentemente, nos está arrollando. Mientras nosotros discutimos si religión optativa o evaluable, si educación para la ciudadanía, si segregada o mixta, en miles de escuelas (especialmente de países del ex-tercer mundo) aprovechan de forma flexible el universo que Internet ha puesto al alcance de todos. Cuando nosotros alcancemos el nivel de Finlandia en Pisa (seamos optimistas) ese nivel será inadecuado por obsoleto.
      ¿Y qué decir de nuestras universidades?
      Las franquicias de Harvard, Cambridge o Toronto acabarán con ellas (con la mayoría).
      ¡Bienaventurados los niñós, que se librarán de toda la mediocridad actual!!

      • Completamente de acuerdo con la segunda parte, también
        Parece que de todas formas algo se mueve en este país:
        http://www.abc.es/familia-educacion/20131029/abci-maria-acaso-reduvolution-201310281621.html
        —En rEDUvolution, su último y provocador libro, propone realizar un cambio de paradigma. ¿Es que está mal?
        —No es que esté mal, es que no sirve. Los niños van con sus Mp3, sus móviles 3G... y su flauta dulce. ¡Por favor! Ha cambiado todo, y sobre todo lo que tiene que ver con la gestión del conocimiento. Igual que un médico no puede operar sin anestesia, como en el siglo XIX, hoy no se puede aprender con una lección tradicional, donde lo único que se consigue es una educación bulímica, donde te atracas de información que vomitas el día del examen y a los tres segundos cuando has salido por la puerta has olvidado todo. Ese es el paradigma al que te lleva una educación tradicional. Hay que ir hacia una educación experiencial, motivadora, activa... Mientras que en otras disciplinas está super aceptado que el inconsciente lo que hace es modificar todo el proceso de absorción de datos, en pedagogía no. A día de hoy parece que todos los alumnos tienen que entender la clase de la misma manera, coger los mismos apuntes y decirlo igual durante el examen
        Como profesores aceptaremos que nosotros enseñamos y que los alumnos aprenden otras cosas. Tu das una clase a veinte personas y cada uno va a elaborar según su propia biografía, su creatividad, sus conocimientos... un discurso diferente.

  • Para ver el efecto en las aulas de los CBEEE es absurdo observar los hábitos de los alumnos, pues estos no se pueden interpretar como una función unívoca del trabajo en las aulas.
    Sugiero ponerse en el lugar del profesor de Matemáticas de 1º de ESO ante evaluaciones externas varias. ¿Qué pensáis que sucederá? ¿Hará actividades más prácticas , experimentos con los números naturales y enteros, experimentos aleatorios? ¿Cómo se va a evaluar eso en los exámenes standard? ¿O quizás hará mil items semejantes de "descompón en factores primos" o "escribe como una sola potencia"?
    Utilizando el lenguaje de los economistas, analicen los incentivos externos del profesor y adivinen por una vez qué va a ocurrir.

    • No entiendo. Hay una tabla de efectos sobre el profesor! De hecho la tabla larga del paper tiene todavia mas efectos y todos van en la direccion de que no se producen desviaciones raras. Y la explicacion economica es la que pongo al final del articulo, muchas veces hablamos de este tema como si las actividades escolares fueran todas sustitutivas y hay muchas complementarias.

      • Sucede que el enlace al artículo no funciona y la tabla por sí misma es ilegible. Aún habría que justificar que se puedan volcar los datos de Canadá, 1991, a un sistema como el español actual, donde ya hay teach to the test en ambientes donde hay visibilidad de los datos en evaluaciones diagnóstico.
        Por último, sobre lo de "resolver problemas novedosos". ¿En qué test standard ha encontrado un ejemplo?

        • Ahora deberia funcionar el enlace, lamento el error. Tambien he explicado un poco mas las tablas en respuesta a Samuel. Evidentemente no es posible extrapolar y desde luego la evidencia no es causal. Pero como minimo prueba que no es evidente, ni de manera empirica, ni de manera teorica que los examenes externos sean malos para otras actividades. En todo caso la resistencia a los examenes es curiosa. Me imagino a un estudiante que dijera que los profesores no debian examinarlo porque el hacer examenes le iba a distraer de las actividades de aprendizaje realmente importantes.

  • Antonio, estoy un poco perdido con el gráfico de los alemanes. ¿Todos tienen exámenes externos al colegio? En tal caso, ¿cómo se ve qué efecto tiene que existan esos exámenes? ¿Y qué son las misteriosas columnas de números que salen del artículo de Bishop?

    • Aqui me pase de escueto. Solo 7 de las 16 regiones tienen examen externo. Lo que tenemos aqui es un "added-variable" graph que primero regresa cada variable (en este caso examenes y resultados) sobre los controles y representa los residuos de las dos regresiones. Los estados de la derecha, que son lo que tienen valor condicional positivo son los que tienen examen. La pendiente positiva es la que dice que hay un efecto.
      Sobre el articulo de Bishop la primera columna es la media de la variable, la segunda la desviacion tipica, la tercera es el coeficiente del examen y la cuarta el estadistico T.

  • Lo único seguro es que los exámenes externos actuarán como un filtro o una criba de acuerdo con los criterios que se fijen y cómo estén diseñados. Lo que no está nada claro son las alternativas que el sistema educativo ofrecerá a aquellos que queden retenidos. Un buen sistema educativo debería estar diseñado de forma que nadie llegue a una vía muerta, sino que tarde o temprano, con el tiempo y el esfuerzo necesario, pueda llegar a los niveles superiores, universitarios, profesionales o del tipo que sean. Es más, debería poder llegar incluso sin pasar por las múltiples variantes de la escuela y debería tener la posibilidad de acreditarlo, superando las pruebas o demostrando las competencias que establezcan los organismos creados al efecto.

  • Me preocupa lo de las evaluaciones "con consecuencias" unido al resto de aspectos de la lomce. Ayer hablaba con una maestra de colegio con un 20% de emigración y familias de escasa o nula alfabetización. Tal y como está organizada nuestra estructura escolar (privados, concertados y públicos), con la escasa confianza en la independencia de la admon. en muchos temas y las competencias de la figura del director, que muchos ven como una potencial intromisión política en las escuelas ¿Podemos esperar que lo que funciona en Alemania, EEUU (con sorprendente acuerdo de los dos partidos, tal y como dices, cosa q nunca sucede aquí) o Canadá, funcione correctamente aquí?
    Preguntas que nada tienen que ver con los beneficios de una evaluación externa correctamente planteada y pruebas bien diseñadas, lamentablemente.
    Una pregunta probablemente absurda, ¿el objetivo es evaluar la calidad d la enseñanza para obtener diagnóstico, "motivar" al profesorado o calificar a los alumnos cuando han terminado?
    Muchas gracias

    • Yo no se cual es el objetivo concreto de estos examenes, pero una vez esten ahi se pueden usar para todo lo que dices, o solo para algunas de esas cosas. Y claro que podemos esperar que funcione bien, por lo menos hay que intentarlo. Porque seguir como siempre es muy mala idea. No se como esperamos seguir siendo parte del mundo rico si las habilidades de nuestros trabajadores estan por debajo de los de otros paises desarrollados y en desarrollo.

      • Entiendo que el tuyo es un análisis descriptivo. Si esos exámenes los analizase mi madre (persona de absoluta confianza que sé positivamente solo desea mi bien), estaría encantada de que usase los resultados que dichas pruebas desprendiesen con su mejor criterio. Si va a ser mi administración, actual o pasada, prefiero conocer sus objetivos antes de aplaudir la medida.
        "De apoyo", dos palabras en una enmienda, terminaron por destruir la poca confianza que tenía depositada en mi administración en materia educativa.
        Muchas gracias por la atención prestada.

        • Una ventaja de los examenes externos es justamente que la accountability genera incentivos hasta en los malos administradores. PISA, TIMMS, PIAAC son espejos en lo que nos duele mirarnos, pero que estan ahi para que intentemos algo aunque sea por verguenza. Los politicos echan la culpa de los resultados a los inmigrantes, a los recursos, a la escuela publica o a la privada segun les convenga, pero los datos estan ahi para decir que por desgracia hay algo mas.

Los comentarios están cerrados.