Los efectos positivos de la rendición de cuentas escolar

A los académicos nos da mucha pereza repetirnos. En tanto que investigadores, nos pagan por ser originales, y repetir muchas veces el mismo mensaje va contra nuestros instintos. Pero esto nos puede hacer peores profesores (o divulgadores). Simplemente haciendo algo de introspección nos daremos cuenta de que el mensaje no siempre se entiende a la primera, o no se escucha, o requiere algún matiz. Las líneas que preceden son más que nada para animarme a mí mismo, porque lo que voy a decir ya lo hemos dicho muchas veces (aquí, aquí, o aquí), pero es importante insistir: la rendición de cuentas escolar, uno de cuyos instrumentos son los exámenes estandarizados, es buena para los alumnos. Y hoy les presentaré una recopilación de evidencia reciente que lo muestra una vez más.

La evidencia está recopilada en un capítulo del volumen III del Handbook of Economic Education editado por Eric Hanushek, mi colega Stephen Machin, y Ludger Woessmann (todos los cuales resultaran familiares a los lectores habituales del blog). El capítulo 8, escrito por David Figlio y Susanna Loeb se llama justamente “School accountability” o rendición de cuentas escolar.

Por cierto, anticipo una crítica así que me adelanto a contestar. Estoy muy a favor de aplicar el mismo tipo de medidas en la universidad. Me dicen que Colombia ya tiene exámenes estándar para las universidades al principio y, sobre todo, al final de los estudios, y me parece que se deberían establecer también para todos los países. No sólo esto, el nuevo curso de principios de economía (CORE Economics) del que ya les hablé en una ocasión, vamos a evaluarlo de esta manera sin esperar a iniciativas más globales, con exámenes estándar tanto a los que adoptamos el curso como a los que no lo hacen, antes y después de tomarlo.

Además, para la universidad cabe un elemento más de evaluación, los resultados laborales de los egresados, de los que para España ya dispone el Ministerio de Educación. Y aprovecho estas líneas para pedir, que digo exigir, que el Ministerio ponga estos datos a disposición de investigadores y otras administraciones para que puedan realizarse estudios que hagan más transparente y potente esa rendición de cuentas. Así que no, señores, esto no es una caza de brujas contra nadie, es una exigencia democrática y progresista, para todos los niveles educativos.

Volvamos pues al artículo que nos ocupa. En un blog de economía no sorprenderá que se defienda medir los resultados como medio para mejorar el rendimiento en una relación entre principal (la sociedad) y agentes (las escuelas). Pero en esto, como en todo, el demonio está en los detalles y hay muchas formas de gestionar esta rendición de cuentas y muchas posibles consecuencias no intencionadas, que los autores mencionan. Por ejemplo, si la evaluación tiene consecuencias explícitas o no. Habiendo evaluación, podría no ser necesario que haya un sistema de premios y castigos muy preciso por motivos variados: el propio pundonor de los profesionales, o la presión informal de autoridades o familias puede hacer reaccionar a las escuelas. Otro aspecto muy importante es qué se mide. A mí esto me parece fundamental, una crítica válida a los exámenes estándar es que de manera natural harán que los profesores concentren sus esfuerzos en que los estudiantes lo hagan bien en ellos, y por tanto es importante que midan muchos tipos de competencias y conocimientos. “Enseñar para el examen” es un problema sólo si el examen está mal hecho. Otras cuestiones que se discuten en el artículo es si se debe incentivar desempeño absoluto o mejoras, quiénes deben tomar el examen o en qué momento debe hacerse.

Otro aspecto importante que consideran los autores es que a priori también hay motivos para pensar que la rendición de cuentas podría no ser efectiva. Como hemos dicho antes, los estudiantes podrían mejorar en lo medido a cambio de empeorar en lo que no se mide, si el examen está mal diseñado. O simplemente podrían tener mejores resultados porque están más atentos al examen, no porque sepan más. También es posible que haya comportamientos tramposos, de las escuelas, o de los administradores bajando el nivel para que sea más accesible. Estos comportamientos estratégicos (“enseñar para el examen”, hacer trampas) siendo preocupantes, no son distintos de los que enfrenta cualquier profesor que hace un examen (o un inspector de Hacienda buscando a un evasor), así que se deben tratar igual, mejorando la prueba o capturando al tramposo.

Un último punto relevante es que tal vez las escuelas carezcan de recursos o capacidad para reaccionar. Los incentivos explícitos pueden desplazar a los implícitos, en particular si las recompensas no son grandes. O podría ser que los alumnos o profesores son incapaces de mejorar. En cuyo caso habría que mejorar la selección del profesorado, y en el caso de los alumnos determinar con métodos psicométricos si efectivamente es imposible que aprendan, o quizá necesiten otro tipo de objetivos/estímulos.

El primer gran conjunto de evidencia que discuten Figlio y Loeb se refiere a la creada por la ley NCLB (No Child Left Behind, Ningún Niño Rezagado) aprobada en Estados Unidos 2001, bajo el mandato de George Bush, si bien diseñada bajo la administración Clinton, con el poco habitual apoyo de los dos partidos. La ley exigía que los estados pusieran unos estándares mínimos para cada escuela pública medidos por exámenes externos, con premios y castigos para las escuelas que no los satisficieran. Figlio y Loeb informan sobre cuatro estudios, que usan grupos tratados y de control diferentes. Por ejemplo, Wong, Cook y Steiner compara escuelas católicas que no estaba sujetas a la ley, con escuelas que sí lo estaban, antes y después de la reforma; también comparan estados que pusieron estándares elevados después de la ley con otros que no lo hicieron. Dee y Jacob como ya les conté en su día compara estados que tenían estándares antes de la ley con los que no los tenían. Neal y Schazenbach comparan estudiantes de escuelas públicas de Chicago tomando el mismo examen dos años distintos, uno antes de la ley con un examen sin consecuencias y otro después cuando el examen tenía consecuencia. Cronin y otros autores comparan estudiantes de una cohorte anterior a la ley con los de otra cohorte posterior. Como era de esperar con muestras y procedimientos tan variados, los resultados son muy diferentes pero es tranquilizante observar que todos los estudios dan resultados positivos, y en algunos casos bastante grandes.

rendicion de cuentas escolar 1

También es verdad como dicen Figlio y Loeb que la rapidez de ejecución de la ley y la escasa variabilidad dificulta obtener conclusiones muy fuertes, y por esto es interesante mirar más estudios. Hay un segundo tipo de estudios que hacen comparaciones dentro de un mismo estado o ciudad entre distritos o escuelas, sujetos o no a mayores o menores estándares. En general, aunque no siempre, los resultados son positivos. Y finalmente, el grupo más grande de estudios hacen comparaciones interestatales, que mostramos en la siguiente tabla. De nuevo, las metodologías y los datos muestran en general efectos positivos, aunque se puede y debe matizar. Los efectos tienden a ser más positivos en matemáticas que en lectura, y más positivos para niveles más elementales (cuarto de primaria) que para niveles más avanzados (octavo, el equivalente a nuestro segundo de la ESO).

rendicion de cuentas escolar 2
rendicion de cuentas escolar 3

Hay otro par de cuestiones que merecen hacerse notar. Los efectos son más grandes para los estudiantes “marginales” en el sentido económico del término, es decir, aquellos que tienen más importancia para conseguir el resultado que determina la ley (típicamente que no haya muchos estudiantes que no consigan unos estándares mínimos). También hay evidencia de que las mejoras de los estados que primero adoptaron estándares fueron mayores de los que lo hicieron más tarde, y las ganancias iniciales fueron superiores a las posteriores para todo el mundo. Esto puede ser evidencia de que la política de rendición de cuentas (como muchas otras cosas) tiene rendimientos decrecientes, y que los que primero adoptaron eran los que estaban peor o tenían una capacidad de mejora más evidente.

Hay más cosas en el artículo, como una discusión sobre los efectos en las decisiones laborales de los profesores, pero mejor me paro aquí. Así puedo volver a darles la vara otro día, por si ustedes, o los políticos a los que tengamos que votar en otoño, se olvidan o no prestaron atención.

Hay 12 comentarios
  • Creo que pone el dedo en la llaga cuando dice que lo de "enseñar para el examen" sólo es malo si el examen está mal hecho. A mi parecer, ésa es la cuestión que debería estar debatiéndose en estos momentos en España cuando se habla de las famosas reválidas que prevé la LOMCE. Por desgracia se oye mucha crítica "ideologizada" en el peor sentido de la palabra, en lugar de exigir a las administraciones educativas que expliquen cómo van a ser esas pruebas y si van a medir lo que de verdad importa: La comprensión y expresión, el saber relacionar conocimientos y aplicarlos para resolver problemas, etc.
    Enhorabuena por su artículo; espero con ansia esa segunda parte que menciona.

      • Perdón, por deformación profesional estaba pensando en las de secundaria, de las que aún no sabemos nada.

    • Entiendo que ustedes, economistas con formación matemática, alaben la estandarización, pero hay competencias que, por suerte más que por desgracia, no se pueden medir con una prueba estándar. La competencia social y ciudadana, por ejemplo, va más allá de unas capacidades cognitivas. Se puede hablar de inteligencia emocional y, en consecuencia, de competencia emocional. La creatividad es el ejemplo extremo de inadecuación de las pruebas estándar. Y no es solo la creatividad "artistica". La iniciativa, la expresion oral, la expresión escrita... Alguien negará la importancia de todas estas competencias en la educación?
      Comparto (y soy profesor de secundaria) la necesidad de rendir cuentas, algo que provoca el rechazo entre sindicatos y colectivo docente en general. Pero quiero llamarles la atención sobre la dificultad, casi irresoluble, de compaginar una formación integral con pruebas estándar.
      Saludos y excusas por las deficiencias del teclado, que sólo admite la interrogación de cierre.

      • Muchas gracias por la aportación, pero me temo que disiento profundamente de que estas capacidades que usted menciona no se puedan medir. Me consta que hay tests de creatividad porque estamos considerando varios, diseñados por psicólogos, para evaluar un programa muy interesante de una escuela que justamente nos parece que fomenta (entre otras cosas) la creatividad. Y también sé porque he trabajado en ello, que hay formas muy apropiadas de medir el espíritu cívico, el capital social y la confianza en el prójimo, y en el no tan prójimo. Y me parece importantísimo medirlo para que esos programas pioneros e interesantes no se pierdan porque las escuelas que los realizan no brillan en las pruebas de conocimiento estándar. Incluso desde la perspectiva "economicista" más estrecha, esas capacidades que usted menciona son justamente aquellas de cuya carencia se quejan los empleadores.

  • Me queda la duda de por qué los resultados en PISA de EEUU se mantienen estables en el tiempo, a pesar del tiempo q lleva funcionando NCLB, y por qué están tan próximos a los de España, con una política educativa tan distinta y con resultados también estables (en los márgenes del error estadístico y del error de medición).

    Por otro lado, no creo que sea cierto que si diseñamos mejor las pruebas, acabamos con los efectos indeseados de la evaluación. Entrenar para una prueba bien hecha no deja de suponer concentar el currículum en aquellos aspectos que son estandarizables e introducir dinámicas de clase encaminadas a la superación de exámenes, dejando de lado dinámicas más participativas, más orientadas a las necesidades del alumnado y a sus motivaciones específicas. El argumento de que si mejoramos la forma de hacer la prueba el resultado será virtuoso, me recuerda mucho a los técnicos del Gosplan de la antigua URSS: si mejoramos los indicadores, mejoramos el resultado de la planificación.

    Dicho de otra forma, la Ley de Campbell es de las pocas certezas que tenemos en ciencias sociales: cuando empleamos un indicador cuantitativo para evaluar un proceso social, cuantos más recursos asignamos según los resultados del indicador, más se corrompe el proceso social que queremos medir.

  • La necesidad de homologación no implica que las garantías tengan que ser proporcionadas por el Estado. Oxford, Yale, el MIT de Massachusetts tienen el suficiente prestigio como para no necesitar de los avales del gobierno de turno. Hay cientos de titulaciones propias que ya son reconocidas por las empresas, vengan acompañadas o no de un papel oficial.
    Con independencia de a quién correspondan las homologaciones, lo que resulta evidente es que en muchas de las etapas del aprendizaje esta homologación no es necesaria y se está empleando como un mecanismo de normalización y de selección, de conducir los aprendizajes por unos caminos determinados al tiempo que se dificultan o se cierran otros. Todo aquello que no se homologa, que no está sujeto a una evaluación externa, no se considera digno de ser aprendido; todo aquello que no se traduce en las competencias necesarias para ejercer un oficio, se considera escolarmente como un complemento, como una enseñanza menor.
    La necesidad de homologación de las titulaciones no justifica que los saberes empiecen a normalizarse desde la infancia. Y es contraproducente que así se haga: por la rigidez, por los límites que impone, por los desarrollos que cierra y por la enorme cantidad de posibilidades que se están desaprovechando. Y, lo que es peor, con la normalización de los saberes se consigue que todas las escuelas funcionen de la misma manera.
    http://www.otraspoliticas.com/educacion/la-escuela-del-siglo-xxi

Los comentarios están cerrados.