Nada es Gratis » Notas de clase y evaluaciones externas: ni equivalentes entre sí ni iguales para todos

Por Lucas Gortazar, David Martinez de Lafuente y Ainhoa Vega-Bayo

Many hands of volunteers during Maths class (Imagen de Freepik)

En España no existe, desde hace años, un tema educativo más controvertido que el de la evaluación. Sin embargo, lejos de basarse en evidencia científica, el debate público sobre esta se enturbia por intereses partidistas y mediáticos empeñados en politizar la educación, algo que acaba permeando a docentes, alumnos y familias. Como resultado, hablamos desde hace tiempo sobre aprobar, suspender, pasar de curso o repetir, o de si los sobresalientes y notables aumentan o disminuyen, como si de un desastre civilizatorio se tratara.

La normativa sobre cómo regular la repetición es, probablemente, uno de los asuntos más discutidos en el ámbito de la evaluación. Y esto es así porque la cultura juega un papel fundamental en la concepción de la educación y las políticas educativas. La repetición escolar se asienta sobre cómo se evalúan los aprendizajes y sobre si el nivel de aprendizaje alcanzado se corresponde con las expectativas que el currículum escolar plantea para el alumnado. Frente a la instauración de programas de refuerzo o cambios metodológicos en otros países de nuestro entorno, la cultura escolar española utiliza la repetición de curso para el alumnado que no alcanza dichas expectativas. El resultado: según los datos de PISA 2018, aproximadamente un 29% del alumnado ha repetido curso alguna vez antes de finalizar la etapa obligatoria. No existe un país industrializado (salvo quizás Bélgica) con niveles equiparables de aprendizaje y de repetición de curso. Y esto es importante pues sabemos desde hace tiempo, tras décadas de investigación educativa, que la repetición es más un factor de retroceso que de avance educativo, dado que aumenta la probabilidad de abandonar el sistema educativo y afecta desproporcionadamente a alumnado con nivel socioeconómico bajo.

A diferencia de otros países, en España la repetición depende mucho de contar aprobados y suspensos, lo que otorga especial poder al profesorado y sus evaluaciones sumativas. Así pues, una pregunta que adquiere especial relevancia en España es hasta qué punto las calificaciones docentes (también denominadas “evaluaciones internas”) son fiables y, por tanto, independientes del profesor que las realiza. En este ámbito, la evidencia científica apunta hacia una correlación más que imperfecta entre las medidas ciegas (como las evaluaciones estandarizadas externas) y las evaluaciones internas. En conjunto, esto sugiere que las “notas de fin de curso” no necesariamente constituyen una medida fiable de las habilidades cognitivas del alumnado, sino que pueden reflejar una combinación de sus habilidades y otros aspectos no cognitivos e intangibles, su carácter continuo a lo largo del curso, u otros factores como el comportamiento en el aula o incluso los propios sesgos de los docentes.

Si bien cabe esperar cierta desalineación entre evaluaciones estandarizadas e internas pues no buscan cuantificar las mismas aptitudes o habilidades, ni lo hacen en la misma frecuencia a lo largo del tiempo, lo cierto es que resulta fundamental comprender la medida por la que estas discrepancias se relacionan con ciertas características del alumnado, como pueden ser el género, el origen socioeconómico, su país de nacimiento, o el idioma hablado en el hogar.

En un artículo recientemente publicado, investigamos si existen posibles sesgos en la evaluación docente mediante el análisis de diferencias entre notas internas y evaluaciones externas en Euskadi por características de los alumnos. El estudio se basa en datos censales de más de 31.000 alumnos de 4º de Primaria y 2º de ESO, escolarizados en centros educativos públicos y concertados. Nuestra estrategia empírica se basa en comparar los resultados de las calificaciones docentes y las pruebas externas obtenidas por el mismo estudiante.

Las evaluaciones externas, llamadas Evaluaciones de Diagnóstico, las realiza el Instituto Vasco de Evaluación e Investigación Educativa (Departamento de Educación del Gobierno Vasco) desde 2009. Por su parte, las evaluaciones internas son las notas y calificaciones obtenidas por cada alumno al final de curso en una determinada asignatura o competencia. Si bien ambas evaluaciones están diseñadas para medir habilidades en la misma asignatura, las Evaluaciones de Diagnóstico carecen de la discreción de los docentes de las evaluaciones internas, dado que se califican externamente y de forma anónima.

Con este estudio, contribuimos a la evidencia internacional sobre la existencia de sesgos entre evaluaciones internas y externas por características de alumnado. En términos generales y a pesar de existir algunas excepciones, la literatura en este ámbito encuentra sesgos positivos de las evaluaciones docentes hacia mujeres (p.ej.: en Francia, Israel o España), inmigrantes (p.ej.: en Reino Unido) y estudiantes de menor nivel socioeconómico (p.ej.: en India o España).

Resultados y mecanismos

Nuestros resultados, a los que aplicamos varios tests de robustez y sensibilidad, apuntan a lo siguiente. En primer lugar, las estimaciones sugieren que las chicas obtienen significativamente mejores calificaciones internas, incluso después de controlar por el resultado de las evaluaciones externas. Esto sucede para las alumnas de primaria y secundaria en todas las asignaturas investigadas, excepto Matemáticas de primaria. Así, en 2º de la ESO, las chicas reciben, en promedio, una calificación docente entre 0,223-0,380 desviaciones estándar (D.S.) superior que la de un chico que obtiene el mismo resultado en las evaluaciones externas y tiene además las mismas características observables que la alumna en cuestión.

En segundo lugar, la evidencia apunta hacia un impacto negativo del origen extranjero en las “notas de fin de curso”, tanto en primaria como en secundaria. Así, nuestras estimaciones apuntan, por ejemplo, a que los inmigrantes de primera generación obtienen en 4º de primaria una nota entre 0,17 y 0,28 D.S. menor (dependiendo de la asignatura) que una persona nativa con las mismas características, incluyendo el resultado de las evaluaciones externas. Los impactos son significativos, aunque menores, para los inmigrantes de segunda generación.

En tercer lugar, encontramos que los alumnos de hogares con mayor renta y nivel socieconómico y cultural también reciben calificaciones docentes comparativamente más altas. La medida en que ocurre este gradiente socioeconómico es bastante consistente entre asignaturas, tanto en primaria como en secundaria, y su magnitud es también relevante. En los tres casos (género, origen migrante y nivel socioeconómico) se tratan de magnitudes de efectos muy relevantes y semejantes al impacto positivo de intervenciones educativas como la participación en escuelas de verano o las tutorías en pequeños grupos.

Más allá de estas tres características, nuestras estimaciones apuntan a que otras dimensiones como hablar euskera en casa o no haber repetido previamente influyen positivamente sobre las evaluaciones internas, incluso una vez controlamos por evaluaciones externas.

Debido a la disponibilidad de los datos utilizados, no podemos concluir que estos resultados se deban únicamente a estereotipos o al favoritismo hacia determinados alumnos por parte del profesorado. Por tanto, creemos que se requiere más investigación sobre los determinantes que afectan las calificaciones docentes y sus implicaciones en la equidad educativa.

Discusión

Los resultados, consistentes con la mayor parte de la literatura previa, indican que los alumnos con altas tasas de repetición –i.e., chicos, alumnado de origen inmigrante y, especialmente, estudiantes de bajo nivel socioeconómico— se encuentran sistemáticamente penalizados, aun controlando por niveles competenciales en las evaluaciones externas. Esta conexión de fenómenos revela que, al hablar de calificación y repetición, los criterios de evaluación docente son un mecanismo clave para explicar las desigualdades e ineficiencias del sistema educativo español.

Esta idea se refuerza al ver lo parecidos que son nuestros resultados para Euskadi y los obtenidos en otros estudios previos para Andalucía o Cataluña. Por tanto, se apunta a la importancia del uso de instrumentos de evaluación más fiables y libres de sesgos, sobre todo en un sistema educativo donde repiten aproximadamente un 30% de los alumnos.

¿Qué podemos hacer para incidir en una evaluación interna más fiable? Dos estudios experimentales recientes alumbran dos ideas para trabajar desde las Administraciones y centros educativos. El reciente estudio experimental de Quinn (2020) muestra, para Estados Unidos, que cuando los maestros usan una rúbrica con criterios de evaluación claros (en vez de una escala de evaluación por niveles – calificar con números-), los sesgos de evaluación por raza desaparecen. Otra opción, quizás más prometedora, es implicar de forma activa al profesorado informándole de sus propios sesgos y estereotipos: en una intervención reciente en Italia, Alesina y otros (2018) encontraron que cuando los profesores italianos recibían una medida de sus propios estereotipos con alumnos inmigrantes, redujeron los sesgos en sus calificaciones al final de curso.

En resumen, estamos ante un fenómeno arraigado en la educación, que forma parte de su tradición y ADN, que puede estar generando más ineficiencia y desigualdad de la que parece y cuyas consecuencias son, para el conjunto de la sociedad, muy negativas en el largo plazo. Todo ello ocurre a pesar del discurso imperante derrotista de la educación y que, en algunos casos, acaba culpabilizando de forma injusta a quien no lo merece.