¿Qué es un buen profesor? Parte I: Medición, Sesgo y Precisión

La calidad del profesorado está en el centro del debate académico (y político). Esta generalmente aceptado que los docentes varían ampliamente en el impacto que tienen en el aprendizaje de los estudiantes a los que enseñan. Sin embargo, existe un debate considerable sobre cuál es la mejor manera de medir la efectividad de los docentes, y con qué factores se relaciona.

Sorprendemente, características de los docentes que podríamos considerar que aproximan fielmente la efectividad de su impacto en el aprendizaje, como la experiencia, educación, o el tipo de contrato, parecen explicar una parte muy pequeña de las diferencias en el rendimiento de los alumnos (Rivkin, Hanushek, y Kain, 2005; Hanushek y Rivkin, 2012). Estos resultados han motivado a los investigadores a intentar medir la calidad de la enseñanza utilizando dos enfoques, uno centrado en la calidad de las interacciones entre el docente y el alumno (predominante en Psicología y Educación), y otro centrado en medir el valor añadido del profesor, es decir, la calidad de un profesor centrada en el incremento del aprendizaje de su clase, medido por las ganancias en rendimiento académico (principalmente en Economía).

Esta entrada se centra en explicar cómo los economistas intentan medir la efectividad de un profesor, es decir, a esclarecer cómo de importantes son los profesores para explicar los resultados académicos de los estudiantes. En una segunda parte de este blog, me centraré en escribir sobre la evidencia empírica dedicada a responder cómo se mejora la efectividad del profesor (ej., a través de políticas de reclutamiento, asignación, evaluación, compensación), es decir, cómo se pueden usar dichas medidas de efectividad en la práctica para tomar decisiones de política pública.

¿Qué es el valor añadido del profesor (TVA)?

La efectividad del profesor o valor añadido del profesor (TVA) se define como la habilidad del profesor para incrementar el capital humano de los estudiantes. Dado que el capital humano es un concepto amplio y difícil de medir, los economistas lo aproximan con medidas de desempeño académico como resultados en exámenes estandarizados, habilidades no cognitivas o resultados en el mercado laboral.

Puesto que el TVA no es observable, se tiene que estimar usando datos que emparejen profesores y alumnos. No obstante, existe un obstáculo empírico clave: los profesores, por lo general, no se asignan aleatoriamente a los colegios, ni a sus estudiantes. Esto hace que las diferencias de los resultados educativos entre alumnos de diferentes profesores puedan reflejar diferencias en otros factores, en lugar de la contribución específica del profesor. Por ejemplo, si profesores con menos experiencia fuesen asignados sistemáticamente a colegios y estudiantes desaventajados, esto nos induciría a pensar que su TVA es menor al TVA sin sesgo de selección. Por tanto, el principal objetivo del TVA es aislar la contribución específica del profesor en los resultados académicos de este tipo de sesgos.

Con el objetivo de dar una idea básica de la metodología, la Figura 1 muestra la ecuación estándar que se suele utilizar para estimar el TVA. Los factores observados más importantes son aquellos que se observan cuando el estudiante está fuera de la clase, por ejemplo, resultados académicos previos o características socio-demográficas. La variación residual en los resultados académicos incluye el efecto de factores correlacionados con la clase (ej., la calidad del emparejamiento que tiene un profesor con su clase), o error de medida correlacionado (ej., un perro que ladra fuera de la clase en el momento del examen). Los coeficientes de interés que miden el TVA son los efectos fijos a nivel profesor, que por definición persisten a lo largo de las clases y años en los que enseña ese profesor. Por tanto, el valor añadido del profesor es la diferencia entre la media esperable de notas de su grupo de alumnos basada en sus características personales, y la que se obtiene en esa clase concreta. Puesto que nunca se observa una clase sin un profesor, las estimaciones de TVA son medidas de productividad relativa. Si el TVA de un profesor es negativo, significa que se espera que los estudiantes de ese profesor rindan menos de lo que rendirían si fueran asignados al profesor promedio.

Figura 1: Modelo econométrico estándar para estimar el TVA

Fuente: Elaboración propia

La efectividad de un profesor, es decir, su TVA, tiene una influencia muy grande en el rendimiento académico (incluso comparado con otras medidas educativos populares como la reducción del tamaño de la clase). La Figura 2 muestra las estimaciones de TVA de varios trabajos de investigación. En promedio, tener un profesor con un TVA de una desviación estándar mayor (pasar de un profesor promedio a uno en el percentil 84), mejora el rendimiento académico de los estudiantes en un 10-20 por ciento de desviación estándar.

Figura 2: Distribución de los efectos TVA en varios trabajos académicos

Fuente: Hanushek y Rivkin (2012)

La evidencia empírica reciente sugiere que las estimaciones del TVA cambian a lo largo del tiempo (Goldhaber and Hansen, 2013), y en contextos diferentes, por ejemplo, en diferentes etapas educativas (Kane and Staiger, 2005) y asignaturas (Lefgren and Sims, 2012). La implicación directa es que estimadores del TVA en un contexto/año particular pueden sobrestimar el impacto de ese profesor concreto en un contexto/año diferente, a menos que se utilicen métodos que controlen por esos cambios (Chetty et al., 2014a). Por tanto, la pregunta clave en este contexto es: ¿son los TVA una medida precisa de al menos algunas dimensiones de la calidad del profesorado? Esta pregunta amplia ha sido objeto de gran cantidad de trabajos recientes, con la subsecuente controversia académica y política. Para determinar la respuesta, se deben explorar dos cuestiones fundamentales: (i) ¿Están sesgadas las estimaciones del TVA?; (ii) ¿Cómo de precisas son esas estimaciones?

¿Están sesgadas las estimaciones del TVA?

¿Pueden las TVA realmente separar los efectos de los profesores de otros factores que afectan al rendimiento de los estudiantes? ¿Es suficiente con usar datos de rendimiento pasado y características demográficas para capturar el efecto causal de los profesores? Resolver este debate es crucial para la política pública, puesto que medidas sesgadas de TVA premiaran o penalizaran a los profesores sistemáticamente por la composición de los estudiantes en sus clases.

En dos trabajos de gran influencia (Rothstein, 2009; 2010), Rothstein encuentra que la asignación futura de los profesores a los estudiantes predice el rendimiento actual de los estudiantes, condicionado en los controles típicos del TVA. Esto indica que la asignación de los profesores está correlacionada con características no observadas por los investigadores. Aunque análisis posteriores sugieren que los resultados de Rothstein pueden sufrir de error de medida y de reversión a la media en rendimiento académico (Koedel y Betts, 2011, Chetty et al. 2014a), además de rendir pobremente en muestras pequeñas (Goldhaber y Chaplin 2015, Kinsler 2012), la “crítica Rothstein” pone de manifiesto el potencial problema de sesgo ocasionado por selección en características de las estudiantes no observadas, escenario de mayor preocupación para interpretar los TVA.

Una manera de ayudar a elucidar el sesgo de selección en variables no observadas, sería asignar profesores a los estudiantes de manera aleatoria, calcular el TVA, y comparar la estimación con la que se obtendría del análisis estándar de TVA sin aleatorizar. Kane y Staiger (2008) y Kane et al. (2013) hacen exactamente esto, encontrando que los TVA estimados por el método estándar son predictores insesgados de las diferencias en rendimiento académico estimadas con asignación aleatoria. Si nos fijamos bien en los resultados, los coeficientes sugieren que la selección en variables no observadas es relativamente pequeña, sin embargo, los intervalos de confianza al 95% pueden ser consistentes con una gran cantidad de sesgo (hasta el 50%), probablemente debido a la pequeña muestra que utilizan (unos 1.000 profesores). Por tanto, sería necesario obtener evidencia similar con mayor poder estadístico para incrementar la precisión en la potencial magnitud del sesgo.

Figura 3: TVA estimado por el método estándar vs. TVA estimado con asignación aleatoria

Fuente: Kane et al. (2013)

Chetty et al. (2014a) utilizan evidencia cuasi-experimental para dilucidar esta cuestión. Aprovechando movimientos de profesores entre colegios en EEUU, no encuentran evidencia de sesgo en los estimadores del TVA. Aunque la controversia sobre este trabajo no ha sido poca (ver Rothstein, 2017; y las críticas de Adhler aquí, aquí y aquí), en este caso los intervalos de confianza al 95% denotan que el sesgo sería, en caso de existir, un 9% como máximo. Aunque no existe garantía que los estimadores TVA serán igualmente insesgados en otro contexto, parece que los datos y métodos comúnmente utilizados son capaces de establecer una relación causal entre los profesores y el rendimiento académico.

Figura 4: Efecto de cambios en el TVA medio en los resultados académicos

Fuente: Chetty et al. (2014a)

Precisión de las estimaciones del TVA

La precisión o la estabilidad de los estimadores es crucial para determinar la exactitud con la que se predice el efecto que tendrá un profesor. Los TVA basados en una o dos clases pueden ser indicadores imprecisos del rendimiento futuro de los profesores, incluso aunque provean información útil y real (Staiger y Rockoff, 2010). La correlación año a año de los TVA se sitúa entre el 0,2-0,7, similar a la de otro tipo de empleos (McCaffrey et al. 2009). Esta aparente inestabilidad causa serias dudas acerca de la utilización de esta medida para guiar políticas públicas.

Sin embargo, Staiger y Kane (2014) argumentan que la correlación año a año del TVA es un estadístico con poco significado, y lo que importa es la correlación entre el TVA en un año cualquiera y el TVA de un profesor en toda su carrera laboral. La aparente volatilidad de las estimaciones TVA es, por tanto, engañosa: el TVA de este año está mucho más fuertemente correlacionado con el rendimiento del profesor en toda su carrera (aproximadamente un 0,6), que con el rendimiento el próximo año (estimador más volátil).

Resultados más allá del rendimiento académico

La mayoría de la evidencia sobre TVA se centra en los efectos a corto plazo de los docentes en el rendimiento académico de matemáticas y lengua. Sin embargo, se conoce poco sobre los efectos a largo plazo, y sobre si los profesores más efectivos pueden también afectar los resultados no-cognitivos, habilidades necesarias para tener éxito en la etapa académica, y bien recompensadas en el mercado laboral (Heckman y Kautz, 2012).

Chetty et al. (2014b) muestran que los estudiantes que fueron asignados a profesores con alto TVA en educación primaria tienen mayor probabilidad de ir a la universidad, ganar salarios mayores, vivir en barrios de mayor nivel socioeconómico, reportan una mayor ratio de ahorro cuando tienen 28 años, además de una menor probabilidad de tener un embarazo adolescente (para las mujeres). El trabajo concluye que reemplazar a profesores con TVA en el 5% más bajo de la distribución con un profesor con TVA medio incrementaría el valor presente descontado de los ingresos de los estudiantes en 16.250 dólares por estudiante.

Además, examinando efectos en otras variables complementarias, como los resultados no cognitivos, se pude ofrecer una perspectiva más extensa para detectar profesores de alta calidad. Jackson (2018) aproxima las habilidades no-cognitivas de los estudiantes usando variables como ausencias, suspensiones, notas, y repetición. Este autor encuentra que los TVA de rendimiento académico y los TVA en estas habilidades no-cognitivas están débilmente correlacionados. Los TVA en habilidades no-cognitivas predicen impactos altos en graduación, abandono, y planificación para ir a la universidad. Por tanto, los TVA en habilidades no-cognitivas detectan efectos importantes que no se detectan en los TVA en rendimiento académico, poniendo de manifiesto la necesidad de tener en cuenta los efectos del TVA en habilidades tanto cognitivas como no cognitivas para realizar una evaluación completa de los efectos de los profesores.

Conclusión

Usar el TVA como única medida de la efectividad del profesorado tiene limitaciones importantes e incorpora ciertos riesgos. Complementar el TVA en rendimiento académico con otras medidas de la calidad del profesorado, como el TVA en habilidades no cognitivas o indicadores sobre las prácticas pedagógicas de los profesores, puede ayudar a predecir otras variables relevantes en el corto y largo plazo del capital humano de los estudiantes (Chetty et al. 2011;Algan, Cahuc, y Shleifer 2013;Jackson, Rockoff, y Staiger 2014). Es importante destacar que, por el momento todavía no comprendemos bien qué se esconde detrás de las diferencias en TVA, es decir, qué hace que algunos profesores sean más efectivos que otros (estudiantes de doctorado: ¡tomad nota para futuros proyectos!).

En general, la evidencia muestra que el TVA es una medida útil sobre la calidad del profesorado. Sin embargo, hasta la fecha en España no se calcula regularmente el TVA de los profesores ni nada similar. Las decisiones sobre contratación, asignación, promoción, o salarios, se toman sin ninguna base objetiva sobre la efectividad del profesorado, entendida como al menos la recopilación sistemática de alguna medida que la aproxime. Como argumentan Araujo et al. (2016), indudablemente el TVA no es una bala de plata, pero obtener el conocimiento sobre qué profesores producen más o menos aprendizaje entre estudiantes equivalentes sería un paso importante para diseñar políticas que mejoren los resultados educativos de los alumnos en el corto y largo plazo. Por tanto, a pesar de las limitaciones mencionadas como medida de efectividad (cualquier tipo de medida las tiene), ¿es mejor tomar decisiones de política pública con información sistemática de medidas imperfectas respaldadas por la investigación o mejor en base a intuiciones, evidencia anecdótica y estadísticos generales agregados?

Hay 12 comentarios
  • La calidad de los profesores se obtiene con que su sueldo de profesor, sea proporcional a la suma total de las notas que obtengan sus alumnos al final y dividido entre el total de alumnos que el profesor tenia matriculados (es decir, que ademas alumnos que le abandonen la asignatura, le cuenten al profesor como 0). Eso, junto con que la evaluacion final, no la haga ese profesor sino otra persona, lo mas distante y neutral posible. Ademas si el profesor no llega con eso a una media de 5, quiza lo mas sensato seria tambien cambiarle por alguien mas competente en la enseñanza. Esa es la unica forma de tener un profesorado de buena calidad y que, como minimo haga su trabajo esmerandose por enseñar bien.

    • Estimado hgr,

      El problema fundamental con el método de medición que comentas es que en esa medida de efectividad del profesor no se tiene en cuenta la "composición del alumnado". Es decir, lo que hace el TVA es que controla por todas aquellas variables que afectan a las notas, como mi habilidad innata o mi contexto familiar, y aisla el efecto causal que tiene un profesor x en mi. La medida que propones, estaría sesgada por el efecto composición. Por ejemplo, si profesores con menos experiencia fuesen asignados sistemáticamente a colegios y estudiantes desaventajados, que tienen peores notas en media, esto nos induciría a pensar que su efectividad es menor a la que realmente tiene (y lo mismo con alumnos que rinden mejor pero con el efecto contrario). Por tanto, hay que controlar por todos estos factores para aislar el efecto causal de cada profesor.

      Un cordial saludo

  • He empezado a leerlo, y en cuanto he pasado del tercer parrafo lo he dejado.

    Llevo dando clases 20 años.

    Sois responsables de la caida en el nivel academico de los alumnos. El futuro que nos (y os) espera es negro (tambien en la universidad). Y no te preocupes, tambien de que titule el 80% en ESO, o casi el 40% en la universidad.

    ¿Cual es la filosofia detras del articulo? El aprendizaje depende de circunstancias externas al alumno (profesor, ambiente, etc).
    Efectivamente hay circunstancias que influyen -minimamente-, pero el aprendizaje es sobre todo individual. Y en esa accion de aprender influyen de forma importante la actitud, persistencia, habito, dedicacion, etc. Eso se trae de casa (incluida la genetica), y a no ser que los hijos pasen a manos del estado, de momento cada familia es diferente. Poco que hacer.
    Y si se quiere medir la influencia de esas circunstancias externas, se puede hacer. Tambien puedes medir la influencia del color de las paredes del instituto. Seguramente encontraras una correlacion.

  • Esta dinámica de imponer qué pensar, cómo pensarlo o para qué pensarlo y si no, es porque se responde a un sesgo o prejuicio ideológico, es a su vez la más clara manifestación de una actitud estrictamente ideológica.
    El profesor no puede guiarse simplemente por el incentivo económico, existe un aura, un camino no reglado que conduce a la satisfacción personal, que es lo que sostiene el valor intrínseco de la enseñanza.
    No creo que exista una fórmula que nos permita estimar con suficiente grado de certeza el valor añadido del trabajo de un docente. Al igual que en ocasiones son engañosas las muestras que se toman a nivel estadístico para verificar el impacto de una determinada línea pedagógica en base a tal o cual política educativa.
    La evidencia en nuestro país es que se altera el valor real de los resultados para pasar el corte y optar a ayudas, así como para maquillar el valor estadístico de cara a elevar nuestro prestigio, a costa de ocultar la auténtica realidad, que no nos resulta alarmante mientras se sigan manipulando los datos en orden a cumplir con determinados objetivos ante la opinión pública. Un cordial saludo.

  • Interesante entrada. Lo mejor para mí es el estímulo a tratar de averiguar qué es lo que hace que uno sea un buen profesor. Sería un paso gigantesco descubrirlo. Lo de medir está bien, pero hay que tomar los resultados con mucha precaución. En ciencias sociales es difícil medir nada con precisión. ¿Cómo se tiene en cuenta, por ejemplo, la dotación genética de cada estudiante? Hablar de medir el efecto causal me parece muy osado.

    • Estimado Roberto:

      Muchas gracias por tu comentario. Estoy de acuerdo contigo en que medir es casi siempre una tarea complicada, y más cuando hay muchos factores interconectados. En cuanto a qué variables usar, y cuál es su coste, nos encontramos con un trade-off entre mejorar la precisión de lo que estamos midiendo y el coste que esto tiene. El ejemplo que comentas sobe la dotación genética es bueno para ilustrar esto, ya que recolectar esos datos sería tremendamente costoso (habría que hacer pruebas genéticas a todos los estudiantes de manera sistemática). Aquí la clave sería saber cómo mejoraría la estimación del TVA incluyendo esta dotación genética con respecto a la precisión que tenemos con el TVA con los controles normalmente disponibles (los resultados académicos de años anteriores capturarían gran parte de esto). En ciencias sociales y médicas, la "regla de oro" para poder identificar une fecto causal es un experimento aleatorio, es decir, aleatorizar la asignación del "tratmeiento". En este caso el "tratamiento" son los profesores, queremos ver si mejoran los resultados de los estudiantes (variable objetivo). Por tanto, para investigar si las TVAs están sesgadas utilizando los controles tradicionales (que no incluyen dotaciones genéticas, por ejemplo), habría que asignar el tratamiento (los profesores) de manera aleatoria a los estudiantes. Kane et al. (2013) es exactamente lo que hacen, y comparan como son las estimaciones con profesores asignados aleatoriamente y como los estimamos normalmente. La Figura 3 de la entrada da la respuesta de que los estimadores del TVA normales no parecen estar sesgados. Por tanto, parece que los TVA hacen un buen trabajo de estimación utilizando los controles disponibles, que no tienen un gran coste de recolección.

      Un cordial saludo

      • De acuerdo pero, si lo entiendo bien, se ha de suponer que las clases son homogéneas ¿Cómo se garantiza esto sin tener por ejemplo en cuenta la dotación genética de los estudiantes? ¿Los alumnos de una clase en, digamos Los Ángeles, tienen las mismas características que otra en Nebraska? Si no es así, la validez de los resultados quedaría en entredicho.

        • Lo más normal, es que en el caso que comentas, las clases no sean homojeneas. Si comparamos las clases directamente nuestro estimador estará capturando el "verdadero efecto" del profesor y un sesgo de selección (en este caso de composición de las clase). Lo que haces para garantizar que estás dos clases se puedan comparar es controlar por características que explican gran parte de la variación en resultados, y que atenuen el sesgo de selección por composición. En este caso serían variables demográficos tipo género, nivel socioeconómico o resultados académicos previos al exámen (todos ellos seguramente muy correlacionados con la dotación genética). Ahora la pregunta es: ¿Cómo de bien capturan estos controles el sesgo de selección y nos permiten captural el efecto aislado del profesor? En este caso, creo que los resultados de Kane et al. (2013) y Chetty et al. (2014)a son bastante convincentes de que el sesgo de selección parece ser pequeño, por lo que los controles típicos funcionan bien.

  • Gracias José por el trabajo. El tema es realmente interesante, y a la vez un area de investigación nada fácil por la cantidad de variables (y dificultad de medir algunas de estas) que pueden entrar en juego para la valoración del TVA.

    Creo que el nivel educativo mejoraría si se consigue poner en valor estas variables positivas, y con relación, a los docentes que obtengan buenos resultados con sus alumnos (teniendo en cuenta el valor de las variables adecuadas). Es una pena que profesores sin gran interés/motivación/valía para la docencia estén desarrollando su trabajo obteniendo las mismas condiciones laborales que otros que, por el contrario, sí la tienen.

    Un saludo,

    • Hola Luc, un breve inciso sobre tu pregunta:

      Un buen alumno, es aquel que muestra una adecuada subordinación, un ser dócil que abreva junto al resto de compañeros, asimilando y reproduciendo unos contenidos, y obteniendo su refuerzo psicológico en base a premios y menciones, incentivos que responden a la lógica del código oculto, que imprime obediencia y satisfacción como ejes centrales de una estrategia conciliadora basada en la necesidad del control social, que anula al genio y da crédito ilimitado a una mediocridad rampante. En cualquier caso, una sociedad de genios sería ingobernable, o tal vez no haría falta legislar ni gobernar, quién sabe.

Los comentarios están cerrados.