Gender Gaps en el Examen MIR

de José Ignacio Conde-Ruiz (@conderuiz), Juan-José Ganuza y Manu García (@manugar)

Los exámenes tipo test (pruebas de elección múltiple) se utilizan comúnmente en el sector público en sus procedimientos de contratación y selección, así como en la entrada en algunas profesiones (abogados, médicos, profesores, etc.). Además, estos exámenes son considerados como una evaluación objetiva de los méritos, algo que es clave para cualquier proceso de selección en el sector público. El diseño de pruebas de elección múltiple no es una tarea compleja y una de las claves más importantes a la hora de diseñarlas es decidir la puntuación de las respuestas erróneas y omitidas. Lo más habitual es penalizar las respuestas erróneas y no penalizar las preguntas omitidas, bajo el argumento de que penalizar las respuestas erróneas es evitar la suerte en la evaluación del conocimiento del participante. Sin embargo, penalizar las respuestas incorrectas también puede tener un impacto negativo en la evaluación de los examinandos con aversión al riesgo o con un menor grado de confianza. Existe una amplia evidencia empírica de que, en este tipo de pruebas, las mujeres son en promedio más adversas al riesgo (ver Iriberri y Rey-Biel (2019) o Coffman y Klinowski (2019) entre otros) y con menor grado de confianza que los hombres (ver Gneezy, Niederle and Rustichini (2003), Jurajda and Munich (2011), Ors, Palomino and Peyrache (2013) o Buser, Niederle and Oosterbeek (2014) entre otros), y por lo tanto suelen omitir más preguntas cuando los errores están penalizados.  Si las mujeres son más adversas al riesgo que los hombres y por lo tanto dejan sin contestar mas preguntas que los hombres, esto supone que, ceteris paribus, los hombres ocuparan las primeras posiciones en los resultados de este tipo de exámenes.

Si este comportamiento se observara en las pruebas de selección del sector publico, la introducción de la penalización en las respuestas erróneas reduciría el rendimiento medio de las mujeres y su contratación o promoción, simplemente porque arriesgan menos que los hombres. Esta es una advertencia importante, ya que este sesgo, de existir, podría aumentar la brecha entre los géneros en el sector público y puede ser un obstáculo importante en las políticas de contratación pública para atraer talentos.

Para ello en un trabajo reciente analizamos el examen nacional MIR (“Médico Interno Residente”) del año 2019. Cada año el Ministerio de Sanidad español abre puestos en programas de formación de postgrado en más de 50 especialidades. Casi todos los puestos de trabajo para un licenciado en medicina en España requieren la realización de un postgrado en el hospital, y en consecuencia la gran mayoría de los graduados deciden realizar este examen MIR. Los candidatos a las plazas ofertadas por el Ministerio realizan este examen, que consiste en un test de elección múltiple con penalización por respuestas erróneas. El examen tiene una duración de 5 horas para contestar 225 preguntas tipo test (con 4 opciones) con penalización (3 puntos por respuesta correcta y -1 punto por pregunta incorrecta). Los graduados son clasificados en un ranking según un promedio ponderado de su puntuación en el examen tipo test MIR (un 90%) y sus notas en la carrera de medicina (un 10%). A continuación, los graduados eligen secuencialmente entre todas las posiciones de postgrado disponibles. El primer candidato en el ranking elige su posición de residencia preferida. Luego el segundo candidato en el ranking escoge entre las posiciones restantes. El proceso continúa hasta que todos los puestos están asignados.  Por lo tanto, el resultado de la prueba MIR determina en gran medida la carrera profesional de los graduados médicos, y por este motivo los candidatos médicos invierten mucho tiempo, muchos de ellos asisten a escuelas especializadas, para prepararse para este examen MIR. En el año 2019 se presentaron 14.187 médicos (64.35% son mujeres y 35.65% son hombres)

Nuestra contribución a esta literatura consiste en estudiar el rendimiento relativo por género en exámenes tipo test con penalización, en un entorno real en el que los examinandos tienen mucho en juego, como ocurre en la mayoría de los procesos de selección de funcionarios públicos. De acuerdo con esto, queremos inferir si las diferencias de comportamiento por género respecto a las preguntas omitidas que se encuentran en la literatura académica se mantienen cuando los examinandos están bien preparados para el test, pues se juegan gran parte de su futuro, y se preparan específicamente para este tipo de pruebas.

Funk y Perrone (2016) y Akyol, Key y Krishna (2016) encontraron que el efecto de las preguntas omitidas en el examen de opción múltiple tiene muy poco o ningún efecto sobre el desempeño en el examen. Pero tal como ellos mismos aventuran una posible explicación de su resultado es que el examen que analizan no es un examen de alto nivel o donde los participantes pongan parte de su futuro en juego. Justo lo contrario de lo que ocurre en el examen MIR.

Los estadísticos descriptivos del examen MIR  muestran que en media las diferencia de genero son pequeñas. Ambos géneros en términos medios prácticamente obtienen el mismo rendimiento medio (1.88) y muy similares resultados medios en el examen MIR (los hombres en media obtienen un 1.37% mejor resultado que las mujeres). Ademas,  las mujeres en media dejan sin contestar 10,25 preguntas y los hombres 9.62 preguntas.

Tabla 1. Descriptivos Básicos de la muestra completa

Como podemos ver en la Figura 1, hay mas hombres entre los que tienen muy bajo y muy alto rendimiento tanto en el examen como en los resultados académicos.

Figura 1 Distribuciones de densidad: a) Rendimiento en el examen MIR y b) Rendimiento Académico por sexo

En la Tabla 2, vemos los resultados del examen MIR controlando por las variables observables de nuestro análisis: genero, resultado académico y nacionalidad. Como se puede ver el genero es significativo, las mujeres obtienen en el examen MIR un resultado 5,7% inferior a los hombres. En el paper, vemos como las brechas de genero en el resultado del examen MIR se amplifican entre los graduados que obtienen mejor nota final.

Tabla 2. Brecha de Genero en los resultados del Examen MIR

Por último, el análisis de genero de las preguntas correctas, incorrectas y sin contestar esta en la siguiente tabla 3. El resultado principal es que, en esta prueba de máxima importancia para los examinados donde se juegan todo su futuro en dicho examen, en contraposición con la literatura previa, encontramos una diferencia significativa en el comportamiento entre hombres y mujeres en cuanto a las preguntas omitidas muy inferior a lo encontrado en la literatura previa. En particular, controlando por otros factores, encontramos que las mujeres dejan en blanco tan solo un promedio de 0,82 preguntas más que los hombres de las 225 que incluye el examen MIR.

Tabla 3. Brechas de Genero en las preguntas: correctas, incorrectas y sin contestar

Nuestros resultados parecen sugerir que, cuando las mujeres se preparan intensamente y entrenan la prueba, aunque omiten más preguntas que los hombres, la brecha de género es mucho más pequeña que la encontrada en la literatura hasta la fecha.  Por lo tanto, no hemos encontrado evidencia para cuestionar el uso de la prueba de elección múltiple con penalización en el proceso de selección pública de funcionarios.

La principal limitación de nuestro análisis es que no tenemos el contrafactual de lo que habría pasado si la prueba se hiciera sin penalización por respuesta errónea. Sin embargo, nuestros resultados pueden sugerir que es poco probable que el rendimiento de las mujeres mejore significativamente si este tipo de prueba se realizara sin penalización. Esto se debe a que la diferencia de rendimiento entre los sexos es más significativa entre los participantes que obtienen mejores resultados y, que son, además, los que dejan sin contestar menos preguntas. En la tabla 4 vemos como la brecha en preguntas sin contestar para el top 10% es tres veces inferior. Por lo tanto, las mujeres que aumentarían el número de preguntas contestadas probablemente no serían las que obtienen mejores resultados en la prueba MIR.

Tabla 4. Brechas de Genero (Top 10%) en las preguntas: correctas, incorrectas y sin contestar

El trabajo nos ha abierto algunas preguntas para la investigación futura. En concreto, nos gustaría analizar la aversión al riesgo utilizando el examen MIR. Sería interesante introducir alguna medida de aversión al riesgo para investigar cuánto de la brecha de género observada puede explicarse por las diferencias en la aversión al riesgo entre hombres y mujeres, como han hecho otros trabajos en la literatura. Para ello, deberíamos analizar cómo los objetivos determinan la actitud frente al riesgo de los participantes en los exámenes. Como hemos explicado el MIR es un torneo con premios heterogéneos (no todos los examinandos clasifican los premios de la misma manera). Entonces, los candidatos que persiguen un puesto muy exigente pueden estar dispuestos a asumir más riesgos (respondiendo a la mayoría de las preguntas) que otros que persiguen un puesto menos exigente, que pueden tender a tener un comportamiento más conservador. En este sentido, es estimulante el gráfico siguiente, donde al presentar la distribución de respuestas omitidas por deciles del expediente académico, encontramos una relación no lineal, y diferenciada entre hombres y mujeres.

Hay 9 comentarios
  • La mayoría de los licenciados preparan el examen MIR en academias especializadas, donde entrenan estrategias para enfrentarse al examen. Si la mayor aversión al riesgo (en media!) de las mujeres fuera una clara desventaja en el examen, mal trabajo harían las academias si no proporcionarán herramientas para compensarla. ¡Sobre todo, teniendo en cuenta que las mujeres son dos tercios de su público!

  • Los médicos tienen que tomar constantemente decisiones arriesgadas así que no me parecería mal en principio, que el examen sea algo más favorable a los que se encuentran más cómodos con el riesgo (aunque aparentemente no hay tal). En todo caso en exámenes de este tipo y más si el proceso es selectivo, no penalizar los errores es impensable. Otra cosa es discutir la penalización concreta.

    Me parece muy relevante lo que comenta sobre las distintas estrategias en función de la especialidad que uno desea. Me planteo incluso si esa circunstancia no matiza mucho (o incluso invalida) sus conclusiones. Otro aspecto a tener en cuenta es el hecho de que el examen no es tan decisivo como se apunta. Si no tienes un número que te permita elegir lo que quieres, siempre puedes repetir al año siguiente. Es relativamente frecuente. Y podría ser un factor a tener en cuenta a la hora de valorar el comportamiento de los estudiantes.

    Finalmente, no creo que todo lo que se haga en el examen responda a estrategias previamente prediseñadas. El examen es muy largo, con poco tiempo por pregunta así que pienso que el cansancio es también un factor a tener en cuenta.

    ¿No han analizado los datos de otras convocatorias?

  • No puede ser que en el estudio no se analice algo tan obvio como que el decil inferior esta sobrerepresentado por hombres. Y que la causa de que haya mas hombres que mujeres en ese decil es la misma causa de que haya mas hombres que mujeres en el decil más alto.

    Es un sesgo que esta increiblemente repetido en todos estos estudios. El bonus que tienen los hombres tiene que ser eliminado, pero el malus que tienen los hombres que se lo coman solitos, ahí no tiene que haber igualdad.

    En fin, es todo muy cansado, y en general da la impresion de todos los estudios de género es el mismo: ¿Por que el global de mujeres no tiene los mismos bonus que el 10% de hombres que lo hacen mejor?, sin fijarse en el 90% restante.

    • No entiendo mucho de esto, pero he visto ese resultado en otros casos. Por ejemplo, las curvas de coeficiente intelectual por sexos, reproducen exactamente esa diferencia: en media, las mujeres son algo más inteligentes que los hombres, pero estos están sobrerepresentados en las dos colas de la distribución. Es decir entre los muy inteligentes, hay más hombres y lo mismo sucede en para los valores más bajos del CI. A mí no me parece raro. Al fin y al cabo no somos exactamente iguales. Y tampoco sé si en la práctica esas minúsculas diferencias significan algo.

  • No mencionan el gender gap del 24% de hombres (aproximadamente) que ni se presentan.
    En los datos más recientes que encuentro publicados (shorturl.at/qty02) dice “ellos suponían un 38%”, es decir, ellas el 62%. Para que hubiera estricta igualdad, faltan un 24% de médicos hombres. Uso una lógica análoga a la de Amartya Sen con las “missing woman”.

  • Primero de todo me gustaría felicitar a los creadores del artículo por elaborar un tema tan interesante y a la vez primordial para la educación.

    Junto a una compañera, hemos elaborado un trabajo sobre el artículo publicado por Juan Luis Jiménez en esta misma página. https://bit.ly/3dtWCIa

    En nuestra opinión, creemos que la modalidad del examen es una variable muy importante y se debería de integrar en el modelo para determinar si afecta o no al rendimiento académico de los alumnos.

    Además, creemos que para realizar el estudio, se deberían de segmentar las observaciones por rango de notas y centrarse en los alumnos que se encuentran en la mitad de la tabla.

    Entendiendo que los alumnos con mayores rendimientos, independientemente de la modalidad suelen obtener grandes resultados y por lo tanto esta variable no afecta significativamente al número de respuestas contestadas.

    Mientras que para el resto de los alumnos sería interesante analizar cual es el número de preguntas que se dejan sin contestar, ya que como bien dice este estudio es muy probable que los alumnos sepan muchas de las respuestas pero por miedo a reducir su nota las dejen sin contestar.

    También entendemos que las alumnos que realizan el MIR, tienen un alto grado de conocimientos y el examen es de gran importancia, y por lo tanto, obtendrán un menor número de preguntas sin contestar, pero a niveles universitarios creemos que no tiene por que darse la misma conclusión.

    ¿Que opináis?

    Un saludo.

  • “Lo más habitual es penalizar las respuestas erróneas y no penalizar las preguntas omitidas, bajo el argumento de que penalizar las respuestas erróneas es evitar la suerte en la evaluación del conocimiento del participante. ”

    Eso se puede resolver subiendo el porcentaje mínimo de aprobación.

    Supongamos que el mínimo deseado sea el 50% de respuestas sabida, y cada pregunta tenga 5 respuestas. Si una persona sabe la respuesta de 50 preguntas y elige las 50 restantes al azar sin penalización, la esperanza sería de 60 puntos. Por lo tanto, el examen debería tener un mínimo de 60 puntos.

    • Tiene el inconveniente de que jugar es gratis mientras que con penalización, hay un coste.

Los comentarios están cerrados.