Nada es Gratis » Gender Gaps en el Examen MIR

de José Ignacio Conde-Ruiz (@conderuiz), Juan-José Ganuza y Manu García (@manugar)

Los exámenes tipo test (pruebas de elección múltiple) se utilizan comúnmente en el sector público en sus procedimientos de contratación y selección, así como en la entrada en algunas profesiones (abogados, médicos, profesores, etc.). Además, estos exámenes son considerados como una evaluación objetiva de los méritos, algo que es clave para cualquier proceso de selección en el sector público. El diseño de pruebas de elección múltiple no es una tarea compleja y una de las claves más importantes a la hora de diseñarlas es decidir la puntuación de las respuestas erróneas y omitidas. Lo más habitual es penalizar las respuestas erróneas y no penalizar las preguntas omitidas, bajo el argumento de que penalizar las respuestas erróneas es evitar la suerte en la evaluación del conocimiento del participante. Sin embargo, penalizar las respuestas incorrectas también puede tener un impacto negativo en la evaluación de los examinandos con aversión al riesgo o con un menor grado de confianza. Existe una amplia evidencia empírica de que, en este tipo de pruebas, las mujeres son en promedio más adversas al riesgo (ver Iriberri y Rey-Biel (2019) o Coffman y Klinowski (2019) entre otros) y con menor grado de confianza que los hombres (ver Gneezy, Niederle and Rustichini (2003), Jurajda and Munich (2011), Ors, Palomino and Peyrache (2013) o Buser, Niederle and Oosterbeek (2014) entre otros), y por lo tanto suelen omitir más preguntas cuando los errores están penalizados. Si las mujeres son más adversas al riesgo que los hombres y por lo tanto dejan sin contestar mas preguntas que los hombres, esto supone que, ceteris paribus, los hombres ocuparan las primeras posiciones en los resultados de este tipo de exámenes.

Si este comportamiento se observara en las pruebas de selección del sector publico, la introducción de la penalización en las respuestas erróneas reduciría el rendimiento medio de las mujeres y su contratación o promoción, simplemente porque arriesgan menos que los hombres. Esta es una advertencia importante, ya que este sesgo, de existir, podría aumentar la brecha entre los géneros en el sector público y puede ser un obstáculo importante en las políticas de contratación pública para atraer talentos.

Para ello en un trabajo reciente analizamos el examen nacional MIR (“Médico Interno Residente”) del año 2019. Cada año el Ministerio de Sanidad español abre puestos en programas de formación de postgrado en más de 50 especialidades. Casi todos los puestos de trabajo para un licenciado en medicina en España requieren la realización de un postgrado en el hospital, y en consecuencia la gran mayoría de los graduados deciden realizar este examen MIR. Los candidatos a las plazas ofertadas por el Ministerio realizan este examen, que consiste en un test de elección múltiple con penalización por respuestas erróneas. El examen tiene una duración de 5 horas para contestar 225 preguntas tipo test (con 4 opciones) con penalización (3 puntos por respuesta correcta y -1 punto por pregunta incorrecta). Los graduados son clasificados en un ranking según un promedio ponderado de su puntuación en el examen tipo test MIR (un 90%) y sus notas en la carrera de medicina (un 10%). A continuación, los graduados eligen secuencialmente entre todas las posiciones de postgrado disponibles. El primer candidato en el ranking elige su posición de residencia preferida. Luego el segundo candidato en el ranking escoge entre las posiciones restantes. El proceso continúa hasta que todos los puestos están asignados. Por lo tanto, el resultado de la prueba MIR determina en gran medida la carrera profesional de los graduados médicos, y por este motivo los candidatos médicos invierten mucho tiempo, muchos de ellos asisten a escuelas especializadas, para prepararse para este examen MIR. En el año 2019 se presentaron 14.187 médicos (64.35% son mujeres y 35.65% son hombres)

Nuestra contribución a esta literatura consiste en estudiar el rendimiento relativo por género en exámenes tipo test con penalización, en un entorno real en el que los examinandos tienen mucho en juego, como ocurre en la mayoría de los procesos de selección de funcionarios públicos. De acuerdo con esto, queremos inferir si las diferencias de comportamiento por género respecto a las preguntas omitidas que se encuentran en la literatura académica se mantienen cuando los examinandos están bien preparados para el test, pues se juegan gran parte de su futuro, y se preparan específicamente para este tipo de pruebas.

Funk y Perrone (2016) y Akyol, Key y Krishna (2016) encontraron que el efecto de las preguntas omitidas en el examen de opción múltiple tiene muy poco o ningún efecto sobre el desempeño en el examen. Pero tal como ellos mismos aventuran una posible explicación de su resultado es que el examen que analizan no es un examen de alto nivel o donde los participantes pongan parte de su futuro en juego. Justo lo contrario de lo que ocurre en el examen MIR.

Los estadísticos descriptivos del examen MIR muestran que en media las diferencia de genero son pequeñas. Ambos géneros en términos medios prácticamente obtienen el mismo rendimiento medio (1.88) y muy similares resultados medios en el examen MIR (los hombres en media obtienen un 1.37% mejor resultado que las mujeres). Ademas, las mujeres en media dejan sin contestar 10,25 preguntas y los hombres 9.62 preguntas.

Tabla 1. Descriptivos Básicos de la muestra completa

Como podemos ver en la Figura 1, hay mas hombres entre los que tienen muy bajo y muy alto rendimiento tanto en el examen como en los resultados académicos.

Figura 1 Distribuciones de densidad: a) Rendimiento en el examen MIR y b) Rendimiento Académico por sexo

En la Tabla 2, vemos los resultados del examen MIR controlando por las variables observables de nuestro análisis: genero, resultado académico y nacionalidad. Como se puede ver el genero es significativo, las mujeres obtienen en el examen MIR un resultado 5,7% inferior a los hombres. En el paper, vemos como las brechas de genero en el resultado del examen MIR se amplifican entre los graduados que obtienen mejor nota final.

Tabla 2. Brecha de Genero en los resultados del Examen MIR

Por último, el análisis de genero de las preguntas correctas, incorrectas y sin contestar esta en la siguiente tabla 3. El resultado principal es que, en esta prueba de máxima importancia para los examinados donde se juegan todo su futuro en dicho examen, en contraposición con la literatura previa, encontramos una diferencia significativa en el comportamiento entre hombres y mujeres en cuanto a las preguntas omitidas muy inferior a lo encontrado en la literatura previa. En particular, controlando por otros factores, encontramos que las mujeres dejan en blanco tan solo un promedio de 0,82 preguntas más que los hombres de las 225 que incluye el examen MIR.

Tabla 3. Brechas de Genero en las preguntas: correctas, incorrectas y sin contestar

Nuestros resultados parecen sugerir que, cuando las mujeres se preparan intensamente y entrenan la prueba, aunque omiten más preguntas que los hombres, la brecha de género es mucho más pequeña que la encontrada en la literatura hasta la fecha. Por lo tanto, no hemos encontrado evidencia para cuestionar el uso de la prueba de elección múltiple con penalización en el proceso de selección pública de funcionarios.

La principal limitación de nuestro análisis es que no tenemos el contrafactual de lo que habría pasado si la prueba se hiciera sin penalización por respuesta errónea. Sin embargo, nuestros resultados pueden sugerir que es poco probable que el rendimiento de las mujeres mejore significativamente si este tipo de prueba se realizara sin penalización. Esto se debe a que la diferencia de rendimiento entre los sexos es más significativa entre los participantes que obtienen mejores resultados y, que son, además, los que dejan sin contestar menos preguntas. En la tabla 4 vemos como la brecha en preguntas sin contestar para el top 10% es tres veces inferior. Por lo tanto, las mujeres que aumentarían el número de preguntas contestadas probablemente no serían las que obtienen mejores resultados en la prueba MIR.

Tabla 4. Brechas de Genero (Top 10%) en las preguntas: correctas, incorrectas y sin contestar

El trabajo nos ha abierto algunas preguntas para la investigación futura. En concreto, nos gustaría analizar la aversión al riesgo utilizando el examen MIR. Sería interesante introducir alguna medida de aversión al riesgo para investigar cuánto de la brecha de género observada puede explicarse por las diferencias en la aversión al riesgo entre hombres y mujeres, como han hecho otros trabajos en la literatura. Para ello, deberíamos analizar cómo los objetivos determinan la actitud frente al riesgo de los participantes en los exámenes. Como hemos explicado el MIR es un torneo con premios heterogéneos (no todos los examinandos clasifican los premios de la misma manera). Entonces, los candidatos que persiguen un puesto muy exigente pueden estar dispuestos a asumir más riesgos (respondiendo a la mayoría de las preguntas) que otros que persiguen un puesto menos exigente, que pueden tender a tener un comportamiento más conservador. En este sentido, es estimulante el gráfico siguiente, donde al presentar la distribución de respuestas omitidas por deciles del expediente académico, encontramos una relación no lineal, y diferenciada entre hombres y mujeres.