Por Pedro Rey Biel (@pedroreybiel), Marina Diez Rituerto, Javier Gardeazabal y Nagore Iriberri.
El acceso al mercado laboral suele requerir pasar por una serie de procesos de selección diseñados para identificar a los mejores candidatos. En muchos campos, incluidas las oposiciones para empleos públicos, estos mecanismos de selección incluyen con frecuencia exámenes tipo test como herramienta principal de evaluación, pues sirven como método estandarizado para evaluar de manera objetiva el conocimiento y las habilidades de los candidatos. Además de en la enseñanza universitaria, y en menor medida en la secundaria, los exámenes tipo test siguen también siendo muy utilizados en exámenes de certificación profesional, en exámenes de idiomas, licencias de conducción, programas de becas y en test psicotécnicos. ¿Consiguen estos exámenes la selección más eficiente de los candidatos… o tienden a seleccionar a los que mejor saben hacer un test, independientemente de sus conocimientos?
A pesar de su popularidad, los exámenes de tipo test han recibido críticas por múltiples razones. Algunas tienen que ver con que no miden habilidades importantes como la capacidad de exposición de un tema o con que orientan en exceso a estudiar “para un examen”, en lugar de en adquirir conocimientos. En este sentido, este tipo de exámenes se pueden convertir más en un test de las capacidades estratégicas de un candidato que de su verdadero conocimiento o aptitudes. En concreto, la decisión de contestar o no una pregunta de respuesta múltiple cuando existe una penalización por equivocarse es una decisión arriesgada marcada por la probabilidad de acertarla o no.
Una preocupación habitual de quienes diseñan exámenes de tipo test es que existe una probabilidad positiva de que incluso aquellos candidatos que desconocen la respuesta correcta a una pregunta puedan acertarla al contestar al azar. Para desincentivar el que los candidatos “jueguen una lotería” con preguntas sobre las que desconocen la respuesta, es frecuente que los exámenes tipo test incluyan penalizaciones por respuestas incorrectas, que descuenten más en la puntuación final que las preguntas dejadas en blanco. De hecho, lo más común es que dicha penalización sea equivalente a uno dividido del número posible de respuestas menos uno. Por ejemplo, en una pregunta con cuatro respuestas posibles, la puntuación por respuesta correcta suele ser de 1, a la respuesta en blanco se le dan cero puntos y se penaliza la respuesta incorrecta con -0.33 puntos. La lógica de este cálculo es que si un candidato desconoce por completo la respuesta, el pago esperado de contestarla totalmente al azar sea cero, puesto que con probabilidad 0,25 acertará y obtendrá un punto, mientras que con probabilidad 0,75 fallará y obtendrá la penalización (0.25*1+0.75*(-0.33)=0). De primeras, este cálculo parece una forma razonable de desincentivar el jugársela al azar cuando lo que se quiere medir son los conocimientos.
Sin embargo, este cálculo de la penalización esconde dos supuestos importantes que, de no cumplirse, pueden crear distorsiones en la evaluación de los candidatos. El primero de ellos es que se asume que cuando alguien duda entre varias respuestas, asigna la misma probabilidad a que cualquiera de ellas sea correcta. Es decir, se asume que todos los candidatos tienen una misma distribución uniforme sobre la probabilidad de que sean ciertas cada una de las respuestas posibles. No obstante, un poco de introspección nos sirve para recordar las numerosas veces en las que hemos dudado entre sólo dos o tres de las respuestas posibles en un examen, pudiendo descartar al menos una. En estos casos, arriesgarse a contestar entre el número limitado de preguntas entre las que se duda da un pago esperado positivo, por lo que arriesgarse a contestar suele merecer la pena. De hecho, este el consejo que siempre doy a mis amigos opositores… y más de uno ya me ha invitado a cenar para celebrar su nueva plaza.
El segundo supuesto es que todos los candidatos tienen la misma actitud ante el riesgo y, que por ello, utilizar penalizaciones que den cero como pago esperado son “justas” para todos. Sin embargo, existe heterogeneidad en la población sobre cuánto nos cuesta asumir riesgos y sobre cuánta confianza tenemos en lo que sabemos. Teniendo en cuenta esta heterogeneidad, el tamaño de la penalización puede influir en que aquellos con una preferencia mayor por arriesgarse, o aquellos que, incluso teniendo los mismos conocimientos, sientan más confianza en sí mismos, obtengan beneficios por contestar más preguntas sobre aquellos más cautos (o más honestos), que ante la duda dejan más preguntas en blanco. En esos casos, el examen estaría midiendo no sólo los conocimientos y actitudes, sino también la estrategia seguida para contestarlo y en particular, estaría discriminando por el grado de aversión al riesgo y el grado de confianza en sí mismos de los candidatos; algo que quizá no sea el objetivo de lo que queremos evaluar en nuestra prueba de selección.
Existe una literatura académica amplia que muestra cómo utilizar penalizaciones en los exámenes de tipo test puede crear ineficiencias en la selección de los mejores candidatos. Por ejemplo, siguiendo la extensa literatura sobre diferencias de género en las actitudes ante el riesgo y autoconfianza, se ha comprobado que las mujeres, especialmente las mejor cualificadas, tienden a dejar más respuestas en blanco que los hombres, ya sea por su mayor aversión al riesgo, por su menor confianza en sí mismas o porque simplemente son más honestas cuando dudan, lo que, controlando por igualdad en sus conocimientos o su preparación, otorga una ventaja a los hombres. Esta literatura muestra que un diseño subóptimo de las pruebas de selección puede generar una selección ineficiente de candidatos, contribuyendo a crear una brecha de género en la selección para determinados puestos. Estas diferencias han sido cuantificadas en exámenes de admisión a la universidad en Chile, donde se comprobó que al eliminar la penalización la brecha de género en calificaciones disminuía sustancialmente (aquí). También lo hemos observado en nuestra propia investigación, utilizando datos de competiciones escolares de matemáticas (aquí y aquí). Otro caso relevante en el que también lo hemos observado es el ranking de estudiantes de medicina que se presentan al examen MIR (aquí) desde hace más de cuatro décadas, del que Nacho Conde les habló en este post. Por ejemplo, en este otro artículo, encontramos que una reducción del tamaño de la penalización del examen MIR afectó de manera significativa a la selección de candidatos que obtuvieron plaza, reduciendo la brecha de género entre los candidatos de más altas cualificaciones. Este informe resume varios artículos académicos sobre el tema, se estima que la diferencia es mayor entre los candidatos al MIR con mayores capacidades: “las mujeres con las notas más altas obtuvieron hasta 3 puntos menos que los hombres con igual expediente. Esta diferencia equivale a entre 500 y 600 puntos en el ranking final, lo que significa que las mujeres obtuvieron especialidades menos demandadas que los hombres: esa diferencia equivale a la que hay entre Cardiología (la 3ª especialidad en agotarse) y Oftamología (la 6ª)”.
El problema radica en que la penalización que se usa más frecuentemente es ¡demasiado baja… o demasiado alta! Si lo que se quiere evitar es que los participantes jueguen al azar, una penalización suficientemente alta conseguiría que nadie se arriesgase a quizá dar una respuesta incorrecta. Si, por ejemplo, se suspendiera el examen en caso de tener una única respuesta incorrecta, ningún candidato que dudara entre respuestas, sin importar su grado de aversión al riesgo, se atrevería a contestarla, con lo que se igualaría el comportamiento de todos los participantes y no se discriminaría dependiendo del grado de aversión al riesgo. Otra solución, quizá menos radical, es eliminar por completo la penalización, de manera que todos los candidatos tengan los mismos incentivos a contestar todas las preguntas, y el azar juegue el mismo papel en la corrección de todos los candidatos. Dicha solución puede venir acompañada por una subida del nivel de dificultad del examen a través de las preguntas que se hacen o a exigir un porcentaje de respuestas correctas más elevado, si lo que se quiere es mantener el nivel de exigencia. Por último, otra posible solución es aceptar que un examen tipo test con penalización por respuestas incorrectas mide no sólo los conocimientos del candidato sino también su capacidad estratégica de tomar decisiones ante el riesgo y por tanto, ser explícitos en que ésto es también una habilidad por la que queremos evaluar a los candidatos. Esta justificación puede tener sentido en aquellos casos en que el examen se esté usando para seleccionar candidatos para una posición en la que la capacidad de tomar decisiones arriesgadas es una cualidad importante y además se cumple que la actitud ante el riesgo en un examen tipo test está altamente correlacionada con la actitud ante el riesgo necesaria en el desempeño de la posición para la que se están seleccionando candidatos. Es decir, la penalización puede tener más sentido en exámenes para acceder a plazas de astronauta que para plazas de funcionarios administrativos.
Cualquiera de las tres soluciones planteadas puede ser razonable. Lo que ya no lo es tanto es ignorar el problema o no querer entenderlo. En numerosas instituciones, incluidas universidades de prestigio internacional (Harvard, Berkeley, Stanford, MIT, Priceton…) y organismos con exigentes procesos de selección (GRE, GMAT, SATs…), la evidencia acumulada sobre cómo las penalizaciones de pago esperado cero discriminan en contra de aquellos grupos que tienen una predisposición menor a arriesgarse, ha llevado a eliminar las penalizaciones por respuestas incorrectas. ¿Por qué esta solución no es la que se generaliza? Difícil saberlo, pero en algunos lugares nos han llegado a argumentar que “si un grupo tiende a arriesgarse más que otro, saldrá perjudicado cuando existe penalización porque al arriesgarse más también fallarán más”, sin entender que si la penalización es baja aquellos que se arriesguen más, incluso aunque fallen más, saldrán beneficiados.
Hay quien argumenta que lo que habría que hacer es enseñar a todos los grupos a arriesgarse de forma similar. De hecho, la proliferación de academias que preparan cada vez a más candidatos para el examen MIR, ha contribuido a disminuir la brecha de género en dicho examen. Pero, ¿no es más práctico centrarse en enseñar conocimientos y dejar de intentar cambiar las preferencias ante el riesgo de los candidatos, enseñándoles complicadas estrategias ante los exámenes? Nuestra respuesta: creemos que merece la pena arriesgarse a eliminar reglas arcaicas basadas en cálculos bajo supuestos poco razonables que ya no se usan en las mejores universidades del mundo.
PD: Si eres un profesor de Economía leyendo este post, seguro que te interesarán los IV Premios de Docencia en Economía que organizamos desde el Comité de Educación de la European Economic Association. Tienes toda la información para presentar tu candidatura o la de algún profesor/a extraordinario aquí: Education Committee Awards | EEA