¿Por qué (NO) penalizar las respuestas incorrectas en los exámenes tipo test?

Por Pedro Rey Biel (@pedroreybiel), Marina Diez Rituerto, Javier Gardeazabal y Nagore Iriberri.

El acceso al mercado laboral suele requerir pasar por una serie de procesos de selección diseñados para identificar a los mejores candidatos. En muchos campos, incluidas las oposiciones para empleos públicos, estos mecanismos de selección incluyen con frecuencia exámenes tipo test como herramienta principal de evaluación, pues sirven como método estandarizado para evaluar de manera objetiva el conocimiento y las habilidades de los candidatos. Además de en la enseñanza universitaria, y en menor medida en la secundaria, los exámenes tipo test siguen también siendo muy utilizados en exámenes de certificación profesional, en exámenes de idiomas, licencias de conducción, programas de becas y en test psicotécnicos. ¿Consiguen estos exámenes la selección más eficiente de los candidatos… o tienden a seleccionar a los que mejor saben hacer un test, independientemente de sus conocimientos?

A pesar de su popularidad, los exámenes de tipo test han recibido críticas por múltiples razones. Algunas tienen que ver con que no miden habilidades importantes como la capacidad de exposición de un tema o con que orientan en exceso a estudiar “para un examen”, en lugar de en adquirir conocimientos. En este sentido, este tipo de exámenes se pueden convertir más en un test de las capacidades estratégicas de un candidato que de su verdadero conocimiento o aptitudes. En concreto, la decisión de contestar o no una pregunta de respuesta múltiple cuando existe una penalización por equivocarse es una decisión arriesgada marcada por la probabilidad de acertarla o no.

Una preocupación habitual de quienes diseñan exámenes de tipo test es que existe una probabilidad positiva de que incluso aquellos candidatos que desconocen la respuesta correcta a una pregunta puedan acertarla al contestar al azar. Para desincentivar el que los candidatos “jueguen una lotería” con preguntas sobre las que desconocen la respuesta, es frecuente que los exámenes tipo test incluyan penalizaciones por respuestas incorrectas, que descuenten más en la puntuación final que las preguntas dejadas en blanco. De hecho, lo más común es que dicha penalización sea equivalente a uno dividido del número posible de respuestas menos uno. Por ejemplo, en una pregunta con cuatro respuestas posibles, la puntuación por respuesta correcta suele ser de 1, a la respuesta en blanco se le dan cero puntos y se penaliza la respuesta incorrecta con -0.33 puntos. La lógica de este cálculo es que si un candidato desconoce por completo la respuesta, el pago esperado de contestarla totalmente al azar sea cero, puesto que con probabilidad 0,25 acertará y obtendrá un punto, mientras que con probabilidad 0,75 fallará y obtendrá la penalización (0.25*1+0.75*(-0.33)=0). De primeras, este cálculo parece una forma razonable de desincentivar el jugársela al azar cuando lo que se quiere medir son los conocimientos.

Sin embargo, este cálculo de la penalización esconde dos supuestos importantes que, de no cumplirse, pueden crear distorsiones en la evaluación de los candidatos. El primero de ellos es que se asume que cuando alguien duda entre varias respuestas, asigna la misma probabilidad a que cualquiera de ellas sea correcta. Es decir, se asume que todos los candidatos tienen una misma distribución uniforme sobre la probabilidad de que sean ciertas cada una de las respuestas posibles. No obstante, un poco de introspección nos sirve para recordar las numerosas veces en las que hemos dudado entre sólo dos o tres de las respuestas posibles en un examen, pudiendo descartar al menos una. En estos casos, arriesgarse a contestar entre el número limitado de preguntas entre las que se duda da un pago esperado positivo, por lo que arriesgarse a contestar suele merecer la pena. De hecho, este el consejo que siempre doy a mis amigos opositores… y más de uno ya me ha invitado a cenar para celebrar su nueva plaza.

El segundo supuesto es que todos los candidatos tienen la misma actitud ante el riesgo y, que por ello, utilizar penalizaciones que den cero como pago esperado son “justas” para todos. Sin embargo, existe heterogeneidad en la población sobre cuánto nos cuesta asumir riesgos y sobre cuánta confianza tenemos en lo que sabemos. Teniendo en cuenta esta heterogeneidad, el tamaño de la penalización puede influir en que aquellos con una preferencia mayor por arriesgarse, o aquellos que, incluso teniendo los mismos conocimientos, sientan más confianza en sí mismos, obtengan beneficios por contestar más preguntas sobre aquellos más cautos (o más honestos), que ante la duda dejan más preguntas en blanco. En esos casos, el examen estaría midiendo no sólo los conocimientos y actitudes, sino también la estrategia seguida para contestarlo y en particular, estaría discriminando por el grado de aversión al riesgo y el grado de confianza en sí mismos de los candidatos; algo que quizá no sea el objetivo de lo que queremos evaluar en nuestra prueba de selección.

Existe una literatura académica amplia que muestra cómo utilizar penalizaciones en los exámenes de tipo test puede crear ineficiencias en la selección de los mejores candidatos. Por ejemplo, siguiendo la extensa literatura sobre diferencias de género en las actitudes ante el riesgo y autoconfianza, se ha comprobado que las mujeres, especialmente las mejor cualificadas, tienden a dejar más respuestas en blanco que los hombres, ya sea por su mayor aversión al riesgo, por su menor confianza en sí mismas o porque simplemente son más honestas cuando dudan, lo que, controlando por igualdad en sus conocimientos o su preparación, otorga una ventaja a los hombres. Esta literatura muestra que un diseño subóptimo de las pruebas de selección puede generar una selección ineficiente de candidatos, contribuyendo a crear una brecha de género en la selección para determinados puestos. Estas diferencias han sido cuantificadas en exámenes de admisión a la universidad en Chile, donde se comprobó que al eliminar la penalización la brecha de género en calificaciones disminuía sustancialmente (aquí). También lo hemos observado en nuestra propia investigación, utilizando datos de competiciones escolares de matemáticas (aquí y aquí). Otro caso relevante en el que también lo hemos observado es el ranking de estudiantes de medicina que se presentan al examen MIR (aquí) desde hace más de cuatro décadas, del que Nacho Conde les habló en este post. Por ejemplo, en este otro artículo, encontramos que una reducción del tamaño de la penalización del examen MIR afectó de manera significativa a la selección de candidatos que obtuvieron plaza, reduciendo la brecha de género entre los candidatos de más altas cualificaciones. Este informe resume varios artículos académicos sobre el tema, se estima que la diferencia es mayor entre los candidatos al MIR con mayores capacidades: “las mujeres con las notas más altas obtuvieron hasta 3 puntos menos que los hombres con igual expediente. Esta diferencia equivale a entre 500 y 600 puntos en el ranking final, lo que significa que las mujeres obtuvieron especialidades menos demandadas que los hombres: esa diferencia equivale a la que hay entre Cardiología (la 3ª especialidad en agotarse) y Oftamología (la 6ª)”.

El problema radica en que la penalización que se usa más frecuentemente es ¡demasiado baja… o demasiado alta! Si lo que se quiere evitar es que los participantes jueguen al azar, una penalización suficientemente alta conseguiría que nadie se arriesgase a quizá dar una respuesta incorrecta. Si, por ejemplo, se suspendiera el examen en caso de tener una única respuesta incorrecta, ningún candidato que dudara entre respuestas, sin importar su grado de aversión al riesgo, se atrevería a contestarla, con lo que se igualaría el comportamiento de todos los participantes y no se discriminaría dependiendo del grado de aversión al riesgo. Otra solución, quizá menos radical, es eliminar por completo la penalización, de manera que todos los candidatos tengan los mismos incentivos a contestar todas las preguntas, y el azar juegue el mismo papel en la corrección de todos los candidatos. Dicha solución puede venir acompañada por una subida del nivel de dificultad del examen a través de las preguntas que se hacen o a exigir un porcentaje de respuestas correctas más elevado, si lo que se quiere es mantener el nivel de exigencia. Por último, otra posible solución es aceptar que un examen tipo test con penalización por respuestas incorrectas mide no sólo los conocimientos del candidato sino también su capacidad estratégica de tomar decisiones ante el riesgo y por tanto, ser explícitos en que ésto es también una habilidad por la que queremos evaluar a los candidatos. Esta justificación puede tener sentido en aquellos casos en que el examen se esté usando para seleccionar candidatos para una posición en la que la capacidad de tomar decisiones arriesgadas es una cualidad importante y además se cumple que la actitud ante el riesgo en un examen tipo test está altamente correlacionada con la actitud ante el riesgo necesaria en el desempeño de la posición para la que se están seleccionando candidatos. Es decir, la penalización puede tener más sentido en exámenes para acceder a plazas de astronauta que para plazas de funcionarios administrativos.

Cualquiera de las tres soluciones planteadas puede ser razonable. Lo que ya no lo es tanto es ignorar el problema o no querer entenderlo. En numerosas instituciones, incluidas universidades de prestigio internacional (Harvard, Berkeley, Stanford, MIT, Priceton…) y organismos con exigentes procesos de selección (GRE, GMAT, SATs…), la evidencia acumulada sobre cómo las penalizaciones de pago esperado cero discriminan en contra de aquellos grupos que tienen una predisposición menor a arriesgarse, ha llevado a eliminar las penalizaciones por respuestas incorrectas. ¿Por qué esta solución no es la que se generaliza? Difícil saberlo, pero en algunos lugares nos han llegado a argumentar que “si un grupo tiende a arriesgarse más que otro, saldrá perjudicado cuando existe penalización porque al arriesgarse más también fallarán más”, sin entender que si la penalización es baja aquellos que se arriesguen más, incluso aunque fallen más, saldrán beneficiados.

Hay quien argumenta que lo que habría que hacer es enseñar a todos los grupos a arriesgarse de forma similar. De hecho, la proliferación de academias que preparan cada vez a más candidatos para el examen MIR, ha contribuido a disminuir la brecha de género en dicho examen. Pero, ¿no es más práctico centrarse en enseñar conocimientos y dejar de intentar cambiar las preferencias ante el riesgo de los candidatos, enseñándoles complicadas estrategias ante los exámenes? Nuestra respuesta: creemos que merece la pena arriesgarse a eliminar reglas arcaicas basadas en cálculos bajo supuestos poco razonables que ya no se usan en las mejores universidades del mundo.

PD: Si eres un profesor de Economía leyendo este post, seguro que te interesarán los IV Premios de Docencia en Economía que organizamos desde el Comité de Educación de la European Economic Association. Tienes toda la información para presentar tu candidatura o la de algún profesor/a extraordinario aquí: Education Committee Awards | EEA

Gracias por leer nuestro blog. Nada es Gratis se financia en parte con las cuotas de los socios de la asociación homónima, pero para llevar a cabo sus actividades necesita la aportación desinteresada de todos aquellos que deseen apoyar su labor.
Dona aquí.
Hay 8 comentarios
  • Tengo una opinión distinta al respecto.

    1. Si se afirma que la puntuación posible en un examen va desde 0 hasta 10, hay un error matemático si se penalizan las respuestas incorrectas. Por ejemplo, si cada error resta 0,25 puntos y hay 20 preguntas, un alumno que falle todas obtendría una puntuación de –5 puntos, por lo que el verdadero rango del examen sería de –5 a 10. Esto implica que la nota de corte para aprobar (habitualmente 5) se desplazaría hacia 7,5 puntos, lo cual es claramente incorrecto y desproporcionado.

    Este efecto depende del modo de calcular la nota. Si se va sumando la puntuación a medida que se corrigen las respuestas, el orden de las respuestas erróneas podría afectar al resultado final, incluso si el número de errores es el mismo. Esto genera una incoherencia matemática, salvo que se reescale todo el sistema o se trabaje desde el principio con un rango simétrico que contemple puntuaciones negativas. Sin embargo, en ese caso el aprobado también se desplazaría artificialmente, a no ser que se corrija mediante una transformación del sistema de notas.

    2. Este sistema es un potente desincentivador para los alumnos con expedientes mediocres o débiles. Por miedo a equivocarse, optan por no responder, aunque tengan ciertos conocimientos, lo cual los penaliza aún más y genera un efecto de retroalimentación negativa. El sistema debería premiar el esfuerzo y, especialmente, a quienes luchan más por mejorar.

    Sugerencia de mejora: en lugar de penalizar los er...

  • Sugerencia de mejora: en lugar de penalizar los errores, el examinador debería ampliar el conjunto de posibles respuestas, de modo que la probabilidad de acertar al azar disminuya (por ejemplo, pasando de 4 a 5 opciones), pero sin aplicar penalizaciones negativas. Así se conserva el valor de la respuesta correcta sin castigar el intento.
    Análisis matemático ampliado:
    Supongamos un examen de 20 preguntas tipo test con 4 opciones cada una:
    Cada acierto: +0,5 puntos
    Cada fallo: –0,25 puntos
    Cada omisión: 0 puntos
    Esto da un rango teórico:
    Máximo: 20 × 0,5 = 10 puntos
    Mínimo: 20 × (–0,25) = –5 puntos
    Ahora bien, si queremos que el aprobado siga siendo 5 puntos, necesitamos redefinir el cero del sistema o reescalar las notas. De lo contrario, al alumno que responde todo al azar o falla completamente se le asignan puntuaciones negativas que distorsionan el valor real del 5 como aprobado.
    ¿Cómo afecta al aprobado?
    Si el alumno necesita un 5, pero puede caer hasta –5, el punto medio del rango total sería (–5 + 10) / 2 = 7,5, por lo que la nota de corte del aprobado ya no es la mitad del máximo, sino mucho más arriba (7,5 si se sigue midiendo desde cero).

    • Con todo el cariño, creo que su análisis no es correcto. Puede que el margen teórico de respuestas al introducir la puntuación negativa vaya de -5 a +10 o rangos similares, pero ignora usted el hecho de que no todos los resultados son igualmente posibles. De hecho, una puntuación entre -5 y 0 es estadísticamente muy improbable, casi despreciable, porque el efecto de responder todas las preguntas aleatoriamente da como valor más probable el cero, no una cifra negativa.

      En cuanto se tenga una mínima idea del contenido del examen, el valor más probable de la nota que se va a conseguir, y descontando las respuestas incorrectas, es superior a 0. Y ese es el quid de la cuestión. El mecanismo de descuento de respuestas erradas no desplaza el rango de notas posibles haciendo el aprobado más difícil: al revés, lo hace más fácil que si no se penalizasen las respuestas incorrectas.

      Es más fácil llegar al 5 si se contestan todas las preguntas, incluyendo las dudosas, que si se dejan en blanco las que se dudan.

  • La seguridad y elección de estrategias óptimas es una habilidad no cognitiva que también es deseable en los candidatos y debe ser valorada. Por otro lado, no entiendo este empeño en invisibilizar a los varones que tienen esa misma inseguridad. Mi hijo de 3ºPrimaria me contaba hace poco que contestar a una pregunta sin saber la respuesta era hacer trampas. No se me ocurrió que la profesora tuviera que cambiar el examen, porque creo que dar con una estrategia óptima adaptada al contexto forma también parte necesaria de su aprendizaje. Al menos aquí no tiene pinta de que acabemos con soluciones tan malas como las cuotas, en las que hay un determinado perfil que, con razón, no asciende (https://journals.sagepub.com/doi/full/10.1177/08902070251332098) y, como ese perfil es mayoritario entre mujeres, se toma la decisión discriminatoria de beneficiar únicamente en función del sexo (aunque haya hombres también con ese perfil).

  • Tengo una pequeña aportación que hacer: si realmente enseñamos a los examinandos a responder estratégicamente como se indica en el artículo, especialmente en el caso de la fórmula “probabilísticamente justa” planteada, estaríamos recogiendo más información sobre los conocimientos de quien contesta. No es lo mismo dudar entre 2 respuesta de 4 que no tener ni idea. Por lo que, si lo que queremos evaluar es el nivel de conocimiento, es justo que el primero, que sabe más, tenga, en probabilidad al menos, una nota mejor.
    Si el número de preguntas es suficientemente grande seguramente será lo más justo. Siempre y cuando todos los examinados conozcan esta estrategia. Si el examen es de matemáticas o economía, me parece justo también darle ventaja a quien la conozca.
    Sin embargo, si la penalización es más alta, desincentivamos el riesgo, y al final todo el mundo contestará únicamente cuando esté muy seguro, lo que también es injusto al tratar por igual al que tiene una pequeña duda y al que no sabe nada. Esto aún se vuelve peor si, como es lamentablemente frecuentemente, la redacción de la pregunta y las posibles respuestas es ambigua, poco clara, o varias respuestas se diferencian únicamente en un pequeño matiz.

  • Desde mi limitada experiencia, la aversión al riesgo podria entenderse como una aversión a equivocarse, lo que puede llevar a situaciones de indecisión y de "esperar que otro/a resuelva el marrón" (en el otro extremo estaría la temeridad de decidir con información muy insuficiente).

    Si esto fuera así, ¿en qué casos seria interesante "premiar" la capacidad de decidir aun en situaciones de duda? No se trata de seleccionar a la persona que más sabe, sino la que mejor puede hacer su trabajo (aptitudes + actitudes). No tiene el mismo objetivo un examen en la universidad (para medir los conocimientos)que una oposición (para seleccionar los mas aptos para un puesto).

    La verdad es que el artículo tiene más miga de lo que parece a primera vista...

  • Muchas gracias, muy interesante.
    Por curiosidad: ¿Ha planteado alguna vez en sus clases la posibilidad de eliminar la penalización a las respuestas erróneas a cambio de exigir una mayor puntuación para el aprobado? Si es así, ¿qué respondieron los estudiantes?

  • En mi opinión, el sistema que penaliza las respuestas erróneas en exámenes tipo test con la fórmula [error= -1 punto/((número de opciones-1)] es MUY justo.

    Primero. Es matemáticamente neutro. Si no se tiene ni idea de la materia, es decir, si se contesta todo el examen "a boleo", el resultado esperado es 0.

    Segundo. Da ventaja a quienes dudan entre dos opciones frente a quienes dudan entre tres o más respuestas. Es justo, porque logra discriminar entre quien sabe algo y quien no sabe nada. No toda ignorancia es igual de relevante.

    Tercero. Favorece a quienes asumen riesgos (medidos y razonables, como es en este caso) frente a quienes prefieren la pasividad. Favorece a los caracteres proactivos frente a los timoratos.

    Cuarto. Penaliza a las academias que, estúpidamente y demostrando una abrumadora ignorancia de las matemáticas básicas, aconsejan a sus alumnos no contestar en caso de duda.

    Quinto. Penaliza, en general, a quienes no saben sumar, restar y multiplicar, lo cual también es una ventaja. Sea cual sea el objeto de examen, acreditar que uno entiende lo que implica, probabilísticamente hablando, el mecanismo de respuestas negativas, es algo relevante.

    En resumen, no es que me encanten los exámenes tipo test, pero, puestos a hacerlos, este sistema es el ideal.

Los comentarios están cerrados.