La imposibilidad de eliminar la discriminación estadística

Esta entrada está basada en una sección de mi libro Ética para una sociedad abierta.

En 1927 el fotógrafo Benjamin Coupre tomó una de las fotos más famosas de la historia de la ciencia. En ella posaban, tras un congreso de física, veintinueve de los científicos más brillantes de la época. La foto ofrece dos detalles de interés. El primero es que Marie Curie es la única mujer. El segundo, más sutil, es que la media de premios Nobel entre los hombres es de 0,55, mientras que la media entre las mujeres es de 2. Puede ser una coincidencia, pero también que se deba a una situación discriminatoria: para que una mujer sea reconocida como una gran científica debe mostrar un talento superior a la media de hombres que así se reconocen. La discriminación puede tener varias causas, algunas de las cuales tienen su origen en las preferencias por discriminar; pero otras, y este es el tema de este artículo, no necesitan esas preferencias.

Para entender cómo puede suceder una cosa así, comencemos por un ejemplo inocuo. Queremos determinar si una persona está embarazada y, para ello, realizamos una prueba. Como ninguna prueba es perfecta, siempre habrá falsos positivos y falsos negativos. Si la aplicamos indiscriminadamente a todas las mujeres, dado que la gran mayoría no están embarazadas, obtendremos muchos falsos positivos. Así los verdaderos positivos quedarán diluidos entre ellos y un resultado positivo será poco informativo. En cambio, si la prueba se realiza solo cuando existe una sospecha razonable de embarazo, un resultado positivo será mucho más fiable. Y si se aplica a mujeres en menopausia o a hombres biológicos, un resultado positivo no aportará información alguna: sabremos con certeza que se trata de un falso positivo. En suma, la información sobre el grupo al que pertenece la persona sometida a la prueba es relevante para evaluar la probabilidad de embarazo tras un resultado positivo.

Si, en lugar de una prueba de embarazo, consideramos un examen destinado a evaluar si una persona posee los conocimientos necesarios para desempeñar un trabajo, la lógica es la misma. Si el examen no es perfectamente fiable, generará también falsos positivos y falsos negativos (aquí hablé de algunas consecuencias de estos errores a la hora de debatir sobre distintas medidas políticas). De nuevo, la información grupal resulta valiosa. Un buen resultado obtenido por una persona perteneciente a un grupo que, en promedio, presenta una menor preparación para el puesto será evaluado con mayor cautela que el mismo resultado obtenido por alguien de un grupo con mejor preparación media. Como consecuencia, las personas capaces del primer grupo verán sus méritos reconocidos en menor medida que las del segundo. A este fenómeno lo llamamos discriminación estadística.

Una forma de reducir la discriminación estadística es mejorar la fiabilidad de las pruebas, de modo que la decisión dependa más del resultado individual y menos de la media del grupo. Pero las buenas pruebas suelen ser costosas. Por ejemplo, pueden requerir mantener al candidato durante un periodo de prueba. A primera vista, prohibir el uso de información grupal y exigir que las decisiones se basen únicamente en los resultados de las pruebas parecería eliminar la discriminación. Digo «a primera vista» por dos razones. La primera es práctica: resulta muy difícil hacer cumplir esa prohibición. Las pruebas ciegas pueden funcionar en ciertos contextos, pero no en otros muchos, como cuando hay entrevistas personales o cuando la decisión no es de contratación, sino de promoción. La segunda razón es más sutil. Incluso si se lograse eliminar por completo el uso explícito de información grupal, la discriminación estadística reaparecería por otro camino. En los ejemplos anteriores, la discriminación surge porque las tasas de falsos positivos y falsos negativos difieren entre grupos. Tratar a todos los individuos como si pertenecieran a un único grupo resuelve ese problema… al precio de crear otro: la estimación de la probabilidad de tener la característica adecuada en cada grupo no se corresponderá con la realidad, por lo que necesariamente la imagen de algún grupo quedará distorsionada para mal. Este sesgo es también una fuente de discriminación.

De este razonamiento se sigue el siguiente teorema de imposibilidad:

Teorema. No existe ningún método para estimar la probabilidad de poseer la característica buscada que satisfaga simultáneamente las tres siguientes propiedades:

  1. La proporción real de quienes tienen la característica buscada entre quienes pasan la prueba se corresponde con la probabilidad calculada por el método.
  2. La proporción de falsos positivos es la misma en cada grupo.
  3. La proporción de falsos negativos es la misma en cada grupo.

 

El teorema es, en realidad, un corolario de un teorema de imposibilidad más general, demostrado por Kleinberg, Mullainathan y Raghavan, que es válido para todo tipo de decisiones (por ejemplo, la asignación de empleados a distintas tareas) y para cualquier procedimiento de actualización de probabilidades a partir de nueva información, no solo para la actualización bayesiana de nuestros ejemplos.

Sobre la responsabilidad moral

¿Existe responsabilidad moral en el uso de información grupal? Solo en la medida en que, siendo conscientes de la imperfección de nuestra información, no busquemos activamente mejorarla. No obstante, tanto el esfuerzo requerido como el beneficio esperado varían entre individuos, de modo que inevitablemente coexistirán distintos grados de empeño por evitar la discriminación estadística. Cuando una empleadora decide obtener mejor información sobre un candidato, en su cálculo entran los costes y beneficios que ella misma anticipa. Sin embargo, una información más precisa no solo la beneficia a ella, sino también al conjunto de la sociedad, a las personas discriminadas y a quienes quisieran usar esa información más precisa. La decisión individual sobre cuánto informarse no será socialmente óptima, pues no internaliza todos los beneficios. Este fallo de mercado puede mitigarse mediante políticas públicas que faciliten el acceso a información de calidad. Aun así, mientras la información sea imperfecta, este tipo de discriminación persistirá inevitablemente, y llegará un punto en el que deba eximirse al decisor de responsabilidad moral.

El derecho a ser tratado como un individuo

La discriminación estadística plantea un problema ético de primer orden: el derecho a ser tratado como individuo y no en función de los rasgos estadísticos del grupo al que se pertenece. En una sociedad en la que las mujeres tengan, en promedio, menos años de educación que los hombres, tratar a una mujer como individuo implica atender a su nivel educativo concreto, no al promedio de su grupo. Pero si utilizamos la información de que posee un título universitario, estaremos tratándola según los rasgos estadísticos también de un grupo, el de personas con educación universitaria. El problema ético se desplaza entonces a la cuestión de con qué grupo identificamos al individuo.

Las distinciones basadas en sexo, raza, religión o nacionalidad están fuertemente asociadas a prácticas discriminatorias; las basadas en educación lo están mucho menos. Tratar a una persona según los rasgos estadísticos asociados a «mujer pobre gitana» es más problemático que hacerlo según los rasgos de «persona que ha trabajado para pagarse estudios universitarios y colabora como voluntaria en una ONG». Obsérvese, además, que un énfasis excesivo en políticas de identidad puede incrementar el uso de la información grupal que precisamente querríamos minimizar. Toda discusión sobre qué significa no ser discriminado estadísticamente es, en el fondo, una discusión sobre qué formas de discriminación estadística son moralmente permisibles (aquí puede encontrarse una discusión más extensa sobre esto).

De hecho, puede sostenerse que, en un mundo de incertidumbre, la única manera de tratar a una persona como individuo es utilizar toda la información estadística disponible sobre ella, refinándola progresivamente hasta definirla mediante grupos cada vez más pequeños y específicos. Solo cuando alguno de los datos sea lo suficientemente preciso como para eliminar por completo la incertidumbre podremos escapar al teorema de la imposibilidad de la discriminación estadística. Hasta entonces, podremos minimizar su alcance.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.