Algoritmos discriminadores

El uso de sistemas computarizados en la toma de decisiones es hoy omnipresente. Si usted ha solicitado un préstamo bancario, ha contratado una póliza de seguros o ha enviado su currículum a una empresa multinacional buscando empleo, lo más probable es que un algoritmo haya decidido su suerte. Asimismo, sus últimas compras en Amazon o las últimas películas que ha visto en Netflix dependen de un sistema computarizado.

Del mismo modo que el VAR, el Ojo de Halcón o el DRS sustituyen a los árbitros en distintas competiciones deportivas, los algoritmos sustituyen a jueces, evaluadores y asesores en las más variopintas actividades. Esta sustitución se hace a menudo bajo el supuesto, implícito o explícito, de que (i) el sistema informático es más eficaz (toma mejores decisiones) y (ii) es más justo o neutral (carece de sesgos y prejuicios).

Aunque ambas características son relevantes, en esta entrada me quiero centrar en la segunda. El llamado sesgo algorítmico (algorithmic bias) ocurre cuando el código de programación de un algoritmo decisor (o la información utilizada en su proceso de aprendizaje) resulta en decisiones que perpetúan o generan discriminación en la sociedad. Este asunto ha sido objeto de cierta controversia y regulación a ambos lados del Atlántico. En concreto, la UE acaba de aprobar una serie de normativas restringiendo el uso de algoritmos no supervisados y exigiendo que se empleen las herramientas técnicas y estadísticas necesarias para prevenir la discriminación.

Quizá el caso más conocido de sesgo algorítmico sea el uso de un sistema computarizado en los juzgados Condado de Broward, en Florida, para determinar la cuantía de la fianza de los acusados que esperan juicio. El sistema utiliza la ficha policial y las características sociodemográficas del sujeto para generar una estimación del riesgo de reincidencia. El algoritmo parece funcionar: entre los sujetos calificados de alto riesgo la probabilidad de reincidencia es el doble que entre los sujetos clasificados como de bajo riesgo.

La web ProPublica realizó una evaluación exhaustiva del algoritmo (cuyo código es propietario), obteniendo los resultados de una muestra de 7000 individuos. Los resultados, a juicio de los periodistas que publicaron el estudio, muestran una clara discriminación racial: de cada 10 blancos, solo 2 fueron considerados de alto riesgo injustamente (es decir, fueron no reincidentes) mientras que 4 de cada 10 acusados de raza negra fueron asignados un riesgo alto sin merecerlo. Aunque esto no prueba que el algoritmo penalice a los acusados de raza negra por su color de piel, mostraría que los sesgos sociales se perpetúan en el mundo digital.

La realidad, como suele ocurrir, es más sutil. El algoritmo está bien calibrado pues la proporción de reincidentes entre los individuos de riesgo alto es la misma para los individuos de ambos grupos (6 de cada 10). El problema es que los individuos de raza negra tienen una mayor probabilidad inicial de reincidir, y por tanto la proporción de individuos injustamente tratados en el grupo de riesgo alto es mayor. Un simple cálculo de Bayes muestra que la probabilidad incondicional de ser asignado el grupo de riesgo alto sin ser reincidente es mayor en los grupos que tengan mayor probabilidad inicial de serlo (la intuición y Bayes no suelen ir de la mano, como nos explicaba Marcos Vera recientemente).

Nos encontramos pues ante un problema difícil de plantear (y aún más difícil de resolver): ¿es un algoritmo que trate distinto a distintos grupos discriminador?, ¿es un algoritmo que incluya características demográficas como sexo o grupo étnico o lugar de residencia discriminador?, ¿es suficiente que un algoritmo no incluya específicamente esas características en su código para ser considerado neutro (independientemente de sus resultados)?

Desde mi punto de vista, la pregunta más relevante es si el algoritmo es más o menos discriminador que un sistema de decisión alternativo. En el caso del juzgado de Broward, lo razonable hubiera sido que ProPublica hubiese comparado las decisiones generadas por el algoritmo con las decisiones que tomaba el juez anteriormente o las decisiones de otros condados limítrofes. Esto es lo que hace Bo Cowgill en un estudio de un sistema computarizado de selección de personal utilizado por una empresa tecnológica.

La empresa recibe currículos constantemente y hace una oferta a todo trabajador que considere cualificado. El proceso tiene tres partes: una pre-evaluación en Recursos Humanos y, si el candidato resulta prometedor, una segunda ronda en la que se le evalúa por un grupo de expertos en su campo (programadores, casi siempre). Cowgill hace uso de un experimento aleatorio que tuvo lugar en la empresa por el que cada candidato fue asignado con igual probabilidad a un pre-evaluador humano o a un sistema informático. El sistema informático es un algoritmo de aprendizaje autónomo que utiliza datos históricos de los candidatos evaluados por humanos (su probabilidad de ser contratados y su productividad en la empresa). Ni los candidatos ni los evaluadores de la segunda ronda tenían conocimiento de la existencia de un sistema informático.

La primera pregunta es si el algoritmo elige mejor que el humano. La respuesta parece claramente sí. Las probabilidad de recibir una oferta y ser contratado se multiplican por dos (21% vs. 11% y 17% vs. 8%). Más interesante es la comparación de la productividad de los individuos contratados en ambos grupos. En este caso, los individuos contratados que fueron asignados al algoritmo escriben más líneas de código y tienen menos errores que los que fueron asignados al evaluador humano. Quizá más sorprendente es que también obtienen mejores resultados en sus evaluaciones subjetivas por parte de compañeros de trabajo y en su probabilidad de ascender en la jerarquía de la empresa.

La segunda pregunta, que es también la que nos atañe más directamente, es si el algoritmo discrimina más o menos que los evaluadores humanos. Es importante resaltar que el algoritmo no fue programado para discriminar, pero al ser educado con información histórica, es probable que haya heredado los sesgos humanos. El resultado es también sorprendente. Aunque el algoritmo penaliza a los candidatos sin diplomas académicos de universidades de élite o individuos sin experiencia, lo hace en menor medida que los humanos, y, por tanto, los individuos que tienen menos probabilidad inicial de pasar el corte son los que más se benefician de formar parte del grupo tratado. Es decir, aunque el algoritmo es formalmente discriminador es menos discriminador que su alternativa.

En conclusión, los algoritmos no son neutrales porque no pueden serlo pero seguramente sean menos sesgados que sus supervisores humanos.

Hay 16 comentarios
  • Todos discriminamos en nuestras decisiones. El problema no es la discriminación per se sino la discriminación arbitraria, la que no se puede justificar por recurso a principios o conocimientos claros y generalmente aceptados por la sociedad de referencia (sin referencia a una sociedad en particular, ni los principios ni los conocimientos jamás son claros). Aceptar sólo significa tolerancia, no que cada miembro de la sociedad los use como los únicos válidos para sus decisiones.

    No importa qué cosa artificial usemos para ayudarnos en nuestras decisiones, no debe sorprender que rechacemos las discriminaciones arbitrarias (insisto que lo arbitrario varía con la sociedad de referencia). Sí, le debemos exigir a los algoritmos que no discriminen arbitrariamente. Siendo artificial, la arbitrariedad está en las decisiones en el momento de su diseño aunque luego, en la aplicación, uno deba revisar si efectivamente se evitó la arbitrariedad. El problema es quién tienen la autoridad y la capacidad para esa revisión y yo apuesto que no hay un periodista en todo el mundo que por formación profesional tenga esa capacidad.

  • Dice el autor que "Es importante resaltar que el algoritmo no fue programado para discriminar, pero al ser educado con información histórica, es probable que haya heredado los sesgos humanos" y este párrafo contiene toda la filosofía que hay tras el algoritmo: se construye respetando criterios de elección de recursos que maximicen resultados y minimicen costes.
    No es que sea probable que el algoritmo haya heredado los rasgos humanos, si no que el algoritmo se construye en función de la filosofía que se esconde tras la selección de los recursos que incorporar al proceso productivo en una "economía de mercado".
    El algoritmo pretende, fundamentalmente, convertir en rutinas procesos de selección de personal que se definen y se orestan como tales.
    Reducir costes.

  • Muchas gracias por el comentario.
    Sí. En este caso se trata de una empresa en mercado competitivo y, por tanto, el algoritmo está diseñado para reducir las contrataciones de trabajadores menos productivos y el exceso de costes en la evaluación.
    Pero me parece que esto es simplemente un ejemplo de un uso posible de este tipo de algoritmo de aprendizaje automático y no debe identificarse la tecnología con el uso.

  • Muy interesante. Cada día se echan mas en falta opiniones políticamente incorrectas pero que se basan en la observación empírica y cuyas conclusiones son aproximaciones y no dogmas.

  • Muchas gracias por el artículo.
    Curioso y sobrecogedor el caso del juzgado de Broward.
    ¿Podemos asegurar que un juez tomaría las decisiones mediatizado por la procedencia o la raza del encausado? Mal juez sería de ser así, sin embargo, el sistema utilizado si. Y si excluimos esos datos seguramente el sistema perdería casi toda su efectividad. Estamos hablando de un caso y un país muy excepcionales, pero no deja de ser alarmante.
    Como dice Enrique, todos discriminamos. La intuición no deja de ser un complicado proceso en el que se utilizan multitud de datos almacenados a través del tiempo (la experiencia). El ser humano ha creado algoritmos en su cerebro para procesarlos y discriminarlos.
    El sistema ya lo estamos empleando para multitud de temas, ya no solo económicos sino también en campañas electorales, tras discriminar a la ciudadanía por sus gustos e inquietudes, para así enviar mensajes sugerentes muy bien personalizados.

  • Muy interesante Daniel! Propongo otro tema para una saga sobre algoritmos, de título "Algoritmos colusivos" Esto es, cuando las empresas utilizan algoritmos para la fijación de precios, ¿los resultados son más o menos colusivos frente a la alternativa de que no los usen? ¿Debieran las agencias de competencia estar vigilantes ante el uso de algoritmos para la fijación de precios?

    • Muchas gracias Natalia. Bueno, sobre esto no conozco mucha literatura. Hay un caso famoso de dos libros en Amazon cuyo precio explotó porque un algoritmo recortaba el precio de su rival en $1 y el otro elevaba el precio en $2(http://www.michaeleisen.org/blog/?p=358). Prometo echar un vistazo a ver si puedo escribir algo interesante.

  • Otro problema con los sistemas de evaluación informáticos es la falta de transparencia.

    En un sistema manual, una opción es elaborar una lista de factores a evaluar, y asignar puntos a cada factor según los datos de cada persona. Siempre se puede discutir si el sistema de puntuación es justo o no, pero es claro cuantos puntos recibió cada persona por cada factor.

    Ese sistema se puede automatizar. O sea, la lista de factores se puede generar mediante un programa, y los puntos se pueden calcular de manera más o menos automática. En todo caso, es claro cuántos puntos recibió cada persona por cada factor.

    Sin embargo, hay sistemas de evaluación informatizados que no cumplen con el criterio de transparencia. Un ejemplo son los sistemas que incorporan inteligencia artificial. Por definición, nadie sabe qué criterios usa el sistema para evaluar. Por lo tanto, no es posible denunciar tal o cual sesgo, porque no hay forma de comprobar qué factores generan dicho sesgo.

    • Por definición de artificial, el diseñador siempre sabe lo que quiso poner y si alguien se equivocó en la ejecución del diseño en algún momento el diseñador se dará cuenta (sí, puede que ese momento sea demasiado tarde, pero es cuestión de tiempo). Cualquier duda preguntar a ingenieros estructurales (y también a economistas serios que hayan construido modelos complejos y luego generan simulaciones imprevistas).

      • Para los algoritmos de aprendizaje profundo esto puede ser más complicado. En cualquier caso se pueden desarollar tests para estudiar el comportamiento del algoritmo. En el caso de la discriminación el problema no es tanto que una variable se use directamente como que un algoritmo aprenda a sustituirla por otras con las que esté correlada. Hablaré de esto en un poco más de detalle en una próxima entrada sobre algoritmos y colusión.

    • Gracias. Lo vi justo después de que se publicara la entrada. De todas formas me parece que el estudio no es muy justo con el algoritmo: le compara con la media de 400 decisores! El algoritmo reemplaza a un solo juez. Sabemos de la literatura de predicción (por ejemplo en macro) que la media de las predicciones de un grupo grande de personas es comparable o superior a los mejores modelos estadísticos, pero ninguno de los de expertos individuales lo es.
      En todo caso, el resultado respecto al sesgo racial es el mismo en ambos grupos, y por tanto, no podemos concluir que el algoritmo haya producido un incremento en la discriminación.

      • El algoritmo se puede considerar "bueno" porque su precisión y falsos positivos (sesgo) son similares a los de los humanos. Es como una curva correctamente ajustada a unos puntos experimentales.
        Pero si se quiere un algorimo "mejor", con menos falsos positivos para la población negra, podría ocurrir que la precisión global disminuyera. Con lo que habría que considerar qué sería preferible, si un algoritmo preciso pero discriminatorio, u otro menos discriminatorio pero poco preciso.

  • Al final la clave creo que está en si la variable objetivo puede estar sesgada o no. Ejemplo: Si entreno el algoritmo para seleccionar personal y como parámetro de evaluación uso "notas de evaluación" o similar.. (subjetivo) puede que el algoritmo preselecciones hombre frente a mujeres porque a estos les pusieron mejor nota sus evaluadores. Ese sería un algoritmo sesgado (a evitar).

    Sin embargo, si evalúo con una variable objetivo inocua al sesgo humano (a priori), como por ejemplo "total ventas". El algoritmo no tendrá sesgo y si lo tuviera, estaría justificado. En estos casos no se debería considerar discriminatorio al algoritmo.

    Me interesa tu opinión al respecto.

    • Desde luego, la segunda opción parece mejor. En este caso, el algoritmo estaba entrenado con ambos objetivos (pasar la criba y conseguir mayor productividad). La clave es que aunque los humanos discriminamos, también cometemos errores en esa discriminación (como los malvados de las películas) y si el algoritmo aprende que uno de esos colectivos está injustamente discriminado podrá corregir en cierta medida ese sesgo. Por el contrario, si el algoritmo no goza de suficiente datos 'objetivos' y solo observa si el trabajador es finalmente contratado, es posible que el algoritmo cometa menos errores y el resultado sea incluso peor.
      Gracias por tu comentario.

Los comentarios están cerrados.