Causalidad e Inteligencia Artificial

A muchos de ustedes quizá no les suene el nombre de Judea Pearl. Sin embargo, se trata de una de las mentes más importantes de los últimos 50 años, y quizá solo Alan Turing haya tenido mayor impacto en el mundo de la inteligencia artificial. A Pearl se le considera el creador de las redes Bayesianas que introdujeron el aprendizaje probabilístico en la inteligencia. Estas redes permiten a los sistemas informáticos agregar y resumir millones de observaciones y generar predicciones acertadas a partir de ellos, y han dado lugar a innovaciones cruciales en ámbitos tan dispares como la telefonía móvil y la predicción meteorológica (aquí algunas de ellas). Las redes neuronales que están detrás de los algoritmos de aprendizaje profundo más avanzados no hubieran sido posibles sin ellas.

Tras este gran éxito, Pearl decidió dar un giro completo a su carrera. Su "revelación" fue comprender que la inteligencia humana no se sustenta en una gran capacidad de análisis de datos complejos sino en una comprensión profunda de las reglas de causa y efecto y una habilidad prodigiosa de imaginar mundos alternativos (o contra-factuales). Y junto a esa revelación llegó un desafío: cómo lograr condensar en lenguaje probabilístico las relaciones de causa y efecto que le resultan tan naturales a un niño de tres años y tan ajenas a un algoritmo como el de AlphaGo.

En su Libro del Porqué (The Book of Why), Pearl se propone tres desafíos. Primero, introducir al lector en las técnicas que ha desarrollado para capturar relaciones de causalidad en términos matemáticos. Segundo, mostrar sus aplicaciones a campos tan diversos como las ciencias sociales, la medicina y la inteligencia artificial. Y tercero, narrar, desde su particular perspectiva, una historia del concepto de causalidad en la ciencia y la estadística.

Para ilustrar el método "prodigioso" que nos presenta Pearl vamos a utilizar un ejemplo clásico. Desde los años 50, se sabe que existe una clara asociación estadística entre el consumo de tabaco y el cáncer de pulmón. Un fumador habitual tiene un factor de riesgo entre 10 y 20 veces superior a contraer cáncer de pulmón. La pregunta relevante es, sin embargo, si fumar incrementa la probabilidad de contraer cáncer o existe un tercer factor que "confunde" nuestro análisis. Por ejemplo, podría existir un gen que incrementase tanto la probabilidad de contraer cáncer como de convertirse en fumador habitual. Para responder a esa pregunta, Pearl utiliza dos herramientas: el diagrama de causalidad y el denominado "do-calculus".

El diagrama de causalidad (ver Figura) representa de manera sucinta las relaciones entre las variables, de modo que si existe una flecha de una variable a otra entendemos que la primera influye en la segunda. Este diagrama no es el resultado de "mirar a los datos" sino que antecede la investigación empírica. Se trata de una representación formal de los supuestos del "modelo" que el investigador debe utilizar para extraer relaciones de causalidad. Sin supuestos no hay causas.

El do-calculus es un conjunto de reglas deductivas que permiten establecer la conexión entre las variables que observamos en los datos (proporción de fumadores entre los pacientes) y las relaciones de causalidad (probabilidad de contraer el cáncer para un fumador). A través de ellas, Pearl proporciona varios ejemplos de lo que podríamos llamar técnicas empíricas para extraer relaciones de causalidad sin necesidad de llevar a cabo experimentos aleatorios.

Si ha llegado hasta aquí, el lector se estará preguntando... ¿qué hay de nuevo en esto? ¿acaso no hemos escuchado eso de "correlación no es causalidad" lo suficiente? ¿qué hay de las variables instrumentales, los diseños de regresión de discontinuidad o las estrategias de diferencias en diferencias de las que tanto me han hablado en este blog?

Aunque Pearl no responde a estas preguntas, podríamos decir que sus técnicas pueden ser utilizadas cuando no dispongamos de ninguna de estas técnicas “cuasi-experimentales”. Su principal debilidad es que requieren supuestos "fuertes" sobre los mecanismos a través de los cuales unas variables afectan a otras. Volviendo al ejemplo de las causas del cáncer, podríamos utilizar las ideas de Pearl para obtener una estimación causal del efecto del tabaco si asumimos que (i) el impacto del tabaco depende únicamente de su contenido de alquitrán, y (ii) el gen del fumador no tiene un impacto en el procesamiento del alquitrán ni en las preferencias de los fumadores por distintos tipos de tabaco. A este tipo de supuestos los llamaríamos en economía "estructurales" (que no paramétricos) y nos costaría mucho utilizarlos al hablar de "causalidad".[i]

El problema es que Pearl no hace prisioneros. Todo aquel que no sigue sus ideas es "una isla de resistencia". El avance de la "revolución causal" es inexorable y gente como Heckman, Card, Angrist, Imbens y Rubin son reliquias. Como consuelo, les queda que sus pecados palidecen respecto a los de los dos enemigos públicos de la revolución: Pearson y Fisher. En un ejercicio de whigismo y de revisión histórica, Pearl reduce las contribuciones de estos dos padres de la estadística matemática al bloqueo de cualquier avance que pusiera en contradijera sus creencias, resultando en décadas de atraso de las disciplinas no experimentales que sólo él ha podido subsanar.

Por último, Pearl deja sin responder la pregunta con la que inició su investigación: ¿cómo programar relaciones de causalidad? Sabemos que cualquier intento basado en la descripción del mundo mediante descripciones exhaustivas está condenado al fracaso, pues el mundo es demasiado complejo. En su lugar, debemos crear un sistema de inteligencia artificial que sea capaz de crear sus propios "diagramas de causalidad". Para ello el sistema debe comprender que existen variables que no observa y que, por tanto, debe imaginar. Pero la imaginación es, sin duda, el mayor nivel de inteligencia y no su requisito previo.

En definitiva, el libro de los porqués nos deja más preguntas que respuestas. Quizá ese sea, a pesar de todo, su verdadero triunfo.

[i] En términos del diagrama, estos supuestos garantizan que no existe flecha de X a Y, ni del factor oculto a Z, ni existe ningún otro factor que determine esta relación.