Paul Meier, un famoso bioestadístico, murió este verano. A sugerencia de Jesús quería escribir sobre él desde entonces, pero urgencias varias me lo han impedido. Una pequeña polémica en una de mis últimas entradas me ha convencido de que vale la pena hacerlo ya. Porque Meier es el padre de la moderna medicina basada en la evidencia y me parece que una buena parte de nuestras políticas microeconómicas, sobre todo las educativas, se beneficiarían de una mayor atención a esta metodología.
Como dice el artículo del Washington Post, Meier fue un “temprano y exitoso defensor de la introducción de ensayos clínicos aleatorizados. La idea de asignar a los sujetos en un experimento médico a un tratamiento u otro exclusivamente sobre la base del azar horrorizaba a muchos médicos.” Pero como también dice el artículo, el uso de esta metodología ha salvado miles de vidas.
Si a muchos médicos les horrorizaba, imagínense al común de los mortales que no estamos acostumbrados a tomar decisiones de vida o muerte en nuestra experiencia cotidiana. De ahí que valga la pena entender por qué la metodología es tan útil. Técnicamente la razón es que, como decía una comentarista hace un par de semanas, el análisis estadístico suele resultar muy comprometido en presencia de variables omitidas; pero como le decía en mi contestación los experimentos aleatorios evitan justamente ese problema. O más brevemente: correlación no implica causalidad, excepto si hay un experimento de por medio.
La mejor manera de explicarlo es con un ejemplo. Desde hace un par de años los exámenes CDI (Conocimientos y Destrezas Indispensables) de la Comunidad de Madrid incluyen una pregunta sobre el tiempo que los padres pasan haciendo deberes con los hijos. Cuando hicimos las regresiones correspondientes, el coeficiente de la variable “tiempo de los padres” sobre el resultado en los exámenes era negativo. Hombre, yo reconozco que el esfuerzo con mis hijos puede no ser muy útil, pero ¿negativo? Y, claro, “correlación no es causalidad” viene en nuestro rescate. Pero aunque esto nos tranquilice como padres, no resulta muy útil para saber cuál es el efecto real de la variable “esfuerzo de los padres.”
Un experimento aleatorio en el cual un grupo de padres escogidos al azar pasaran una hora al día con sus hijos y otro grupo no lo hiciera podría resolver el problema. La cuestión es: ¿por qué? Vamos a volver al ejemplo, y para simplificar imaginemos que hay sólo dos tipos de alumnos. Uno de ellos va a sacar un 7 de media sin ayuda de los padres. El otro va a sacar un 4 sin ayuda. En realidad da igual la causa, puede ser que tienen mejores genes o han tenido un entorno infantil más cuidado, las dos cosas o una tercera variable omitida. Lo crucial es que el investigador no puede observar qué tipo de niño es cada uno. Ahora supongamos que una hora de tutoría paterna aumenta la nota media en dos puntos, sea cual sea el tipo del niño.
El paso crucial es darse cuenta de que, en ausencia de experimento controlado, el esfuerzo de los padres es endógeno. Y es posible que muchos padres, para simplificar digamos que todos, solamente hacen esfuerzo si prevén que el hijo no va a aprobar. Y los padres, al revés que el investigador, sí que saben si tienen un hijo de 7 o uno de 4. Así que a falta de experimento la media de los chicos “de 4” acaba siendo un 6. Y la media de los “de 7” acaba siendo 7. Con lo cual el investigador verá un grupo de chicos a los que el padre ayuda y tienen un 6 de media; y otro grupo a los que el padre no ayuda y tienen un 7. Por consiguiente aquellos estudiantes a los que su padre ayuda tienen peor nota; que es lo que en el fondo señala el coeficiente de la regresión, una media condicionada a la ayuda de los padres más baja.
Esto explica por qué la correlación no es causalidad, pero todavía no les he explicado por qué el experimento ayuda a solucionar el problema. La razón es que el agrupamiento aleatorio de los padres para la hora de ayuda nos evita el problema de que no conozcamos si los chicos de cada grupo son de un tipo u otro. Es fácil darse cuenta de que si el número de chicos “de 7” y “de 4”que caen en el grupo tratado es igual que los del grupo de control, la diferencia de medias entre los dos grupos será exactamente de 2. Y también que lo que determina la diferencia de medias entre los grupos es la proporción relativa de chicos “de 7” y “de 4” en cada grupo. Y justamente lo que garantiza la asignación aleatoria a cada grupo es que esa diferencia no será grande. Para hacerlo más visual imaginen que tenemos 40 chicos, 20 de cada tipo, y los ponemos aleatoriamente en un grupo de 20 que recibe ayuda y otro de 20 que no la recibe. Para que el grupo que recibe ayuda tenga una nota media más baja, tendría que haber 17 o más de los “de 4” en el grupo tratado. La probabilidad de que esto pase al azar es del 1,3 por mil si no hice mal los cálculos y no me engaña la tabla binomial.
Espero haberles convencido de que esto de los experimentos aleatorios es una buena idea para conocer el efecto de políticas variadas. Pero además es un buen negocio. Hace unos meses les contaba la enorme diferencia de rentabilidad social de dos intervenciones experimentales de largo plazo en educación aquí y aquí.
Y es que a todos se nos pueden ocurrir ideas aparentemente magníficas para mejorar la calidad de la enseñanza. Puede ser la beca 6000 andaluza o la beca de mantenimiento del ministerio de educación para evitar el abandono escolar; el bachillerato de excelencia de la Comunidad de Madrid o los desdobles de clases que se han propuesto para fomentar la excelencia. Esto por mencionar dos de los problemas más acuciantes de nuestra enseñanza; el fracaso escolar y la manifiesta falta de excelencia de nuestro sistema. Pero, que yo sepa, ninguno de estos programas se ha introducido con un protocolo experimental. Y aunque uno pueda pensar que el programa Progresa de Méjico o las grammar schools proporcionan motivos para usar estos programas, los experimentos tienen un problema de validez externa fuera de las poblaciones en las que han sido utilizados y es importante experimentar si se usan las políticas en nuevas poblaciones.
No todo está perdido. Algunos de estos programas pueden evaluarse de forma cuasi-experimental. Por ejemplo, la beca 6000 o la de mantenimiento tienen unos requisitos de renta máxima familiar para poder acogerse a los mismos; de manera similar el ingreso en el bachillerato de excelencia es competitivo. En la medida en que estar justo por encima o por debajo del corte para disfrutar estos programas sea esencialmente aleatorio, tenemos un cuasi-experimento y podemos comparar a los estudiantes que estén muy cerca del corte como si fueran un grupo tratado y uno de control. En ese caso la técnica estadística de regresión de discontinuidad nos permite evaluar las políticas con ciertas garantías. Pero nada es gratis, y si estos programas tienen efectos muy distintos en el estudiante marginal que en otros puntos de la distribución, no habremos aprendido lo suficiente sobre sus efectos. Por tanto, en un contexto de severa limitación de los ingresos públicos sería bueno que aplicáramos los mismos criterios de rigor a la introducción de todo tipo políticas que a la introducción de medicamentos, siguiendo las ideas pioneras de Paul Meier.