Las lecciones de Paul Meier para la evaluación de políticas

Paul Meier, un famoso bioestadístico, murió este verano. A sugerencia de Jesús quería escribir sobre él desde entonces, pero urgencias varias me lo han impedido. Una pequeña polémica en una de mis últimas entradas me ha convencido de que vale la pena hacerlo ya. Porque Meier es el padre de la moderna medicina basada en la evidencia y me parece que una buena parte de nuestras políticas microeconómicas, sobre todo las educativas, se beneficiarían de una mayor atención a esta metodología.

Como dice el artículo del Washington Post, Meier fue un “temprano y exitoso defensor de la introducción de ensayos clínicos aleatorizados. La idea de asignar a los sujetos en un experimento médico a un tratamiento u otro exclusivamente sobre la base del azar horrorizaba a muchos médicos.” Pero como también dice el artículo, el uso de esta metodología ha salvado miles de vidas.

Si a muchos médicos les horrorizaba, imagínense al común de los mortales que no estamos acostumbrados a tomar decisiones de vida o muerte en nuestra experiencia cotidiana. De ahí que valga la pena entender por qué la metodología es tan útil. Técnicamente la razón es que, como decía una comentarista hace un par de semanas, el análisis estadístico suele resultar muy comprometido en presencia de variables omitidas; pero como le decía en mi contestación los experimentos aleatorios evitan justamente ese problema. O más brevemente: correlación no implica causalidad, excepto si hay un experimento de por medio.

La mejor manera de explicarlo es con un ejemplo. Desde hace un par de años los exámenes CDI (Conocimientos y Destrezas Indispensables) de la Comunidad de Madrid incluyen una pregunta sobre el tiempo que los padres pasan haciendo deberes con los hijos. Cuando hicimos las regresiones correspondientes, el coeficiente de la variable “tiempo de los padres” sobre el resultado en los exámenes era negativo. Hombre, yo reconozco que el esfuerzo con mis hijos puede no ser muy útil, pero ¿negativo? Y, claro, “correlación no es causalidad” viene en nuestro rescate. Pero aunque esto nos tranquilice como padres, no resulta muy útil para saber cuál es el efecto real de la variable “esfuerzo de los padres.”

Un experimento aleatorio en el cual un grupo de padres escogidos al azar pasaran una hora al día con sus hijos y otro grupo no lo hiciera podría resolver el problema. La cuestión es: ¿por qué? Vamos a volver al ejemplo, y para simplificar imaginemos que hay sólo dos tipos de alumnos. Uno de ellos va a sacar un 7 de media sin ayuda de los padres. El otro va a sacar un 4 sin ayuda. En realidad da igual la causa, puede ser que tienen mejores genes o han tenido un entorno infantil más cuidado, las dos cosas o una tercera variable omitida. Lo crucial es que el investigador no puede observar qué tipo de niño es cada uno. Ahora supongamos que una hora de tutoría paterna aumenta la nota media en dos puntos, sea cual sea el tipo del niño.

El paso crucial es darse cuenta de que, en ausencia de experimento controlado, el esfuerzo de los padres es endógeno. Y es posible que muchos padres, para simplificar digamos que todos, solamente hacen esfuerzo si prevén que el hijo no va a aprobar. Y los padres, al revés que el investigador, sí que saben si tienen un hijo de 7 o uno de 4. Así que a falta de experimento la media de los chicos “de 4” acaba siendo un 6. Y la media de los “de 7” acaba siendo 7. Con lo cual el investigador verá un grupo de chicos a los que el padre ayuda y tienen un 6 de media; y otro grupo a los que el padre no ayuda y tienen un 7. Por consiguiente aquellos estudiantes a los que su padre ayuda tienen peor nota; que es lo que en el fondo señala el coeficiente de la regresión, una media condicionada a la ayuda de los padres más baja.

Esto explica por qué la correlación no es causalidad, pero todavía no les he explicado por qué el experimento ayuda a solucionar el problema. La razón es que el agrupamiento aleatorio de los padres para la hora de ayuda nos evita el problema de que no conozcamos si los chicos de cada grupo son de un tipo u otro. Es fácil darse cuenta de que si el número de chicos “de 7” y “de 4”que caen en el grupo tratado es igual que los del grupo de control, la diferencia de medias entre los dos grupos será exactamente de 2. Y también que lo que determina la diferencia de medias entre los grupos es la proporción relativa de chicos “de 7” y “de 4” en cada grupo. Y justamente lo que garantiza la asignación aleatoria a cada grupo es que esa diferencia no será grande. Para hacerlo más visual imaginen que tenemos 40 chicos, 20 de cada tipo, y los ponemos aleatoriamente en un grupo de 20 que recibe ayuda y otro de 20 que no la recibe. Para que el grupo que recibe ayuda tenga una nota media más baja, tendría que haber 17 o más de los “de 4” en el grupo tratado. La probabilidad de que esto pase al azar es del 1,3 por mil si no hice mal los cálculos y no me engaña la tabla binomial.

Espero haberles convencido de que esto de los experimentos aleatorios es una buena idea para conocer el efecto de políticas variadas. Pero además es un buen negocio. Hace unos meses les contaba la enorme diferencia de rentabilidad social de dos intervenciones experimentales de largo plazo en educación aquí y aquí.

Y es que a todos se nos pueden ocurrir ideas aparentemente magníficas para mejorar la calidad de la enseñanza. Puede ser la beca 6000 andaluza o la beca de mantenimiento del ministerio de educación para evitar el abandono escolar; el bachillerato de excelencia de la Comunidad de Madrid o los desdobles de clases que se han propuesto para fomentar la excelencia. Esto por mencionar dos de los problemas más acuciantes de nuestra enseñanza; el fracaso escolar y la manifiesta falta de excelencia de nuestro sistema. Pero, que yo sepa, ninguno de estos programas se ha introducido con un protocolo experimental. Y aunque uno pueda pensar que el programa Progresa de Méjico o las grammar schools proporcionan motivos para usar estos programas, los experimentos tienen un problema de validez externa fuera de las poblaciones en las que han sido utilizados y es importante experimentar si se usan las políticas en nuevas poblaciones.

No todo está perdido. Algunos de estos programas pueden evaluarse de forma cuasi-experimental. Por ejemplo, la beca 6000 o la de mantenimiento tienen unos requisitos de renta máxima familiar para poder acogerse a los mismos; de manera similar el ingreso en el bachillerato de excelencia es competitivo. En la medida en que estar justo por encima o por debajo del corte para disfrutar estos programas sea esencialmente aleatorio, tenemos un cuasi-experimento y podemos comparar a los estudiantes que estén muy cerca del corte como si fueran un grupo tratado y uno de control. En ese caso la técnica estadística de regresión de discontinuidad nos permite evaluar las políticas con ciertas garantías. Pero nada es gratis, y si estos programas tienen efectos muy distintos en el estudiante marginal que en otros puntos de la distribución, no habremos aprendido lo suficiente sobre sus efectos. Por tanto, en un contexto de severa limitación de los ingresos públicos sería bueno que aplicáramos los mismos criterios de rigor a la introducción de todo tipo políticas que a la introducción de medicamentos, siguiendo las ideas pioneras de Paul Meier.

Hay 9 comentarios
  • No se puede explicar de manera más directa, ni más convincente, el valor añadido de esta metodología, que no es más que una aplicación del método científico clásico a un problema económico o social.

    No hay otro método empírico que aporte esa profundidad, por mucho que tenga limitaciones. Genial la entrada.

  • También puede ocurrir que a los chavales más vagos media horita al día les parezca una eternidad y acaben declarando tres horas. Al final ser un vago y el número de horas declaradas irán juntos. Ese el problema que tienen todos los datos que son declaraciones (subjectivas) más que medidas (objetivas).

    Por lo demás, la entrada es muy interesante pero habría que señalar que en economía, en la abrumadora mayoría de los casos, no podemos realizar experimentos. Eso es un problema porque hay quien desea trasladar a la política económica la idea detrás de la medicina basada en la evidencia y al final lo único que hacen es propugnar una especie de análisis coste-beneficio aberrante. Ahí fuera hay quien cree que la biodiversidad se puede valorar en euros y que la medida monetaria de su degradación debería descontarse del PIB.

  • Jorge. Efectivamente el problema de los datos que salen de encuestas son terribles. Pero no puedo estar de acuerdo con que en la abrumadora mayoría de los casos no se puedan realizar experimentos. En educación se me ocurren pocas cosas que no se puedan comprobar experimentalmente. Incluso en cosas como la macro hay cantidad de cosas que se pueden hacer así. La aparición de burbujas o hiperinflaciones se han comprobado en laboratorios experimentales, por ejemplo. No creo que sirvan para todo, como los datos de campo o la teoría tampoco sirven para todo. Pero su superioridad es tan grande que deberíamos usarlos siempre que se pueda.

  • Hola Antonio, excelente entrada (como siempre) sobre los problemas derivados del abuso de las correlaciones (simples o múltiples).

    Como señalas, el uso de metodos experimentales y pseudo-experimentales (de validez general o local, como es el caso de la regresión de discontinuidad) en la evaluación de políticas públicas, para solucionar problemas de selección o de omisión de variables relevantes es altamente recomendable cuando la experimentación (o quasi-experimentación) es factible.

    Sin embargo el articulo da la impresión de que sea "el método de solución", cuando es perfectamente posible solucionar el problema (sobre todo cuando no es posible la experimentación o se quiere que el resultado sea válido a nivel de toda la distribución) usando variables instrumentales o analizando longitudinalmente el comportamiento de una muestra de individuos.

    Es más, cuando ello sea posible, es recomendable intentar evaluar el mismo problema por vias alternativas, lo que sin duda aumenta la robustez de los resultados obtenidos.

    Sergi

  • Gracias, Antonio, por el post y el homenaje a Paul Meier

    Creo que Paul estaría de acuerdo con los siguientes comentarios

    ¿Son útiles los trabajos empíricos con metodología rigurosa? Claramente, SI

    ¿Son útiles los ensayos clínicos aleatorizados? También un rotundo SI

    ¿Son los experimentos aleatorios el bálsamo de fierabrás? Sin duda alguna, NO.

    Los ensayos clínicos tienen limitaciones, por lo que no conviene sacralizar los resultados obtenidos. La realidad es más compleja de lo que aparece en los manuales. De hecho, hay muchos medicamentos que han sido aprobados por las autoridades sanitarias tras las correspondientes pruebas clínicas, pero que tienen efectos adversos, incluso mortales. Más de cien mil personas (sí, sí habéis leido bien, cien mil personas) mueren al año en Estados Unidos por este motivo (76000-137000 es el intervalo de confianza al 95%) . Lazarou, J.; Pomeranz, B.H.; Corey http://www.doctordeluca.com/Library/PublicHealth/IncidenceADRinHosp98.pdf

    Si hablamos de educación, la crítica de Penny 🙂 es que si no se tienen en cuenta los efectos no lineales sobre los resultados en pruebas de conocimiento de la interacción "nature" (dotación genética, que también depende de los padres) y "nurture" (padres, profesores, compañeros) podemos tener problemas. Lo que algunos llaman efecto del profesor sobre el rendimiento es, en realidad, un mezclujo de efectos de otros factores. Parte del mérito (o demérito) es del alumno, parte de los compañeros, parte de los padres y parte del profesor. Y no me parece sensato pagar según un mezclujo

    Vamos, que un experimento aleatorio no es magia, potagia. Simplemente, no linealidades y variables omitidas no hacen buenas migas.

    PD Afortunadamente, la genética empieza a abrirse camino en la economía de la educación y es cuestión de tiempo que veamos grandes avances en este área. Por ejemplo, en el Handbook of the Economics of Education ya tenemos Björklund, Anders y Salvanes, Kjell G., 2011."Education and Family Background: Mechanisms and Policies http://ftp.iza.org/dp5002.pdf.

    Un saludo

    PD Por cierto, ¿qué opinión os merecen los exámenes CDI (Conocimientos y Destrezas Indispensables) de la Comunidad de Madrid? ¿Son estas pruebas adecuadas para valorar los conocimientos de los chavales de primaria?

    Lengua http://www.madrid.org/cs/Satellite?blobcol=urldata&blobheader=application%2Fpdf&blobheadername1=Content-Disposition&blobheadervalue1=filename%3DCDI+PRIMARIA+LENGUA+2010.pdf&blobkey=id&blobtable=MungoBlobs&blobwhere=1272020212311&ssbinary=true

    Matemáticas http://www.madrid.org/cs/Satellite?blobcol=urldata&blobheader=application%2Fpdf&blobheadername1=Content-Disposition&blobheadervalue1=filename%3DCDI+MATES+PRIMARIA+2010.pdf&blobkey=id&blobtable=MungoBlobs&blobwhere=1272020212294&ssbinary=true

  • @Penny: Estamos de acuerdo en que no existe el manual de la investigación científica (por mucho que se empeñen los manuales de evaluación de impacto). En última instancia el sentido común juega un papel fundamental.

    Y el sentido común también dice que nunca puedes controlar el 100 por cien de los efectos de una intervención, ya sea un tratamiento médico o una medida de política económica. Es por eso que un humilde servidor se limita a consumir productos de agricultura orgánica.

    @Antonio: Que me perdonen mis amigos de experimental economics pero insisto en que en la abrumadora mayoría de casos no podemos recurrir a los experimentos —de verdad, no con estudiantes de licenciatura. La mejor prueba de ello es la frecuencia con que utilizamos la expresión "experimento natural".

    No podría poner en duda la utilidad de los experimentos bien diseñados pero me temo que en general estamos empantanados en el camino a asintotia (aquí en formato PDF).

  • Hay muchos motivos por los cuales correlación no implica causalidad.

    Algunos de ellos son los que el comentario de A. Cabrales explica tan claramente.
    Otros son los derivados de uno de los rasgos más "fastidiosos" de la realidad. Este rasgo es el que se manifiesta en todos los sistemas complejos.
    En estos sistemas --todo en la naturalza es un enorme sistema complejo en cambio constante-- se desarrollan conductas que provienen de relaciones entre los elementos básicos pero que no pueden ser deducidas del conocimiento de estos componentes elementales.

    Por eso resulta tan difícil predecir nuestra conducta en manada o la de las hormigas en su hormiguero si partimos de unas pocas personas o de unas pocas hormigas. Hay que observar la masa en acción.

    Y además de los comportamientos de un grupo (personas) no pueden deducirse los de otro (hormigas).
    En efecto, las personas, al agruparse en grandes números reducimos nuestro comportamiento racional e inteligente y pasamos a una fase que, medida intelectualmente, es regresiva.

    Por contra, las hormigas --que en pequeños grupos exhiben conductas de gran simplicidad y escasa inteligencia-- al agruparse en masa, ésta desarrolla respuestas de alta calidad intelectual para la resolución de problemas.

    Por eso es crítico acotar los experimentos y no hacerse excesivas ilusiones sobre su capacidad predictiva porque todo cambia, aprende y muta cualitativamente al darse cambios cuantitativos.

    En la SSSF del pasado fin de semana perdí un libro de Melanie Mitchell que contaba cosas sobre la complejidad en sistemas sociales y el artículo me lo ha hecho recordar.

    Saludos

  • Penny, sobre la importancia de las familias hay un estudio para España:
    http://www.oei.es/pdf2/desigualdades_socioeduc_espana.pdf
    De este estudio podemos entresacar lo siguiente:
    Hasta 1996 la matriculación en la escuela pública estaba por encima de la privada, posteriormente
    “en los cuatro cursos siguientes se produce un fuerte desplazamiento de la demanda hacia éstos, que alcanzan el curso 2000-01 con unos efectivos similares a los de 1992. En ese mismo curso 2000-01, los centros públicos habían perdido un 10% de los alumnos matriculados en 1992. En los cursos posteriores a 2000-01 el desplazamiento se ha interrumpido y los centros públicos y privados pierden alumnos a un ritmo idéntico (el correspondiente a la caída demográfica). Tenemos, pues, cuatro cursos en los que se concentra un cambio de la demanda. Son los cursos en los que coincide la generalización de la reforma de la LOGSE y, también, el comienzo de la llegada acelerada de población inmigrante, dos factores que crean incertidumbre y que, como nos referíamos en el primer apartado, provocan la búsqueda de ámbitos de seguridad por parte de determinados grupos sociales”.

    Ante ese desplazamiento M.Fdez Enguita en su alegato ¿Es pública la escuela pública? Nos ofrece razones con la introducción de la LOGSE:

    “No ha habido una sola reforma del calendario o el horario escolares que no haya consistido en reducirlos. Se ha repetido hasta la saciedad, sin el más mínimo fundamento que la llamada jornada continua (y, por tanto, intensiva) iba en interés de los alumnos; se ha aplicado ya en buena parte de España, prometiendo maravillas y complementos extraescolares que nunca han funcionado; se han impuesto por la vía de hecho vacaciones y fiestas semiclandestinas como la impresentable semana blanca o los días de entrega de notas”.

    “Como resultado, numerosas familias acuden a la privada en busca de horarios menos concentrados, servicios más eficientes, actividades más diversas y mecanismos de recuperación veraniegos”.

    Si observamos el gasto privado en educación, las familias de los privados gastan más, pero si descontáramos lo perteneciente a las clases lectivas, también son los que más gastan en clases de apoyo, una familia de la pública entiende que si el niño “va bien” no tiene porque pagar un extra, la familia de la privada entiende que hay que mejorar su nota media.

    En cuanto a las extraescolares, parece que aquellos son una renta más baja se decantan por las utilitarias inglés, informática, fútbol, los de renta más alta procuran un tipo de deportes individuales atletismo, judo, natación, ajedrez, danza (los idiomas van el pack escolar).
    Curiosamente el número de suspensos va a asociado a menor actividad extraescolar, pues debajo de tres suspensos ni clases de apoyo.

    En España la familia, por encima de otros factores, determina el futuro educativo del niño, luego en esa senda se podrá mejorar o no, pero la senda es familiar, salvo que queramos a una sociedad espartana o estatalista.

    No sigo que le doy a la tecla y no paro.

  • Tineo, gracias por la referencia. En cuanto termine con el libro de Jorge Juan le echaré un vistazo

Los comentarios están cerrados.

Centro de preferencias de privacidad