El registro de experimentos y la “pesca de resultados”

En esta entrada de finales de Mayo, Antonio Cabrales ya comentaba el caso de un experimento aleatorio “tramposo” que concluía que tomar chocolate aceleraba los efectos de pérdida de peso de una dieta baja en carbohidratos. Lo que era “tramposo” sobre el experimento no fue que los datos se inventaran o se manipularan, sino un viejo truco estadístico, el de la “pesca de resultados”: si se hace un experimento y se contrasta su efecto sobre muchas variables, es muy posible que salga “estadísticamente significativo” en una de ellas, aunque no sea cierto que el experimento de verdad mejore el valor de dicha variable.

En medicina, donde los experimentos aleatorios son mucho más viejos y frecuentes que en Economía, ya han pensado mucho sobre este problema. Antes de realizar un experimento aleatorio de un nuevo medicamento, se ha de inscribir en un registro de análisis clínico (véase este interesante artículo de Matthias Dahm, Paula Gónzalez y Nicolás Porteiro sobre los efectos de dichos ensayos en los incentivos de la industria farmacéutica). En el registro se ha de inscribir algunos detalles sobre el estudio (tipo de experimento, tamaño de la muestra, etcétera) junto con la hipótesis primaria: el indicador que utilizaremos para juzgar si el medicamento ha sido efectivo. También se han de incluir las hipótesis secundarias: los indicadores que se utilizarán para explicar la hipótesis primaria o para plantear nuevas hipótesis primarias en futuros experimentos. Las consecuencias de no inscribir el experimento aleatorio en el registro son drásticas: las agencias regulatorias no aprobarán el medicamento y las mejores revistas médicas tampoco publicarán el artículo (ver aquí las recomendaciones del comité internacional de editores de revistas médicas.)

¿Qué se intenta solucionar con la inscripción en el registro? Básicamente dos problemas: (1) el de la “pesca de resultados” y (2) que no se conozcan resultados negativos. Sobre el primero, si no se ha inscrito la pérdida de peso entre las hipótesis primarias entonces no tendrá tanto valor haber encontrado que el chocolate acelera la pérdida de peso. Y tampoco podemos tener una lista interminable de indicadores en el capítulo de hipótesis primarias. Cuando se incluye más de uno, hay que utilizar correcciones estadísticas, como la de Bonferroni aunque hay otras, que reducirá la potencia estadística del experimento.

El segundo problema que los registros de experimentos intentan evitar es que no se sepa lo que no funciona. Se tiende a pensar que es más fácil publicar resultados estadísticamente significativos, que no. Si esto es cierto, un investigador tiene poco incentivos a escribir un artículo sobre un experimento en el que haya obtenido un resultado estadísticamente no significativo. Pero obviamente, esto no es óptimo desde el punto de vista social, porque tiene mucho valor para la sociedad saber lo que no funciona. Los registros solicitan que también se registre el resultado del experimento. Así, cuando alguien este haciendo una revisión de la literatura, podrá saber el resultados de todos los experimentos hechos sobre un tema, no sólo los que han dado estadísticamente significativo.

¿Cómo se ha trasladado todo esto a la economía? Pues reconociendo que los problemas no son muy distintos, la Asociación Americana de Economía ha instaurado un registro de experimento aleatorios en las ciencias sociales. El registro ha sido muy popular, y ya cuenta con 475 entradas. Pero también hay diferencias entre la economía y la medicina. Yo he registrado estudios tanto en registros de medicina (verlos aquí y aquí) y como en registros de economía (ver éste por ejemplo), y el registro en medicina te requiere ser más preciso en la definición de hipótesis, indicadores, etc. Esto es normal si se tiene en cuenta que el registro de experimentos aleatorios controlados en economía es bastante reciente. Además, ninguna de las revistas de economía requieren que el experimento esté inscrito en un registro para que el artículo se pueda publicar.

Por lo mencionado hasta ahora, parece que solo hay beneficios en la inscripción de experimentos aleatorios en los registros. ¿Hay algún coste? En un artículo publicado recientemente en el Journal of Economic Perspectives, Benjamin Olken discute los beneficios y costes de los “planes de análisis,” que son más o menos lo mismo que la entrada en un registro pero con más detalle, obviamente incluye las hipótesis primarias y secundarias a contrastar (pero también incluye otra información como modelos estadísticos a utilizar, tratamiento de valores extremos, subgrupos para el análisis de heterogeneidad, etc.) Según él, el mayor coste es que desincentiva el análisis exploratorio de datos. ¿Cual es la razón? ¿Cómo se interpretará una relación interesante que se encuentra en los datos, a posteriori, y que por lo tanto no se especificó en el registro? ¿Se interpretará como resultado de una “pesca de resultados”? Cuántas pruebas de robustez tendrá que mostrar el investigador para convencer al lector que esa relación que no especificó a priori es, sin embargo, robusta? Este problema es especialmente acuciante en economía, dónde las encuestas suelen tener mucho más información que en medicina, y que por lo tanto es más probable que haya una relación en los datos que no se nos ocurrió cuando estábamos registrando el estudio.

Dado que hay beneficios y costes asociados a registrar los experimentos aleatorios, cabe preguntarse si realmente hacen falta en economía. La verdad es que no creo que tengamos suficiente evidencia al respecto, aunque ya hay algún estudio al respecto. Este artículo que pronto aparecerá publicado en American Economic Journal: Applied Economics analiza si hay evidencia de “pesca de resultados,” en artículos publicados entre el 2005 y el 2011 en tres de las revistas más prestigiosas: American Economic Review, Quarterly Journal of Economics, y Journal of Political Economy. El artículo concluye que sí hay evidencia, pues documenta un exceso de resultados que son estadísticamente significativos “por poco” y un déficit de resultados que no llegan a la significancia estadística también “por poco.” Pero, y muy importante para el tema que nos ocupa, cuando el análisis se restringe a datos provenientes de experimentos aleatorios controlados, entonces la “pesca estadística” parece desaparecer. Es decir, que los registros de experimentos aleatorios han surgido para solucionar un problema donde no existe, y que quizás deberíamos plantearnos hacer un registro para análisis empíricos de datos que no provienen de experimentos. Pero claro está, tampoco debemos tirar las campanas al vuelo, pues no tenemos evidencia sobre la “pesca de resultados” en trabajos publicados en otras revistas.

¿Cuál es mi experiencia personal de momento? Éste es mi primer artículo que escribo habiendo escrito antes un pre-análisis plan (verlo aquí). El documento consta de 37 páginas, así que ya se imaginan que llevó su trabajo escribirlo. Creo que tener el plan de análisis escrito contribuyó a que acabásemos antes el artículo, y además me sentí cómodo siguiendo el plan. Pero a la hora de mandarlo a publicar, los revisores no lo mencionan en sus informes, salvo uno que ha malinterpretado una de las hipótesis que planteábamos. Así que, ya ven, todavía estoy pensando que hacer con el próximo experimento...

Hay 7 comentarios
  • Muy interesante el artículo.
    La parte que más me preocupa es la relativa a la investigación con datos secundarios, ya que es mi actividad principal. Me gustaría saber si hay algunas referencias básicas (para novatos si es posible) sobre pruebas de robustez que pudierais recomendarme.
    Gracias.

    • Hola José Luis,

      Muchas gracias, me haces una pregunta muy interesante. Con datos secundarios, el problema está en cómo garantizar que el investigador ha pensado/escrito las hipótesis antes de tener acceso a los datos. Quizás por ello, creo que el énfasis se ha puesto más en la replicabilidad de los resultados.

      Este artículo que me mando Antonio Cabrales el otro día, sugiere que tenemos un problema grave en economía con este tema. Y la página web del Berkeley Initiative for Transparency in the Social Sciences es muy interesante.

      Saludos,

      Marcos

      • Muchas gracias, Marcos
        Me parece muy interesante el enfoque de las referencias que me has indicado. Sobre todo el de este artículo:
        http://www.bitss.org/2015/06/30/emerging-researcher-perspectives-replication-as-a-credible-pre-analysis-plan/
        Por lo que puedo entender, cuando se habla de "replications" no sólo se están considerando los trabajos que repiten un análisis paso por paso (con los mismos datos, código, software, parámetros, etc.) , sino que también se habla de emprender estudios que pongan a prueba hipótesis y modelos de trabajos previos pero sobre datos en distintos momentos, lugares, ámbitos, etc. ¿Es así?

        • Aunque no soy un experto, yo diría que es cierto que no está muy acotado lo que entendemos por replicaciones. Unas tratan de replicar el estudio inicial de forma muy cercana, prestando especial atención a robustez en la definición de variables (muchas terminan descubriendo errores en la construcción de variables), definición de valores extremos, etc. Algunos llaman este tipo de replicación un replicación “pura”. Este artículo es una replicación "pura" de un artículo publicado en Econométrica. Otras replicaciones van más allá y estudian la robustez a cambios de la variable de resultado, modelo econométrico, etc. Este artículo es un ejemplo de este tipo de replicación, del mismo artículo publicado en Econométrica. Y luego, hay replicaciones que se encargan de repetir el mismo experimento pero con otros individuos, contextos, etc. Este artículo documenta un esfuerzo de replicar experimentos de psicología en distintos laboratorios. Es decir, que hay todo un rango de lo que se puede entender como replicación.

  • Creo que va siendo hora de que vayamos tomando conciencia de estos problemas. Por cierto, ¿esto es equivalente a lo que se denominaba data mining?

    • Hola Casius,

      Pues el artículo de Benjamin Olken utiliza precisamente el término de “data mining” cuando describe la “pesca” de resultado. Pero no sé si “data mining” sea en realidad más amplio, quizás no.

      Esta página también es muy interesante, incluye varias replicaciones que han sido financiadas por 3ie (international initiative for impact evaluation).

Los comentarios están cerrados.