Nada es Gratis » ¿Nos podemos fiar de la investigación económica?

Cada vez más a menudo los investigadores nos vemos envueltos o afectados por prácticas que tienen como objetivo asegurar o contrastar la fiabilidad de los resultados de nuestras investigaciones. La razón es que nuestra carrera profesional depende en gran medida de nuestra capacidad para publicar en revistas de prestigio. Y, como los economistas pasamos el día analizando cómo los incentivos afectan el comportamiento de los individuos, se nos hace bastante evidente que tenemos incentivos a obtener los resultados que maximicen la posibilidad de publicar en dichas revistas. El problema es que dichos resultados no tienen porqué coincidir siempre con aquellos resultados que querríamos obtener si nuestro objetivo fuese maximizar el conocimiento científico. En los casos en los que el resultado deseado no coincide con el que se genera automáticamente a través de los incentivos la solución más común es la intervención por parte de algún agente externo o regulador. Dicha intervención sirve para asegurar que ambos resultados coinciden y el campo de la investigación económica no es una excepción. A continuación os cuento tres anécdotas que ilustran cómo la vida profesional de cualquier investigador se ve regularmente afectada por este fenómeno.

Cuando empecé a interesarme por la evidencia científica en torno a las ventajas del bilingüismo (ver mi post sobre el tema aquí) me resultó muy curioso ver que a lo largo del tiempo se habían generado fuertes consensos entre los académicos, pero que dichos consensos apuntaban en direcciones diametralmente opuestas. En particular, la literatura sobre cómo el bilingüismo modifica el cerebro comenzó con una visión negativa generalizada que sostenía que hablar dos o más idiomas causaba confusión (ver un resumen de la literatura aquí). Esta perspectiva fue puesta en discusión por primera vez en 1962, cuando Peal and Lambert publicaron un estudio en el que los individuos bilingües obtenían mejores resultados que los monolingües en una serie de tests cognitivos. Desde entonces, un número creciente de estudios han aportado todo tipo de evidencia a favor de esta visión optimista del bilingüismo. Esta acumulación de evidencia ha hecho que la mayoría de investigadores hayan descartado la primera hipótesis a favor de la segunda. Tanto es así que recientemente se han encontrado indicios de un importante sesgo de publicación. El sesgo de publicación se refiere al hecho de que los estudios que avalan la teoría dominante tienden a ser más aceptados para su publicación en revistas de prestigio, lo que incrementa su repercusión. Dicho sesgo crea efectos perversos en los incentivos de los investigadores, cuyo prestigio profesional depende del número de publicaciones y la calidad de las revistas donde publicamos. En este caso, Bruin, Treccani y Della Sala (2015) estudian el sesgo de publicación analizando datos sobre el destino de los artículos presentados en conferencias celebradas entre 1999 y 2012. Concluyen que aquellos artículos que encuentran una significativa ventaja cognitiva de los bilingües encuentran más fácilmente el camino a la publicación en revistas de prestigio. Esta diferencia no se debe a diferencias en el tamaño de la muestra, el tipo de test utilizado, ni en la precisión estadística.
Recientemente he evaluado un artículo para la revista Health Economics (ver detalles sobre el proceso de publicación aquí). Me sorprendió que junto al artículo que debía evaluar, la revista me enviaba un link a lo que ellos llaman su política sobre “resultados negativos”. En ella especifican que los estudios que cumplen con sus estándares en términos de relevancia del tema investigado y calidad del método empírico utilizado merecen ser publicados independientemente del hecho que rechacen o no rechacen la hipótesis planteada. Es decir, que si un estudio sobre el impacto de la universalización de la sanidad en la probabilidad de supervivencia de los bebés prematuros (por citar un tema de actualidad, ver aquí) concluye que dada la información disponible no es posible determinar si hay un impacto y que por tanto existe la posibilidad de que este sea nulo, merece ser publicado. Con esto la revista pretende desincentivar dos tipos de comportamientos que van contra el avance científico: que los autores de estudios meritorios se abstengan de mandarlos a la revista por obtener "resultados negativos" o, aún más grave, que los investigadores se dediquen a seleccionar los datos (“data mining”) o los modelos empíricos utilizados (“specification searching”) para obtener resultados “positivos”. Estas últimas dos prácticas también reciben el nombre de “data fishing” (“pescar datos”), “data snooping” (“fisgar en los datos”) o “p-hacking” (en referencia al p-valor que indica la significatividad estadística de los resultados). En un reciente artículo publicado en the Economic Journal, los investigadores Ioannidis, Stanley y Doucouliagos analizan 156 áreas de investigación empírica en el campo de la Economía que incluyen 64,076 estimaciones reflejadas en más de 6,700 estudios. En la mitad de las áreas de investigación se da que el 90% de sus resultados no cuentan con suficiente poder estadístico. Además, entre aquellos resultados que sí tienen suficiente poder estadístico, alrededor del 80% de los efectos estimados se han exagerado, llegando a multiplicarse por cuatro o incluso más. Los citados autores llevan décadas analizando diferentes literaturas y encontrando evidencia de sesgo de publicación en muchas de ellas, incluyendo: la literatura sobre el rol de los sindicatos en el mercado de trabajo, el impacto de los gastos en sanidad sobre la salud y el impacto del salario mínimo en el empleo. Hasta llegar a publicar su artículo en the Economic Journal los autores declaran haber tenido que superar muchos obstáculos y el rechazo de parte de la comunidad científica (ver aquí).
En estos días estoy preparándome para registrar un experimento en el American Economic Association Registry for Randomized Controlled Trials (ver aquí), una base de datos donde cada día se registran experimentos realizados o a realizar en el campo de la Economía. Esta práctica estaba ya muy extendida en campos como la medicina pero es relativamente nueva para los economistas. Recientemente los gestores del registro han anunciado que la base cuenta ya con más de 1000 experimentos registrados en más de 100 países. En esta ocasión se trata de la evaluación de un campamento de verano de matemáticas que realizaré este año junto con Flavia Coda Moscarola. En el registro deberemos indicar cuantos estudiantes reclutaremos para el estudio, qué variables usaremos para medir los resultados, qué subgrupos analizaremos, etc. Una vez realizado el experimento, deberemos justificar cualquier desviación respecto a este plan original.

Estos tres episodios que acabo de relatar reflejan tres de las formas que tiene la profesión de investigador para auto-regularse: primero, la vigilancia impuesta por otros investigadores, ya sea replicando estudios precedentes o realizado tareas de meta-análisis de los estudios publicados en una cierta literatura. En segundo lugar, las directrices de las revistas, que cada vez más se ocupan de la credibilidad de la investigación publicada y por ello cada vez más revistas requieren los datos utilizados, el código de programación, etc. Tercero, el registro previo de los estudios a realizar, de modo que no se pueda alterar los datos recogidos o la metodología para obtener resultados más “publicables”. Si vemos el vaso medio vacío, estas prácticas se han demostrado necesarias después de que investigadores como Ioannidis, Stanley and Doucouliagos hayan dedicado muchos trabajos a demostrar que problemas como el "sesgo de publicación" afectan a cuestiones muy relevantes. Por otro lado, podemos ver el vaso medio lleno si consideramos que nuestra disciplina ha reaccionado y se está produciendo lo que Esther Duflo (profesora de MIT y editora de American Economic Review) llama una "revolución de credibilidad".