Nada es Gratis » ¿Nos podemos fiar de los economistas?

Con mayor o menor fortuna, los economistas académicos intentamos contribuir a la sociedad analizando la situación económica, evaluando las políticas públicas y proponiendo medidas basadas en la “evidencia empírica”. Sin embargo, muchos lectores se preguntarán, legítimamente, hasta que punto se deberían fiar de los economistas y de nuestra “evidencia empírica”. Y no son los únicos. Como Edward Leamer observó hace casi treinta años en un artículo que se ha convertido en un clásico, “(c)asi nadie se toma el análisis de los datos en serio. O, para ser más precisos, casi nadie se toma en serio los análisis de los demás.”

Más allá de los conocidos problemas metodológicos que han sido discutidos muchas veces en este blog, existe un problema quizás más básico: ¿cómo sabemos que un economista no ha manipulado los resultados? Periódicamente saltan a la luz casos de fraude académico. Por ejemplo, hace unos años se supo que el profesor alemán Hans Werner Gottinger, con más de 120 publicaciones en su haber, plagiaba el contenido teórico de sus artículos y se inventaba la parte empírica. (Para mayor esperpento, en el trascurso de la investigación iniciada por la revista Research Policy también se descubrió que uno de estos artículos había sido a su vez plagiado por un tercer autor.) Más recientemente, varias revistas han decidido retirar los artículos publicados por Ulrich Lichtenthaler, uno de los economistas más prolíficos de Alemania en el área de Economía de la Empresa. Aparentemente, además de autoplagiarse repetidamente, sus artículos contenían errores matemáticos e inconsistencias metodológicas, incluyendo una falsa significatividad estadística de los principales resultados.

¿Se trata de casos puntuales que el buen funcionamiento del sistema ha sabido detectar y depurar o, por el contrario, estaríamos viendo únicamente la punta del iceberg? Dos recientes artículos examinan la importancia del problema del fraude académico utilizando perspectivas muy diferentes. Lars Feld, Sarah Necker y Bruno Frey han realizado una encuesta anónima entre los economistas asistentes a la conferencia anual de la European Economic Association donde directamente preguntan si se ha incurrido en algún tipo de comportamiento poco ético o si lo han observado en su entorno. Algunos economistas quizás sean tramposos, pero no se les puede acusar de falta de sinceridad. Un 3% de los encuestados confiesa haber falseado los datos originales en alguna ocasión. Un número muy superior, el 36%, admite haberlos “masajeado”. Es decir, reconoce haber escogido de forma arbitraria las variables de control para así poder obtener resultados estadísticamente significativos (“si torturas los datos lo suficiente acabaran confesando”, que decía Coase). También hay un 32% que admite que en sus artículos presenta únicamente los resultados que favorecen su tesis y un 21% que no cita los artículos que pudieran contradecirle. Irónicamente, al poco tiempo de realizarse esta encuesta, uno de sus autores, Bruno Frey, quizás el economista suizo de mayor fama, se vió envuelto en un sonado escándalo de autoplagio compulsivo, que provocó que la universidad de Zurich decidiera no renovar su contrato.

El estudio realizado por Abel Brodeur, Mathias Lé, Marc Sangnier y Yanos Zylberberg, titulado "Star Wars: the Empirics Strike Back", emplea una estrategia empírica diferente para intentar averiguar si los economistas manipulan sus resultados. En lugar de preguntar a los economistas, los autores examinan la distribución estadística del grado de significatividad de sus resultados. En los artículos académicos, por convención, se suele señalar el grado de significatividad estadística utilizando estrellas (* significativo al 10%, ** significativo al 5% y *** significativo al 1%). Un autor que inicialmente observa que su hipótesis principal no es significativa a estos niveles estándar podría caer en la tentación de “torturar” los datos hasta alcanzar el número de estrellas deseado. Si esto fuera un fenómeno muy extendido, habría relativamente más artículos con coeficientes marginalmente significativos que artículos con coeficientes claramente significativos o marginalmente no significativos. Los autores contrastan esta hipótesis utilizando datos de todos los artículos publicados entre 2005 y 2011 en tres de las principales revistas de Economía (QJE, AER, JPE). Como se observa en la siguiente gráfica, la distribución tiene forma de dromedario. Al comparar estos datos con una serie de posibles distribuciones contrafactuales, los autores concluyen que el número de artículos con resultados marginalmente significativos al 5% es excesivo y faltarían coeficientes entre el 10% y el 25%. Según sus cálculos, en al menos un 10-20% de los casos se habrían inflado los resultados para lograr alcanzar un grado de significatividad estándar.

Es posible que el comportamiento poco ejemplar de algunos economistas se vea favorecido por la escasez de replicaciones de los artículos empíricos, quizás una de las grandes asignaturas pendientes de nuestra disciplina. Como dice Daniel Hamermesh, “los economistas tratamos el tema de la replicación del mismo modo que los adolescentes tratan el tema de la castidad: un ideal que debe ser profesado, pero no practicado”. En nuestra profesión los incentivos a la replicación son muy escasos. Un artículo que corrobore un resultado ya conocido difícilmente será publicado. Afortunadamente, los costes de replicación han disminuido enormemente en los últimos años gracias a la política de las principales revistas de exigir a los autores la difusión pública de los datos y los programas utilizados (ver, por ejemplo, AER, Restud o QJE). Hoy en día, legiones de estudiantes de doctorado completan su formación examinando en detalle los artículos publicados en estas revistas, para embarazo de muchos autores. Economistas del prestigio de Caroline Hoxby, Steven Levitt o Daron Acemoglu han visto como se cuestionada la credibilidad de sus resultados. Confiemos en que el resto de revistas académicas adopten pronto esta práctica.

Un problema más amplio es la validez de un determinado resultado en otro contexto. El coste de una replicación de este tipo puede ser muy elevado, especialmente en el caso de los experimentos de campo. En este ámbito debemos dar la bienvenida a iniciativas como la “International Initiative for Impact Evaluation (3ie)”, financiada por la Bill and Melinda Gates Foundation (BMGF) y diversas agencias estatales de una decena de países. 3ie proporciona fondos para la realización de replicaciones de los estudios científicos más relevantes en el área de la economía del desarrollo. La lista de 20 artículos a replicar ha sido elaborada por un grupo de expertos e incluye algunos de los más brillantes e influyentes artículos de los últimos años.

Esperemos que estas iniciativas sean el principio de una nueva forma de hacer economía aplicada. Si queremos contar con la confianza de la sociedad es imprescindible que mejoremos nuestros estándares de calidad y de control. Mientras tanto, aunque es probable que la mayoría de los economistas sean honestos en sus análisis, quizás no debería sorprendernos que la sociedad se tome con cierta cautela la pretendida seguridad y precisión con la que en ocasiones presentamos nuestros resultados empíricos.