¿Nos podemos fiar de la investigación económica?

Cada vez más a menudo los investigadores nos vemos envueltos o afectados por prácticas que tienen como objetivo asegurar o contrastar la fiabilidad de los resultados de nuestras investigaciones. La razón es que nuestra carrera profesional depende en gran medida de nuestra capacidad para publicar en revistas de prestigio. Y, como los economistas pasamos el día analizando cómo los incentivos afectan el comportamiento de los individuos, se nos hace bastante evidente que tenemos incentivos a obtener los resultados que maximicen la posibilidad de publicar en dichas revistas. El problema es que dichos resultados no tienen porqué coincidir siempre con aquellos resultados que querríamos obtener si nuestro objetivo fuese maximizar el conocimiento científico. En los casos en los que el resultado deseado no coincide con el que se genera automáticamente a través de los incentivos la solución más común es la intervención por parte de algún agente externo o regulador. Dicha intervención sirve para asegurar que ambos resultados coinciden y el campo de la investigación económica no es una excepción. A continuación os cuento tres anécdotas que ilustran cómo la vida profesional de cualquier investigador se ve regularmente afectada por este fenómeno.

  1. Cuando empecé a interesarme por la evidencia científica en torno a las ventajas del bilingüismo (ver mi post sobre el tema aquí) me resultó muy curioso ver que a lo largo del tiempo se habían generado fuertes consensos entre los académicos, pero que dichos consensos apuntaban en direcciones diametralmente opuestas. En particular, la literatura sobre cómo el bilingüismo modifica el cerebro comenzó con una visión negativa generalizada que sostenía que hablar dos o más idiomas causaba confusión (ver un resumen de la literatura aquí). Esta perspectiva fue puesta en discusión por primera vez en 1962, cuando Peal and Lambert publicaron un estudio en el que los individuos bilingües obtenían mejores resultados que los monolingües en una serie de tests cognitivos. Desde entonces, un número creciente de estudios han aportado todo tipo de evidencia a favor de esta visión optimista del bilingüismo. Esta acumulación de evidencia ha hecho que la mayoría de investigadores hayan descartado la primera hipótesis a favor de la segunda. Tanto es así que recientemente se han encontrado indicios de un importante sesgo de publicación. El sesgo de publicación se refiere al hecho de que los estudios que avalan la teoría dominante tienden a ser más aceptados para su publicación en revistas de prestigio, lo que incrementa su repercusión. Dicho sesgo crea efectos perversos en los incentivos de los investigadores, cuyo prestigio profesional depende del número de publicaciones y la calidad de las revistas donde publicamos. En este caso, Bruin, Treccani y Della Sala (2015) estudian el sesgo de publicación analizando datos sobre el destino de los artículos presentados en conferencias celebradas entre 1999 y 2012. Concluyen que aquellos artículos que encuentran una significativa ventaja cognitiva de los bilingües encuentran más fácilmente el camino a la publicación en revistas de prestigio. Esta diferencia no se debe a diferencias en el tamaño de la muestra, el tipo de test utilizado, ni en la precisión estadística.
  2. Recientemente he evaluado un artículo para la revista Health Economics (ver detalles sobre el proceso de publicación aquí). Me sorprendió que junto al artículo que debía evaluar, la revista me enviaba un link a lo que ellos llaman su política sobre “resultados negativos”. En ella especifican que los estudios que cumplen con sus estándares en términos de relevancia del tema investigado y calidad del método empírico utilizado merecen ser publicados independientemente del hecho que rechacen o no rechacen la hipótesis planteada. Es decir, que si un estudio sobre el impacto de la universalización de la sanidad en la probabilidad de supervivencia de los bebés prematuros (por citar un tema de actualidad, ver aquí) concluye que dada la información disponible no es posible determinar si hay un impacto y que por tanto existe la posibilidad de que este sea nulo, merece ser publicado. Con esto la revista pretende desincentivar dos tipos de comportamientos que van contra el avance científico: que los autores de estudios meritorios se abstengan de mandarlos a la revista por obtener "resultados negativos" o, aún más grave, que los investigadores se dediquen a seleccionar los datos (“data mining”) o los modelos empíricos utilizados (“specification searching”) para obtener resultados “positivos”. Estas últimas dos prácticas también reciben el nombre de “data fishing” (“pescar datos”), “data snooping” (“fisgar en los datos”) o “p-hacking” (en referencia al p-valor que indica la significatividad estadística de los resultados). En un reciente artículo publicado en the Economic Journal, los investigadores Ioannidis, Stanley y Doucouliagos analizan 156 áreas de investigación empírica en el campo de la Economía que incluyen 64,076 estimaciones reflejadas en más de 6,700 estudios. En la mitad de las áreas de investigación se da que el 90% de sus resultados no cuentan con suficiente poder estadístico. Además, entre aquellos resultados que sí tienen suficiente poder estadístico, alrededor del 80% de los efectos estimados se han exagerado, llegando a multiplicarse por cuatro o incluso más. Los citados autores llevan décadas analizando diferentes literaturas y encontrando evidencia de sesgo de publicación en muchas de ellas, incluyendo: la literatura sobre el rol de los sindicatos en el mercado de trabajo, el impacto de los gastos en sanidad sobre la salud y el impacto del salario mínimo en el empleo. Hasta llegar a publicar su artículo en the Economic Journal los autores declaran haber tenido que superar muchos obstáculos y el rechazo de parte de la comunidad científica (ver aquí).
  3. En estos días estoy preparándome para registrar un experimento en el American Economic Association Registry for Randomized Controlled Trials (ver aquí), una base de datos donde cada día se registran experimentos realizados o a realizar en el campo de la Economía. Esta práctica estaba ya muy extendida en campos como la medicina pero es relativamente nueva para los economistas. Recientemente los gestores del registro han anunciado que la base cuenta ya con más de 1000 experimentos registrados en más de 100 países. En esta ocasión se trata de la evaluación de un campamento de verano de matemáticas que realizaré este año junto con Flavia Coda Moscarola. En el registro deberemos indicar cuantos estudiantes reclutaremos para el estudio, qué variables usaremos para medir los resultados, qué subgrupos analizaremos, etc. Una vez realizado el experimento, deberemos justificar cualquier desviación respecto a este plan original.

Estos tres episodios que acabo de relatar reflejan tres de las formas que tiene la profesión de investigador para auto-regularse: primero, la vigilancia impuesta por otros investigadores, ya sea replicando estudios precedentes o realizado tareas de meta-análisis de los estudios publicados en una cierta literatura. En segundo lugar, las directrices de las revistas, que cada vez más se ocupan de la credibilidad de la investigación publicada y por ello cada vez más revistas requieren los datos utilizados, el código de programación, etc. Tercero, el registro previo de los estudios a realizar, de modo que no se pueda alterar los datos recogidos o la metodología para obtener resultados más “publicables”. Si vemos el vaso medio vacío, estas prácticas se han demostrado necesarias después de que investigadores como Ioannidis, Stanley and Doucouliagos hayan dedicado muchos trabajos a demostrar que problemas como el "sesgo de publicación" afectan a cuestiones muy relevantes. Por otro lado, podemos ver el vaso medio lleno si consideramos que nuestra disciplina ha reaccionado y se está produciendo lo que Esther Duflo (profesora de MIT y editora de American Economic Review) llama una "revolución de credibilidad".

 

Hay 11 comentarios
  • No creo que la pregunta relevante es si nos podemos fiar de la investigación económica, si no ¿para qué sirve la investigación económica?.

    El problema de incentivos es mucho más grave: los investigadores económicos tienen cero "skin in the game" (a diferencia por ejemplo de los que trabajan para compañías biotecnológicas).

    Cuando tu objetivo, es que te valoren bien otros "colegas" la tendencia a la sofisticación inútil está servida.

    ¿cual ha sido la utilidad práctica de la investigación económica en los últimos 50 años? ¿qué productos o servicios se han desarrollado a partir de ella?. ¿está al nivel de los que ha conseguido internet, o la IA o la robotización o la biotecnología o la medicina?

    ¿cuales son los negocios que se han montado a partir de la investigación económica básica? ¿cual es su capitalización?

    Y creo que no sirve ni siquiera refugiarse en la política económica: ¿no es Peter Navarro un investigador?, la(s) intervenciones del FMI en Argentina ¿pueden considerarse un éxito?, ¿de qué sirvió la investigación económica para prevenir la crisis del 2008?

    Con pocos resultados prácticos que mostrar uno acaba teniendo que darle la razón a Warren Buffett cuando afirma: "Si tienes un economista en tu empresa, tienes un economista más de los que necesitas" o Taleb cuando dice: "Academia has a tendency, from lack of skin in the game, to evolve into a ritualistic self-referencial publishing game"

    ¿No hemos pasado ya ese punto en la investigación económica?

    • Hola Jose Pablo,
      gracias por plantear un debate que, aunque se sale del tema del post, también me parece muy interesante (quizá lo es más que el tema de mi post :-)). Creo que pones el listón muy alto si pretendes que la investigación económica dé beneficios al nivel de los que proporciona internet o los ultimos avances en medicina o robótica :-). En serio, creo que uno de los potenciales beneficios de la investigación económica es informar al sector público, colaborando al desarrollo de políticas económicas (y no) con base "científica". Por desgracia, los economistas rigorosos no tienen mucha voz en los organismos públicos en la mayoría de países.

      • Hola Ainhoa,

        Disculpa el cambio de tema (la verdad es que sí creo que es más interesante ... salvo que tenga razón Taleb y de verdad este todo ya perdido).

        No es por insistir en el desvio pero lo de las políticas públicas que mencionas no lo tengo tan claro: la referencia a Peter Navarro que citaba como ejemplo. Tal vez a nivel muy micro algúna política concreta pero a nivel macro ...

        Hoy mismo leia sobre la reunión entre Bernanke, Paulson y Bush justo antes del rescate de AIG. La idea del artículo era que el paquete "agresivo" (y seguramente efectivo) de rescate fue posible porque el político responsable era un "lame duck" que no se jugaba nada asumiendo la responsabilidad política. Si hubiera tenido opción de resultar reelegido no la hubiera impulsado, con independencia del "cientifismo económico" de la medida.

        Los contrafactuales siempre son delicados pero la tesis es definitivamente creible. Si los políticos son la correa de transmisión que hace útil la investigación económica mal vamos ... La verdad es que es mucho más fácil identificar en la realidad, el "ritualistic self-referencial publishing game" que cita Taleb

    • Bueno José, supongo que investigas para ampliar tus herramientas de análisis, no por un beneficio además esto tiene que ver con lo apasionante que es saber sobre la economía, tampoco implica que porque no consigas nada signifique que no lograste nada los límites en la ciencia son puntos de partida sin un interés monetario en particular, al final lo haces para aprender más.

      • Rubén, si saber de economía fuera "apasionante", el Camp Nou se llenaría hasta la bandera para ver a Mankiw y a Krugman discutir con sus pizarras y sus fórmulas. Se puede afirmar, con poco riesgo, que las probabilidades de que eso suceda son nulas. Si comparas el número de visitas de esta página con las del Marca o los usuarios de Tinder tendrás una idea más precisa de lo que sí es "apasionante".

        Hay algo de circular (casi diría de onanista) en "investigar para ampliar herramientas de análisis de la investigación y así aprender más".

        Está, además, el dedicado tema del acceso a recursos públicos. A las actividades consumidoras de recursos públicos se les debe, definitivamente, pedir una utilidad práctica (más allá de "divertirnos", que para eso ya está el Congreso). Me parece que existen sospechas razonables de que ese sea el caso en el ámbito que discutimos ¿no?

    • Irrefutable. Otro ejemplo: la historia. Para qué sirve el estudio de la historia (porque para algo ha de "servir", sobre todo si se financia con fondos públicos). Qué empresa ha aprovechado los insights de lo que sabemos de la revolución industrial para construir su ventaja competitiva? Si la historia sirviera para algo, los debates entre Joel Mokyr y Robert Allen deberían tener más audiencia que First Dates... Eso es así. Además, como van a estar los historiadores a tope con el "skin of the game" (a Taleb deberían darle en nobel incierto, o nobel de la incertidumbre, o algo así nuevo que reconozca sus aportaciones inciertas) si el "game" del que hablan ha desaparecido de la faz de la tierra. La enseñanza de la historia, otro ejemplo más de estatismo suicida que desbroza el camino de servidumbre que nos lleva a Venezuela

      • Sí, creo que subscribo tu conclusión de que los economistas deberían tener el mismo papel que los historiadores en los gabinetes ministeriales y los organismos internacionales

        • Me alegro mucho que coincidamos. Y un corolario, a ver qué te parece: no sólo no debería haber historiadores ni economistas en gabinetes ministeriales u organismos internacionales; estas dos disciplinas deberían desaparecer efectivamente de nuestra civilización.

  • Magnífico artículo. No recuerdo otro post en el blog tan contundente a la hora de exponer los sesgos sistemáticos y los defectos de la ciencia económica, que comparte con muchas otras ciencias, por supuesto. Lo más habitual en el blog, en mi opiníón, son perspectivas que ven el vaso mucho más que medio lleno y que afirman contundentemente que cualquier perspectiva heterodoxa que siga a rajatabla el método científico y aporte evidencia será reconocida por la comunidad científica sin demasiados problemas (y siempre usando el ejemplo de behavioral economics para ilustrar este punto. Se agradecaria máyor diversidad). Para emprender una "revolución de la credibilidad" hay que reconocer primero que la situación actual tiene problemas gravísimos, como demuestra la evidencia recogida en este post.

  • Hola Ainhoa, aparentemente también hay diferencias en 'p-hacking' dependiendo del método usado:

    The economics ‘credibility revolution’ has promoted the identification of causal relationships using difference-in-differences (DID), instrumental variables (IV), randomized control trials (RCT) and regression discontinuity design (RDD) methods. The extent to which a reader should trust claims about the statistical significance of results proves very sensitive to method. Applying multiple methods to 13,440 hypothesis tests reported in 25 top economics journals in 2015, we show that selective publication and p-hacking is a substantial problem in research employing DID and (in particular) IV. RCT and RDD are much less problematic. Almost 25% of claims of marginally significant results in IV papers are misleading.

    http://ftp.iza.org/dp11796.pdf

    • ¡Interesante! Sinceramente habría apostado que era al contrario dado que típicamente los estudios con RCT o RDD tienen menos observaciones y por tanto presentan mayor dificultad para obtener resultados significativos. Quizá se explica por selección de los investigadores en el uso de estos métodos :-).

Los comentarios están cerrados.