Por Joan Llull

En los últimos años, la comunidad científica, y en particular las revistas de investigación en economía, están viviendo una emocionante revolución en todo lo referido a la transparencia de la investigación científica. Las agencias que financian investigación, tanto públicas como privadas, están exigiendo cada vez más que las publicaciones resultantes sean abiertas, y que los datos utilizados sean públicos (salvo cuando incluyan información personal). En el mundo de la economía, la mayoría de las revistas científicas más prestigiosas están adoptando políticas que no solo requieren que los autores compartan los datos utilizados en sus investigaciones, sino también los códigos informáticos que generaron los resultados. Esto es un gran avance, ya que permite a otros investigadores verificar y replicar los resultados.
En los últimos años, algunas de las revistas de mayor renombre, como las de la American Economic Association, de la Econometric Society, de la Royal Economic Society y la Review of Economic Studies entre otras, han ido un paso más allá al incorporar una figura muy interesante: el Editor de Datos. El Editor de Datos, junto con un equipo de replicadores, se encarga de verificar que los datos y códigos incluidos en lo que en inglés se llama "replication package" sean capaces de reproducir todos los resultados que se presentan en el artículo y sus apéndices. ¿Por qué es esto importante? Resulta que más del 60% de los replication packages publicados sin una revisión adecuada contienen errores que impiden ejecutar los códigos y obtener los resultados publicados, o incluso producen resultados diferentes. En general, estos errores son honestos y las discrepancias son pequeñas, pero eso no cambia el hecho de que puedan tener un impacto negativo en el progreso científico, al dificultar que otros investigadores puedan comprobar la validez de los resultados en otros contextos, otros datos, o bajo supuestos diferentes.
Personalmente, he tenido el privilegio de contribuir activamente a esta revolución. Fui el primer Editor de Datos de las revistas de la Royal Economic Society hasta el pasado julio, y desde entonces, el primero para las revistas Econometric Society. Dicha posición a menudo presenta sus propios desafíos, al tener que lidiar con una infinidad de peculiaridades de cada replication package que a veces provocan dilemas interesantes. En este post os voy a hablar del que hasta ahora ha sido mi favorito. Hace un tiempo, un economista respetado se acercó a Miklós Koren (Editor de Datos de la Review of Economic Studies) y a mí con un dilema interesante. Él trabaja con datos de archivos históricos que siempre son costosos de digitalizar y limpiar. Su pregunta fue más o menos la siguiente: "Tengo un artículo que sería perfecto para la revista A. Sin embargo, he invertido mucho tiempo y recursos en generar estos datos, y si publico mi artículo en esta revista tendré que compartir los datos originales antes de poder realizar otras investigaciones con ellos. Si lo hago, no habré amortizado la inversión. Por lo tanto, he decidido enviar mi artículo a la revista B, que no me exige publicar los datos originales".
Esta pregunta nos hizo pensar y nos dimos cuenta de que era un dilema legítimo que nuestra profesión debía abordar. Para fomentar el debate, organizamos una interesante discusión durante la reunión anual de la European Economic Association y la Econometric Society en Barcelona el pasado agosto. El debate contó con la participación de destacados economistas, como Guido Imbens, Premio Nobel de Economía y Editor de Econometrica; Marie Connolly, Editora de Datos del Canadian Journal of Economics; Sule Alan, una economista con amplia experiencia en la recopilación de datos primarios en países en desarrollo; y José García Montalvo, un economista que ha trabajado con datos históricos y microdatos confidenciales de empresas españolas. Fue un debate fascinante, y pronto estará disponible para su visualización.
En este debate se abordaron puntos interesantes y se extrajeron conclusiones valiosas. Todos los ponentes (y la mayoría de la profesión, en mi opinión) coincidieron en que los avances recientes en términos de transparencia son esenciales y bienvenidos. Parece que la profesión económica está comprometida con la idea de que la investigación debe ser transparente y reproducible, y no hay vuelta atrás en esta tendencia.
También se reconoció la posibilidad de que algunos autores puedan tomar decisiones estratégicas ante la obligación de compartir datos al mismo tiempo que publican sus artículos, como el autor citado anteriormente. Algunos autores podrían retrasar la publicación de sus investigaciones hasta que tengan la capacidad de aprovechar al máximo los datos que han recopilado. Dado que los economistas a menudo tardamos mucho tiempo en publicar nuestras investigaciones, esto plantea preocupaciones legítimas. La posibilidad que algunos estudios no se lleven a cabo parece más remota.
Sin embargo, el aspecto más intenso y controvertido del debate se centró en cómo abordar esta posible reacción estratégica de los autores. Algunos argumentaron que que las revistas no deberían relajar sus políticas en este sentido. Me pareció muy interesante el uso de un ejemplo concreto para resaltar las bondades de publicar los datos. Ese ejemplo fue el de un famoso artículo de David Card y Alan Kruger publicado en la American Economic Review en 1994. En ese artículo, los autores hicieron una recolección de datos propia que pusieron a disposición de los investigadores para que pudieran hacer sus investigaciones con ellos. En parte gracias a ello, el artículo se convirtió en uno de los trabajos más conocidos en la profesión y fue uno de los principales responsables de que David Card recibiera el Premio Nobel de Economía años más tarde. Sin lugar a dudas, publicar los datos y códigos de la investigación tiene un efecto positivo sobre el impacto de la misma.
Los defensores de la necesidad de actuar ante esa posible reacción estratégica de los autores abogaron por la posibilidad de retrasar la publicación de los datos un tiempo. Esta posibilidad es técnicamente factible. Las revistas pueden exigir publicación inmediata (es complicado perseguir a los autores cuando los artículos ya están publicados) pero con un período de embargo en el que los datos no sean accesibles para el público. La mayoría de los repositorios permiten esta opción. Sin embargo, esta posibilidad presenta también una serie de inconvenientes que deberían solucionarse antes. ¿Quién tiene la discreción de determinar que replication packages están sujetos a embargo y cuales no, así como la duración? No está claro que el editor de la revista tenga suficiente información como para poder tomar la decisión óptima en todos los casos. Además, esta posibilidad podría generar incentivos a los autores a intentar conseguir el embargo incluso cuando no está justificado. ¿Es el momento de la publicación un momento efectivo para actuar? Aunque los autores pueden internalizar las políticas de las revistas al respecto, en el momento de la publicación, el esfuerzo de recolectar los datos ya se ha hecho, así como la decisión de enviar el artículo a una revista. Por lo tanto, es poco probable que el efecto sobre las decisiones de los autores sea grande. ¿A quién beneficiaría un embargo? Un embargo en la publicación de los datos podría tener un beneficio social si consigue que se publiquen artículos que no se publicarían de otra manera, o que no se retrase la publicación de dichos artículos. Sin embargo, también tendría un efecto negativo sobre aquellos investigadores que bien por estar en el principio de sus carreras o bien por estar en instituciones con menos recursos no tienen los medios para embarcarse en procesos costosos de recolección de datos. En ese sentido, la publicación de los datos tiene también un componente de bien público, y cierto aspecto redistributivo que la hace aún más interesante.
En todo caso, resulta evidente que todos los argumentos expuestos tienen su peso, y no está clara cuál es la mejor manera de proceder. Quizás sería útil tener más evidencia empírica acerca de los pros y contras, pero esa evidencia no es trivial de conseguir. Mi sensación es que la profesión estará mejor si los datos se publican inmediatamente, aunque también entiendo y respeto los argumentos en el sentido contrario. En cualquier caso, creo que la profesión debería seguir debatiendo sobre ello. Por tanto, el debate sigue abierto, ¿qué piensas tú?