Por Joan Llull
En los últimos años, la comunidad científica, y en particular las revistas de investigación en economía, están viviendo una emocionante revolución en todo lo referido a la transparencia de la investigación científica. Las agencias que financian investigación, tanto públicas como privadas, están exigiendo cada vez más que las publicaciones resultantes sean abiertas, y que los datos utilizados sean públicos (salvo cuando incluyan información personal). En el mundo de la economía, la mayoría de las revistas científicas más prestigiosas están adoptando políticas que no solo requieren que los autores compartan los datos utilizados en sus investigaciones, sino también los códigos informáticos que generaron los resultados. Esto es un gran avance, ya que permite a otros investigadores verificar y replicar los resultados.
En los últimos años, algunas de las revistas de mayor renombre, como las de la American Economic Association, de la Econometric Society, de la Royal Economic Society y la Review of Economic Studies entre otras, han ido un paso más allá al incorporar una figura muy interesante: el Editor de Datos. El Editor de Datos, junto con un equipo de replicadores, se encarga de verificar que los datos y códigos incluidos en lo que en inglés se llama "replication package" sean capaces de reproducir todos los resultados que se presentan en el artículo y sus apéndices. ¿Por qué es esto importante? Resulta que más del 60% de los replication packages publicados sin una revisión adecuada contienen errores que impiden ejecutar los códigos y obtener los resultados publicados, o incluso producen resultados diferentes. En general, estos errores son honestos y las discrepancias son pequeñas, pero eso no cambia el hecho de que puedan tener un impacto negativo en el progreso científico, al dificultar que otros investigadores puedan comprobar la validez de los resultados en otros contextos, otros datos, o bajo supuestos diferentes.
Personalmente, he tenido el privilegio de contribuir activamente a esta revolución. Fui el primer Editor de Datos de las revistas de la Royal Economic Society hasta el pasado julio, y desde entonces, el primero para las revistas Econometric Society. Dicha posición a menudo presenta sus propios desafíos, al tener que lidiar con una infinidad de peculiaridades de cada replication package que a veces provocan dilemas interesantes. En este post os voy a hablar del que hasta ahora ha sido mi favorito. Hace un tiempo, un economista respetado se acercó a Miklós Koren (Editor de Datos de la Review of Economic Studies) y a mí con un dilema interesante. Él trabaja con datos de archivos históricos que siempre son costosos de digitalizar y limpiar. Su pregunta fue más o menos la siguiente: "Tengo un artículo que sería perfecto para la revista A. Sin embargo, he invertido mucho tiempo y recursos en generar estos datos, y si publico mi artículo en esta revista tendré que compartir los datos originales antes de poder realizar otras investigaciones con ellos. Si lo hago, no habré amortizado la inversión. Por lo tanto, he decidido enviar mi artículo a la revista B, que no me exige publicar los datos originales".
Esta pregunta nos hizo pensar y nos dimos cuenta de que era un dilema legítimo que nuestra profesión debía abordar. Para fomentar el debate, organizamos una interesante discusión durante la reunión anual de la European Economic Association y la Econometric Society en Barcelona el pasado agosto. El debate contó con la participación de destacados economistas, como Guido Imbens, Premio Nobel de Economía y Editor de Econometrica; Marie Connolly, Editora de Datos del Canadian Journal of Economics; Sule Alan, una economista con amplia experiencia en la recopilación de datos primarios en países en desarrollo; y José García Montalvo, un economista que ha trabajado con datos históricos y microdatos confidenciales de empresas españolas. Fue un debate fascinante, y pronto estará disponible para su visualización.
En este debate se abordaron puntos interesantes y se extrajeron conclusiones valiosas. Todos los ponentes (y la mayoría de la profesión, en mi opinión) coincidieron en que los avances recientes en términos de transparencia son esenciales y bienvenidos. Parece que la profesión económica está comprometida con la idea de que la investigación debe ser transparente y reproducible, y no hay vuelta atrás en esta tendencia.
También se reconoció la posibilidad de que algunos autores puedan tomar decisiones estratégicas ante la obligación de compartir datos al mismo tiempo que publican sus artículos, como el autor citado anteriormente. Algunos autores podrían retrasar la publicación de sus investigaciones hasta que tengan la capacidad de aprovechar al máximo los datos que han recopilado. Dado que los economistas a menudo tardamos mucho tiempo en publicar nuestras investigaciones, esto plantea preocupaciones legítimas. La posibilidad que algunos estudios no se lleven a cabo parece más remota.
Sin embargo, el aspecto más intenso y controvertido del debate se centró en cómo abordar esta posible reacción estratégica de los autores. Algunos argumentaron que que las revistas no deberían relajar sus políticas en este sentido. Me pareció muy interesante el uso de un ejemplo concreto para resaltar las bondades de publicar los datos. Ese ejemplo fue el de un famoso artículo de David Card y Alan Kruger publicado en la American Economic Review en 1994. En ese artículo, los autores hicieron una recolección de datos propia que pusieron a disposición de los investigadores para que pudieran hacer sus investigaciones con ellos. En parte gracias a ello, el artículo se convirtió en uno de los trabajos más conocidos en la profesión y fue uno de los principales responsables de que David Card recibiera el Premio Nobel de Economía años más tarde. Sin lugar a dudas, publicar los datos y códigos de la investigación tiene un efecto positivo sobre el impacto de la misma.
Los defensores de la necesidad de actuar ante esa posible reacción estratégica de los autores abogaron por la posibilidad de retrasar la publicación de los datos un tiempo. Esta posibilidad es técnicamente factible. Las revistas pueden exigir publicación inmediata (es complicado perseguir a los autores cuando los artículos ya están publicados) pero con un período de embargo en el que los datos no sean accesibles para el público. La mayoría de los repositorios permiten esta opción. Sin embargo, esta posibilidad presenta también una serie de inconvenientes que deberían solucionarse antes. ¿Quién tiene la discreción de determinar que replication packages están sujetos a embargo y cuales no, así como la duración? No está claro que el editor de la revista tenga suficiente información como para poder tomar la decisión óptima en todos los casos. Además, esta posibilidad podría generar incentivos a los autores a intentar conseguir el embargo incluso cuando no está justificado. ¿Es el momento de la publicación un momento efectivo para actuar? Aunque los autores pueden internalizar las políticas de las revistas al respecto, en el momento de la publicación, el esfuerzo de recolectar los datos ya se ha hecho, así como la decisión de enviar el artículo a una revista. Por lo tanto, es poco probable que el efecto sobre las decisiones de los autores sea grande. ¿A quién beneficiaría un embargo? Un embargo en la publicación de los datos podría tener un beneficio social si consigue que se publiquen artículos que no se publicarían de otra manera, o que no se retrase la publicación de dichos artículos. Sin embargo, también tendría un efecto negativo sobre aquellos investigadores que bien por estar en el principio de sus carreras o bien por estar en instituciones con menos recursos no tienen los medios para embarcarse en procesos costosos de recolección de datos. En ese sentido, la publicación de los datos tiene también un componente de bien público, y cierto aspecto redistributivo que la hace aún más interesante.
En todo caso, resulta evidente que todos los argumentos expuestos tienen su peso, y no está clara cuál es la mejor manera de proceder. Quizás sería útil tener más evidencia empírica acerca de los pros y contras, pero esa evidencia no es trivial de conseguir. Mi sensación es que la profesión estará mejor si los datos se publican inmediatamente, aunque también entiendo y respeto los argumentos en el sentido contrario. En cualquier caso, creo que la profesión debería seguir debatiendo sobre ello. Por tanto, el debate sigue abierto, ¿qué piensas tú?
Hay 10 comentarios
Buenos días,
En mi opinión, los replication package deberían ser públicos desde el momento en el que el artículo es publicado. Entiendo la postura del autor que comentas en el post. Yo también sería reticiente a publicar si hubiese invertido tiempo, esfuerzo, y dinero en conseguir datos. Creo que es correcta la estrategia de retrasar la publicación de los artículos, aunque es también comprensible que pasar de una revista A a una B puede acabar siendo perjudicial (en términos de reputación de la revista en la que se acaba publicando por parte del autor).
Aún y así, creo que una política más abierta en cuánto al tratamiento de datos ayudaría a los investigadores a empezar la investigación con "medio trabajo hecho". Cómo doctorando de primer año he sufrido mucho el hecho de tener que lidiar con datos. Todos aquellos que nos queremos dedicar a la parte empírica de la economía los necesitamos, e invertimos mucho tiempo en conseguir variables adecuadas para nuestros modelos. No solo yo, pero muchos compañeros también se enfrentan a este problema durante los primeros pasos de su investigación. Esto hace que muchos de ellos decidan ir a la parte teórica para no tener que preocuparse por su dataset.
Cómo bien dice otro autor de Nada es Gratis: "Las políticas se evalúan por sus efectos, no por sus intenciones." Aunque yo añadiría: "Por mucho que queramos evaluar los efectos de las políticas, sin datos, no vamos a ningún sitio".
Gracias por el artículo. Interesantes reflexiones.
Hola Alejandro, muchas gracias por tus comentarios. Efectivamente, la parte de "provisión de bien público" es un aspecto muy importante de la ciencia abierta. La ciencia avanza más rápido si no tenemos que reinventar la rueda cada vez que escribimos un artículo.
Tu comentario además me ha recordado otra reflexión interesante que se hizo en el debate y con la que estoy totalmente de acuerdo: este también es un margen que tienen las revistas para competir por los artículos. Algunas revistas pueden preferir ser más permisivas en sus políticas de transparencia y así atraer esos artículos, otras pueden preferir apostar por políticas más exigentes aunque pierdan algún artículo por el camino. La mayoría de revistas top parecen estar apostando más por lo segundo, pero con grados muy diferentes, al menos de momento.
El economista respetado que se acercó a Miklós Koren y a usted, estaba preocupado por el coste al que había incurrido. Quizá la solución es que los autores que quieran publicar nuevos artículos usando esos datos publicados participen del coste. Y si no lo hacen, los artículos no se publican. De esta forma, los datos están libres para ser explorados, pero quien les quiera sacar sacar provecho real y publicar, contribuye a sufragar su coste. Esto incentiva que haya gente que haga el costoso trabajo de obtener y limpiar los datos. Podrán obtener rédito del esfuerzo si los demás lo consideran útil.
Gracias por tu comentario, Javier.
Es importante entender que la mayor parte del coste incurrido para conseguir los datos no es monetario. Se trata sobretodo de coste de tiempo, recursos humanos y coste de oportunidad. Para que nos entendamos, si me paso dos años digitalizando archivos en lugar de hacer otro trabajo que quizás me aportaría cuatro artículos, parte de mi coste es que tengo cuatro artículos menos.
Determinar cómo y quién debe cuantificar este coste es complicado. Además, este método tendría muchas derivadas difíciles de internalizar. Por ejemplo, si la investigación ha sido financiada por un proyecto del European Research Council (ERC), los datos deben publicarse en abierto y sin coste (aunque el ERC no exige publicarlos inmediatamente). El autor ya ha cobrado un salario para realizar dicha investigación, y el coste monentario de la recolección de datos no ha sido sufragado personalmente por el autor, así que, a parte de no estar permitido, no es obvio que sea moralmente adecuado que el autor cobre para dejar usar los datos.
Hola, soy muy ajena al mundo de la publicación académica pero ¿ayudaría que se tuviera que citar como coautor al "propietario" de los datos durante un periodo de tiempo si se decide publicar algo nuevo algo usando el dataset de un tercero?. Faltaría definir qué tipos de datos estarían sujetos a esto.
Gracias por tu comentario, Pilar. Por supuesto, siempre que se usan unos datos (independientemente de quien sea su creador) se deben citar, del mismo modo que citamos los artículos de otros autores cuando usamos sus ideas para construir nuestros argumentos. En cambio, convertir al proveedor de los datos en coautor del artículo automáticamente es distinto, y podría generar problemas importantes. Por ejemplo, implícitamente los autores del artículo original tendrían el poder implícito de prevenir la investigación subsiguiente que contradijera sus resultados. Una de las múltiples razones por las que las revistas exigen que los replication packages se publiquen en repositorios y no en las páginas web de los autores es para evitar, precisamente, dar a los autores la potestad de influir en la investigación que se hace acerca de sus resultados. Con ello se contribuye al avance y la credibilidad de la ciencia.
Una cosa es que los datos sean accesibles a los revisores bajo condiciones de confidencialidad, y que la revista tenga un especialista en datos que verifique el funcionamiento de los programas y que la base de datos no tenga alteraciones apreciables, y otra que se publiquen en automáticamente abierto todos los datos para que cualquiera pueda utilizarlos. Esto último puede causar un perjuicio importante a los autores, y no tiene justificación ética alguna que favorece a los free raiders.
Las grandes bases de datos comerciales se venden a un precio considerable, y no está claro porqué un pequeño investigador que invierte considerable esfuerzo en obtener datos que usará en varios trabajos debe ceder ese bien que le ha costado tanto producir. Como este blog nos suele recordar, "nada es gratis". La solución es que las revistas ofrezcan un embargo temporal desde que se publique el artículo (pongamos que de unos cinco años), que los autores puedan solicitar en el caso de que vayan a seguir explotando la base de datos. O al menos que se publiquen con una licencia muy restringida, que prohiba estrictamente su uso para cualquier otro fin que no sea la replicación estricta del trabajo original.
Buenas, desde mi ignominiosa ignorancia, me asalta una duda en relación al acceso a los datos.
Richard Stallman, el padre del software libre, dejó el MIT ante las asfixiantes cláusulas impuestas por contratos de confidencialidad en el uso de los datos y la información referentes a las distintas investigaciones. Entonces, partiendo de su filosofía “libre”, hizo un jailbreak del sistema y creó la licencia GPL (General Public License), que sería el punto de partida de los proyectos open source, de código abierto y software libre.
Mi pregunta es: ¿Existe alguna fórmula parecida aplicable a la información o los datos contenidos en las distintas investigaciones académicas? Es decir, no sería más eficiente y ágil para el investigador, poder acceder a los datos sin cortapisas, dejando su contribución de carácter público, para libre acceso de cualquiera. Un sistema del tipo Data Opening System con una base de datos de libre acceso a todos los datos compartidos.
Esto crearía proyectos de libre investigación, sin propietario, tan solo aunando en una línea de investigación las diferentes contribuciones de los autores interesados.
Un cordial saludo.
Uno puede libremente regalar su trabajo si lo desea, o alternativamente puede explotarlo (utilizándolo de forma privativa para producir una secuencia de artículos, o comercializándolos por una tasa). Esta elección, si es libre, bien venida sea, y existen muchas licencias de uso abierto para quien lo desee. Pero de lo que hablamos aquí es de si es lícito o no que las revisas exijan una cesión de este bien a cambio de que te permitan publicar un artículo. Esta cesión no tiene justificación económica evidente, e implicaría en los investigadores racionales un abandono de temas empíricos en los que la se requiera la captación de datos onerosa en términos de tiempo, esfuerzo y/o dinero, si la explotación de los mismos no va a generar un retorno a su autor.
¿Cómo se soluciona en otros campos?
En historia se transcriben de fuentes muchísimos datos, con horas, días y meses de lectura y transcripción, lo que sea válido para ellos debería de ser válido para una disciplina menor como es la economía.
Los comentarios están cerrados.