Nada es Gratis » Evaluar menos para progresar más

Normalmente escribo sobre el mundo real, pero hoy me voy a permitir un ejercicio de escapismo escribiendo sobre la peor tortura que sufren los investigadores en economía: el proceso editorial (algo muy parecido a este proceso).

Cuando un investigador económico termina un trabajo, tras haberlo presentado en seminarios --es decir, presentaciones del trabajo en departamentos universitarios-- y conferencias --es decir, reuniones científicas de 30-35 personas--, ¿qué hace? Pues crea un fichero pdf y lo carga en la página web de una revista académica para su posible publicación. Algunas procesan el artículo gratis (como SERIEs) pero otras cobran bastante. El Journal of Finance cobra hasta 250 dólares (unos 200 euros) solo por enviar el trabajo para que sea evaluado (que normalmente se pagan con fondos de investigación).

Después viene una espera de meses. En la American Economic Review (AER), una de las cinco mejores revistas, la duración mediana hasta la primera respuesta es de 3 meses (en SERIEs, una de las más rápidas, son 71 días). El trabajo nunca es aceptado en esta ronda (y nunca significa nunca). Lo más frecuente es que sea rechazado. Con suerte, se pide una revisión y reenvío (revise and resubmit), con los informes de los evaluadores anónimos (normalmente dos) y una carta del director (editor) que contiene una larga lista de cambios que hay que hacer en el trabajo para su posible publicación. Algunos comentarios son útiles pero la mayoría obligan a hacer cosas muy laboriosas que uno piensa que son inútiles y que de hecho estropean el artículo.

Tras hacer los cambios pedidos --casi siempre bastantes meses después-- se reenvía el trabajo, con una carta para el director y una para cada evaluador, explicando los cambios introducidos y dando las gracias a cada evaluador por ser tan majo, haber hecho tantos comentarios tan interesantes y haber pedido tantos cambios imposibles. Y otra vez a esperar. La segunda decisión es a veces un rechazo, a veces una petición de revisiones mayores y a veces una petición de revisiones menores. La tasa final de rechazos es muy alta. Por ejemplo, en la AER es del 93% (en SERIEs del 75%).

Cuando se recibe un rechazo, normalmente se compra otro décimo de lotería: se ignoran los comentarios de los evaluadores de la revista anterior --total, los evaluadores de otra revista dirán otras cosas-- y se envía el trabajo tal cual a otra revista. Así se van acumulando rechazos, descendiendo por la cadena trófica editorial, hasta que alguna revista acepta el trabajo o hasta que el autor se rinde.

Entre los investigadores económicos hay un consenso bastante general de que este proceso es muy ineficiente, consume mucho tiempo de mucha gente y no conduce especialmente a mejorar la calidad de los trabajos. El año pasado un artículo de Glenn Ellison se preguntaba si el sistema de evaluación por los pares (colegas) está en declive. Que conste que de lo que me quejo aquí es de tanta tardanza y tanta revision inutil, no de que se envíen los artículos a evaluar ni de que se rechacen si a los evaluadores o al director no les gustan. Este procedimiento es el único que hemos descubierto hasta ahora para poner una marca de calidad que nos permita saber qué hay que leer y qué no, y es igual en todas las ciencias.

Hace tiempo un compañero me pasó un artículo de Matthew Spiegel, que fue durante siete años editor del Journal of Financial Markets y otros seis de la Review of Financial Studies. En el artículo, titulado "Evaluar menos--Progresar más" (Reviewing Less--Progressing More), Spiegel se pregunta qué están intentando lograr los directores y los evaluadores, ¿garantizar que todo resultado publicado sea correcto? En ese caso, pierden el tiempo. Y al perseguir eso nos hacen perder el tiempo a todos. Cree que las peticiones de revisión raramente desvelan errores importantes, e incluso si lo hacen no funcionan, porque los autores tienen fortísimos incentivos para taparlos, dado que ni los directores ni los evaluadores comprueban, por ejemplo, los programas o los filtros aplicados a los datos. Además destaca una serie de tendencias:

(1) Como a los investigadores se les evalúa mediante el recuento de citas, los evaluadores tienden a favorecer, conscientemente o no, a los artículos que citan su propio trabajo y a rechazar los que no lo hacen. Por tanto, los autores tienden a citar todo lo que se pone a tiro. En el Journal of Finance (JF), el número medio de citas por artículo ha subido de 16 en 1980 a 48 en 2010.

(2) Los evaluadores quieren, no solo que sus artículos sean citados, sino también alabados. Como eso no se puede pedir directamente, piden a los autores que "sitúen mejor su trabajo en la literatura". En consecuencia, ahora los artículos tienen una introducción partida en dos, una primera parte llamada así y una segunda llamada "revisión de la literatura". En el JF la longitud media de la introducción ha pasado de 481 a 1.673 palabras.

(3) Antes los autores proponían una hipótesis, ofrecían evidencia en favor o en contra y presentaban sus conclusiones. Quienes dudasen de los resultados probaban su argumentación y publicaban un artículo crítico. Ahora se exige a los autores que descarten ellos mismos cualquier posible alternativa. Pero, según Spiegel, los contrastes de solidez de los resultados (robustness checks) no llevan a ninguna parte. Lo único que consiguen es alargar los artículos. En el JF, la longitud media ha subido de 11 páginas en 1980 a 34 en 2010. Pero ni el número de artículos que critican a otros artículos se ha reducido, ni más artículos publicados se han vuelto más perdurables e influyentes.

(4) En respuesta a la tortura que supone el proceso y dado que en las decisiones de concesion de una plaza fija (tenure) no se suele dividir el crédito otorgado por cada artículo entre el número de autores, los investigadores han aumentado el número de autores para repartirse la carga. En el JF, el número medio de autores por artículo ha subido de 1.6 en 1980 a 2.4 en 2010.

La conclusión de Spiegel: "A cambio, ¿ha progresado el campo de las finanzas más y más deprisa? Mi respuesta es un inequívoco no. Si acaso, parece que hemos atascado el proceso y el progreso es más lento que nunca." Y también: "¿Qué horrores recaerán sobre nosotros si se publica un artículo con una conclusión errónea? No muchos. La inmensa mayoría de artículos se olvidan rápidamente. (...) ¿Y si un artículo es importante --es decir, si la gente lo lee y lo cita--? En tal caso los académicos diseccionarán todos sus aspectos."

Las propuestas de Spiegel: (1) Desincentivar, si no prohibir, los apartados de revisión de la literatura y limitar las introducciones a un máximo de cuatro páginas. (2) No permitir casi nunca que haya más de dos rondas de evaluación. (3) No enviar casi nunca los artículos revisados a los evaluadores para una segunda evaluación. (4) Intentar aceptar al menos un artículo al año sin ningún cambio.

Su objetivo como director: "Mi único objetivo era publicar artículos que la gente leyese. No perseguía la perfección. Ni quería coger un artículo y hacer que fuera reescrito en la forma en que yo o los evaluadores lo habríamos hecho si hubiéramos sido sus autores. Ni los directores ni los evaluadores son los autores. Los autores de los artículos son sus autores. Debería permitírseles decir lo que quieran, de la forma que quieran (salvo por los insultos, las vulgaridades o las afirmaciones que la mayoría no consideraría razonables)."

¿Qué perjuicios causó Spiegel como editor de la Review of Financial Studies de 2005 a 2011 aplicando sus reglas? No muchos. El número de artículos enviados pasó de 500 a 2.000 al año. El factor de impacto, que mide las citas recibidas por los artículos publicados en las revistas, subió de 2.20 a 3.55, haciéndola pasar del tercer al primer puesto en el área de finanzas. No está nada mal.

No estoy de acuerdo con todo lo que argumenta Spiegel, pero sí en lo esencial. Para ser justo, el proceso editorial en economía, dejando fuera a las finanzas, también ha mejorado algo en los últimos años. Antes, recibir la primera decisión en tres meses era rarísimo y ahora ya no, y también se hacen más rechazos sin enviar los artículos a evaluar (ahorrando así tiempo a los autores cuyos artículos no tienen ninguna opción). Pero aún estamos muy lejos de las ciencias naturales: aparentemente, la revista Nature no suele tardar mucho más de una o dos semanas. Y en esas ciencias no practican las rondas abusivas de revisión que se dan en economía.

El otro día, al enviar un informe de evaluación a la AER apareció una pregunta que nunca había visto antes: "¿Estaría usted dispuesto a evaluar este artículo en segunda ronda?" Sin pensarlo mucho, marqué la casilla del sí, pero me parece que la próxima vez marcaré la del no.

---

P.S. Una desternillante carta que demuestra que los economistas no somos los únicos sufridores.