- Nada es Gratis - http://nadaesgratis.es -

De lo bueno lo mejor ... depende para quién

Voy a empezar este post diciendo una obviedad: la investigación científica necesita dinero para financiar sus necesidades: equipos, mano de obra, viajes, publicaciones, etc. Ese dinero, en un porcentaje alto, sobre todo en España, viene de los contribuyentes, a través de convocatorias competitivas (por ejemplo, las del Ministerio), en las que los investigadores presentan proyectos. Esos proyectos son evaluados, normalmente por otros investigadores, y al final se seleccionan y se financian una parte, que puede ir del 1% en alguna de las convocatorias más competitivas de la Unión Europea, a cifras en torno al 30-40%. Y ahora viene la segunda obviedad, que es de lo que va este post: evaluar y seleccionar estos proyectos es muy difícil. Lo que ya no es tan obvio es analizar esta dificultad y sus consecuencias, y eso es lo que ha hecho un grupo de investigadores encabezados por Libby Pier en un artículo aparecido recientemente en PNAS.

Analizar científicamente y con datos los procesos de evaluación es bastante complicado, por no decir casi imposible. El principal problema es que los datos son confidenciales: los nombres de los evaluadores pueden ser públicos, pero no es público qué proyectos ha evaluado cada uno, y menos todavía qué han dicho de ellos, por razones obvias de posibles represalias cuando los papeles se inviertan. Los investigadores suelen recibir un informe con el resultado de la evaluación, pero solo referido a su proyecto, con lo que tampoco eso sirve para obtener información o datos. Y los resultados de la evaluación, aparte de qué proyectos se financian y cuáles no, tampoco están disponibles en general. En esta situación, lo que han hecho Pier y colaboradores es reproducir el proceso de la manera lo más parecida posible. Para ello, se fijaron en las convocatorias de los National Institutes of Health (NIH) de Estados Unidos. El NIH es el mayor financiador de investigación biomédica del mundo, con un presupuesto anual de unos 32 000 millones de dólares, y sus convocatorias son muy competitivas. Pidieron a un grupo de 43 investigadores que han evaluado convocatorias del NIH que colaboraran en su investigación, y reproduciendo al máximo todos los detalles del proceso, que no vienen al caso, les pidieron que evaluaran un conjunto de 25 propuestas. Lo más interesante para mí es que estas propuestas eran o excelentes o muy buenas, y ahora explicaré cómo consiguieron esto, pero hace falta explicar primero por qué este es el problema interesante, más que el de la evaluación en general.

Por suerte o por desgracia, tengo alguna experiencia como evaluador de proyectos científicos en convocatorias de varias autonomías en España, del Ministerio se llame cómo se llame en cada momento, de la Comisión Europea, de organismos financiadores de la ciencia en distintos países, y hasta de algunas instituciones privadas (modesto, lo que se dice modesto, no soy, parece). Y hay algo que no es difícil en general, que es distinguir el grano de la paja. Obviamente, uno siempre puede cometer algún error, somos humanos, pero normalmente decidir qué solicitudes hay que ver con cuidado y cuáles son claramente de un nivel de calidad inferior es fácil. Insisto, lo digo por experiencia, e insisto, seguramente habré alguna vez infravalorado alguna solicitud, pero no me habré equivocado en muchas. Sobre todo porque los evaluadores solemos ser prudentes, y si tienes dudas de que algo que te parece que no es muy bueno pueda serlo porque tú no lo entiendes bien, lo dejas seguir adelante. Y adelante es donde está el problema: ahora tenemos un grupo de solicitudes que nos parecen muy buenas, pero no hay dinero para pagarlas todas. ¿Cómo separamos de lo bueno lo mejor?

Ahora que tenemos más acotado el problema, ya podemos explicar como para esta investigación consiguieron unas solicitudes "excelentes" y otras "muy buenas". Lo que hicieron es seleccionar entre las solicitudes concedidas en los últimos 4 años algunas concedidas a la primera, es decir, envían el proyecto y se concede, y otras que lo fueron a la segunda; fueron evaluadas pero no financiadas, y los proponentes utilizaron el informe de los evaluadores para mejorar su propuesta y volverla a presentar, siendo entonces financiadas. Este material es el que se proporcionó a los participantes en la investigación (sin indicación alguna de lo que había pasado anteriormente), y como ya he dicho a partir de aquí se siguió exactamente el proceso de evaluación del NIH. 

Imagen anonimizada de una de las reuniones de evaluación llevada a cabo para esta investigación.

¿El resultado? Malo, sin paliativos. Concretamente, utilizando varios indicadores y técnicas cuantitativas para calibrar el acuerdo entre evaluadores y la correspondencia entre problemas identificados en cada propuesta y la correspondiente nota, los investigadores concluyeron que:

1. Diferentes evaluadores dieron valoraciones distintas e identificaron números de fortalezas y debilidades diferentes para la misma solicitud. Tres indicadores cuantitativos distintos entre sí coinciden en apoyar esta conclusión. De hecho, el grado medio de acuerdo entre evaluadores es bastante bajo.

2. Los evaluadores no coincidieron en general con las evaluaciones que en su momento y de verdad organizó el NIH, valorando de manera parecida tanto las solicitudes que fueron financiadas a la primera como las otras.

3. Lo más importante es la falta de consistencia entre evaluadores: el que el evaluador A identifique más debilidades en una cierta solicitud que el evaluador B no hace que el evaluador A evalúa dicha solicitud más negativamente que el B. O en otras palabras, no hay acuerdo entre los evaluadores sobre como se corresponden las debilidades identificadas con las notas numéricas.

Como dicen los autores del trabajo, la trascendencia de estas conclusiones, dentro de las limitaciones que todo estudio experimental tiene en cuanto a su posible generalización (que los autores discuten honradamente y en detalle en el artículo), es enorme. Si esto ocurre normalmente en las evaluaciones, la consecuencia es que no se pueden comparar las evaluaciones que distintos revisores hacen de la misma solicitud, y por otro lado, el proceso de elegir las mejores solicitudes de entre las buenas se vuelve básicamente aleatorio. Yo estoy bastante convencido de que esto es así, aunque claramente hacen falta muchos más estudios, pero no me resisto a citar dos evidencias más. La primera, subjetiva: yo he salido de innumerables procesos de evaluación comentando con otros evaluadores cosas como "bueno, hemos elegido las propuestas A, B y C, pero podíamos haber elegido D, E y F y no se hubiera hecho ninguna injusticia". Es una sensación muy desasosegante pero como digo muy común entre los evaluadores, sobre todo cuando hay muchas propuestas buenas y se pueden seleccionar muy pocas. La segunda evidencia, objetiva: en 2014, en una importante conferencia de machine learning, los organizadores tuvieron la santa paciencia de montar dos comités evaluadores diferentes y hacerles evaluar a ambos un grupo de las comunicaciones enviadas. Aquí, para el que no lo sepa, hay que decir que en Informática el prestigio no lo dan las revistas sino el que te acepten comunicaciones en conferencias importantes: es muy difícil y lo que se acepta es muy bueno, o sea, estamos en el mismo caso. Pues bien, en este caso también se encontró una enorme discrepancia entre las evaluaciones hechas por los dos comités: como cuenta muy bien este post, la mayoría de comunicaciones aceptadas por un comité fueron rechazadas por el otro, y viceversa (véase figura inferior).

Resultados del experimento de evaluación llevado a cabo en la conferencia NIPS 2014.

La conclusión es que, como ya dije al principio, esto de evaluar es muy difícil, pero además es muy caro, carísimo para la incertidumbre del resultado. Hay que montar reuniones, pagar a los evaluadores, pagarles sus viajes a las reuniones, tener personal que gestiona todo el proceso,... Por ello, los autores del trabajo proponen (y no son los primeros, aunque ahora mismo no encuentro el enlace) que las evaluaciones se hagan con una primera fase que separe lo bueno de lo menos bueno, como decía más arriba, y una segunda en que se haga una lotería pura, se seleccionen las propuestas al azar. De nuevo en mi experiencia personal, yo me sentiría mucho más tranquilo como evaluador diciéndole a la gente que ha enviado cosas buenas "tu trabajo es muy bueno, pero no te tocó la lotería" que intentando justificar (hecho real) por qué su solicitud tiene un 4.6 (sobre 5) y no se ha financiado cuando la financiación empezó en 4.65, y por qué esos números, esa precisión de décimas, hay que creérselos. ¡Y también me sentiría mucho más tranquilo como solicitante rechazado! Claramente, esto requiere pensarlo bien, y como ya he dicho muchos más estudios, pero hay que considerarlo seriamente. Entre otras cosas, habría que medir bien el esfuerzo de separar las dos categorías de propuestas, porque si fuera casi todo el esfuerzo de la evaluación, podría ocurrir que la lotería ahorrara poco y fuera incluso algo más injusta que el procedimiento actual; en ese caso a lo mejor habría que implementar un procedimiento mucho más mecánico y barato. Creo como ya he dicho que en general no será así pero no conviene tomar decisiones a la ligera; en el caso de España, la Agencia Estatal de Investigación, de la que hablé recientemente aquí, debería darle más de una vuelta al asunto (y me consta que está en ello).

Termino ya, diciendo que este problema de las evaluaciones, que he discutido aquí en el caso de la concesión de proyectos científicos es mucho más general, y toca aspectos más cotidianos de la vida. Por ejemplo, la decisión de que persona escoger para un puesto de trabajo, que exige evaluar un currículum, plantea básicamente los mismos problemas. Otro caso es el de países como el Reino Unido o Estados Unidos, en los que la admisión en la Universidad no es simplemente la nota de la prueba de acceso, sino que se hace una evaluación del currículum y de más cosas de los estudiantes. En todos estos casos, separar, como diría Gomaespuma, "de lo bueno lo mejor, de lo mejor lo superior, caprice de dieux" es una tarea muy complicada que no se debe hacer sin pensar cuidadosamente cómo, de manera que se pueda aprovechar al máximo la valoración de los expertos manteniendo un coste-beneficio razonable. Por eso, investigaciones como esta deberían ser solo el principio de un esfuerzo muy serio para abordar estas cuestiones. ¡Y nosotros que lo veamos!