«En casa del herrero,…»: la evaluación de la investigación

Esta entrada ha sido publicada originalmente en Universidad Sí, pero me pareció que el asunto merece toda la difusión posible y por esto la reproducimos aquí.

Durante los últimos tres años he sido presidente del panel de Economía de la Agencia Estatal de Investigación. He aprendido algunas cosas interesantes. Por ejemplo, mis colegas no se parecen mucho al estereotipo del homo oeconomicus/femina oeconomica. Dado el trabajo inmenso que hacen intentando que el dinero público llegue a las mejores manos, con una bajísima compensación monetaria y ninguna profesional, más bien se los hace merecedores de pertenecer al género altruisticus. Otra cosa menos optimista que he aprendido es que el status quo de los procedimientos de evaluación es carísimo. Y les voy a presentar una evidencia que me hace pensar que es extraordinariamente ineficiente.

Aunque la Agencia evalúa muchas cosas, hay dos tipos de programas que sobresalen. Por una lado están los de “Generación de Conocimiento” que se dan a grupos de investigadores para realizar un proyecto. Por otro lado los programas de “recursos humanos” para investigadores individuales que se van a integrar a equipos o departamentos, como Juan de la Cierva y Ramón y Cajal. En los dos casos, los investigadores responsables presentan un programa de trabajo, el “proyecto”, y su CV. Luego, un grupo de entre tres y cinco científicos estudia esos materiales. Esto, claro está, después de un filtro del personal de la Agencia para eliminar candidaturas que no se ajustan a los términos de la convocatoria. Este año había unos 300 proyectos de Generación de Conocimiento candidatos en el área de economía.

Si cada proyecto se estudió durante una hora por parte de cinco científicos imaginen el coste de oportunidad, la cantidad de investigació científica que esta gente dejó de hacer por evaluar esos proyectos. Aparte del esfuerzo de los científicos que han escrito los proyectos, posiblemente varias semanas para cada uno. A todos los economistas con los que he hablado les llaman la atención que se dediquen tantos recursos a estas actividades y nos gustaría saber si se pueden ahorrar algunos. Sobre todo, teniendo en cuenta que la cantidad media destinada a financiar esos proyectos es de entre 50 y 100 mil euros para equipos de entre 3 y 6 personas de media para unos 3 años. Vamos, son unos 5000 euros por persona y año, algo que en cualquier departamento razonable de USA o UK te dan como fondo de investigación solamente por ser miembro activo del departamento.

Dado el propósito de la Agencia, lo natural sería que el procedimiento se hubiera evaluado para ver si es coste-efectivo. Pero que yo sepa no se ha hecho. Ya saben, en casa del herrero, cuchillo de palo. El sistema ya era así cuando me doctoré, en 1993, y la Agencia aún no existía. Por suerte, mi colega Anxo Sánchez me ha sugerido que lea una evaluación que se ha hecho en los Países Bajos que sugiere muy fuertemente que el sistema es ineficiente, y debería estudiarse seriamente un cambio.

El artículo en cuestión tiene un título muy descriptivo: “¿Importan los textos de las solicitudes de proyectos para las decisiones de financiación?: un experimento de campo.” Spoiler alert: no importan. Pero veamos cómo lo demuestran los autores (Müge Simsek, Mathijs de Vaan y Arnout van de Rijt). En primer lugar, el método es una evaluación aleatorizada, es “gold standard” de la evaluación en ciencia. Y, en segundo lugar, es una evaluación de campo, con solicitudes reales y en un entorno con consecuencias, no un experimento de “laboratorio”.

El experimento se realizó con las 182 candidaturas procedentes de los ocho paneles de ciencias sociales y humanidades de la Agencia de Evaluación de los Países Bajos. Cada una de las 182 solicitudes se asignó a dos panelistas de la forma habitual y a otros dos panelistas “en la sombra”. Todos los panelistas tenían que evaluar las solicitudes con tres puntuaciones en una escala de 1 (excelente) a 9 (malo):

  • Una para la calidad del investigador (puntuación del CV),
  • Otra destinada a la calidad, el carácter innovador y el impacto académico de la investigación propuesta (puntuación de la propuesta)
  • La tercera se aplicaba al potencial de utilización del conocimiento para la sociedad y para la economía (puntuación de utilización del conocimiento).

Este sistema es muy parecido a lo que se hace en España, y en otros países para los que he hecho evaluaciones.

Los panelistas en la sombra se asignaron de manera aleatoria a dos categorías, en una de ellas veían la propuesta completa y el CV, y en la otra solamente el CV y un resumen de la propuesta. Los resultados son bastante llamativos. Los porcentajes de desacuerdo en los rankings o en las notas son estadísticamente iguales en los dos tratamientos, tanto en el ranking general como desagregando por cada uno de los ítems a valorar. Vamos, que si se mezclan los evaluadores de las dos condiciones los resultados habrían sido estadísticamente equivalentes.

No creo que a ninguno de mis lectores que hayan vivido estos procesos en primera persona les sorprenda mucho el resultado. El CV de una persona es un predictor bastante bueno de los resultados que va a obtener en su investigación subsiguiente. Y es verdad que los proyectos dan algo de información sobre la trayectoria futura. Pero ¿de verdad hace falta torturar a los candidatos y a los evaluadores con la configuración de un proyecto para conseguir 5000 euros al año si podemos juzgarlos mirando su CV?

Obviamente, este procedimiento no sirve para todo. Los investigadores más jóvenes pueden no tener un CV tan voluminoso como para juzgarlo, pero los investigadores principales de los proyectos de generación del conocimiento suelen estar bastante consolidados.

Y nos puede preocupar que este sistema diera siempre el dinero a las mismas personas. Pero fíjense en que el artículo que les he compartido ya dice que hay desacuerdos incluso en el juicio de los CV, de manera que esto no es completamente cierto. Y si se quiere introducir un poco más de aleatoriedad para evitar el Efecto Mateo y posiblemente la ausencia de ideas novedosas, otro sistema interesante es dar unos cuantos proyectos “al azar”.

Lo describe muy bien aquí la directora de la fundación Novo Nordisk, Lenne Oddershede, que ya está decidiendo así sus proyectos. Siempre hay un, digamos 10% de proyectos que son financiables con seguridad. Luego otro 20% deberían serlo “si hay dinero”, pero no hay dinero para todostodos los que sepresentan, como es obvio..

Nuestros comités, como los suyos, pasan casi todo el tiempo discutiendo estos. La decisión de la fundación ha sido dar estos proyectos al azar a la mitad de ellos. Se han basado en un interesante informe de la Real Academia Danesa de Ciencias y Letras. Igual se lo comento otro día, pero por hoy ya he abusado mucho de su paciencia. Espero al menos haber incitado a un debate que se me antoja muy importante.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.