Como se acaba mi trimestre de mayor intensidad docente, empiezo a pensar en largas semanas ininterrumpidas de dedicación investigadora. Y luego me despierto. No, eso no va a pasar porque me va a pasar la vida. Pero sí es verdad que tendré menos excusas que poner a mis coautores para que avancen más deprisa los proyectos. En los últimos dos años me he apoyado mucho en la IA para hacer algunas tareas. “¿Me puedes decir si esta función es creciente en (0,1)?” No siempre acierta, supongo que por las excesivas ganas de agradar y decirme que soy un genio y tengo razón, como señala la imagen con la que empiezo la entrada. Pero la verdad es que a mí me resulta muy útil. Y hay apps basadas en AI, como Refine (disclaimer, los socios fundadores, Ben Golub y Yann Calvó son buenos amigos) que me han encontrado errores algebraicos y conceptuales en un artículo teórico y otro experimental recientes que habrían sido bastante embarazosos si me los llega a encontrar un evaluador.
Pero aparte de la experiencia anecdótica de Cabrales, ¿hay alguna evidencia de que esto funciona? Pues parece que sí. El trabajo que resumo hoy (de Filimonovic, Rutzer y Wunsch, proporcionado por mi hijo, que es un súper usuario en su doctorado en física y es el que me recomendó usar la IA en mi trabajo) se pregunta algo muy concreto: ¿qué pasa con la productividad científica cuando los investigadores empiezan a usar ChatGPT y herramientas similares? ¿Se escribe más, se publica mejor, o simplemente se le da un poco de lustre al texto sin que cambie nada relevante? El artículo se centra en las ciencias sociales y conductuales, justo la región académica en la que vivimos muchos lectores de Nada es Gratis.
Los autores construyen un panel de investigadores a partir de Scopus, para los años 2021–2024. Solo incluyen a gente que publica antes y después de la salida de ChatGPT, a finales de 2022, vamos un diff-in-diff clásico. Así siguen a la misma persona en varios años y pueden ver cómo cambia su producción.
El resultado es un panel de algo más de 32.000 autores en tres grandes áreas: Economía y finanzas, Psicología y un grupo residual del resto de ciencias sociales (sociología, ciencia política, y otras). Para cada autor y año tienen el número de artículos publicados, el impacto medio de las revistas donde publica (medido con el SJR, congelado en 2019 para que el ranking no se mueva con el tiempo, el sexo, campo, país, y la “edad académica” (años desde la primera publicación).
Una parte muy original del artículo es la forma de detectar quién adopta GenAI. No es que Scopus tenga una casilla “escrito con ChatGPT”. Lo que hacen es explotar el estilo, algo que cualquiera que haya jugado con estas herramientas reconocerá
Los grandes modelos de lenguaje tienden a usar ciertas palabras y giros (“delve”, “pivotal”, “meticulous”, “underscore”, “unveil”, “holistic”, etc.). A partir de trabajos previos, los autores construyen una lista de 65 términos o raíces léxicas que se han identificado como “marcadores de LLM”.
Luego miran títulos y resúmenes de los artículos y calculan la proporción de palabras “GenAI” para cada autor antes (2021–2022) y después (2023–2024) de ChatGPT. Un investigador es clasificado como usuario de GenAI si esa proporción aumenta tras 2022. Para no confundir modas lingüísticas generales con IA, solo se quedan con las palabras cuyo uso crece al menos un 200 % entre 2022 y 2024.
El método es deliberadamente sencillo y transparente. Pero nadie es perfecto, tiene también limitaciones claras. Detecta sobre todo el uso de GenAI en la redacción, no sabemos si se usa para programar, analizar datos o revisar bibliografía. Pero precisamente por eso es comparable entre campos y escalable a decenas de miles de autores. Y mi impresión es que las dos cosas correlacionan mucho.
Obviamente, la gente que adopta GenAI no es igual que la que no lo hace. Puede ser más propensa a usar tecnología, escribir ya de por sí más, o estar en instituciones con mejor acceso a herramientas. Para mitigar este poblema, los autores hacen dos cosas. Una es usar efectos fijos de autor. Comparan a cada investigador consigo mismo en distintos años. Así controlan por diferencias permanentes: talento, red de coautores, o calidad media. También hacen un propensity score matching. Antes de la estimación emparejan a cada usuario de GenAI con tres no usuarios que se le parecen mucho en productividad e impacto antes de ChatGPT (2021–2022), campo, país (y si el inglés es nativo, cercano o lejano), sexo y edad académica.
Con esto intentan conseguir que, si no hubiera IA, las trayectorias de ambos grupos fueran paralelas. Luego aplican un diseño clásico de diferencias en diferencias. Miran cuánto cambia la productividad y la “calidad media de las revistas” para usuarios y no usuarios antes y después de 2022, y se quedan con la diferencia entre esas diferencias.
Los números son bastante llamativos. En 2023, los usuarios de GenAI publican un 15 % más de artículos que los no usuarios comparables. En 2024, la brecha sube al 36 %. Es decir, el efecto no es solo un pequeño empujón puntual, sino que crece con el tiempo, conforme los investigadores aprenden a aprovechar mejor la herramienta y los artículos “asistidos por IA” van pasando el proceso editorial. En cuanto a la calidad medida por el impacto medio de las revistas, el efecto es más modesto pero positivo: alrededor de 1,3 % más alto en 2023 y 2 % en 2024. No parece, por tanto, que los investigadores estén usando GenAI solo para llenar currículos con artículos de peor calidad. La subida en número de artículos viene acompañada de una ligera mejora en las revistas donde consiguen publicar.
El papel dedica una parte importante a heterogeneidad del efecto. Primero, por campos, en psicología y economía el aumento de productividad es algo mayor que en sociología y otras áreas más cualitativas. Puede tener sentido, porque donde hay más formalización, programación y análisis cuantitativo, GenAI puede ayudar a hacer cosas que no nos apetecen tanto, como limpiar redacciones, o estructurar los artículos.
Por edad académica, los investigadores jóvenes (menos de 7 años desde la primera publicación) son los que más aumentan su producción. Me parece natural. A los mayores ya nos hacían muchas cosas ayudantes de investigació que podemos "comprar" porque tenemos más fondos. O sea que la emergencia de la IA nos ayuda menos, simplemente abarata algo el proceso. Para un joven ahora tiene un ayudante virtual que le soluciona cosas que antes eran imposibles, o le llevaban mucho tiempo. También puede ser porque tienen menos “rutinas” asentadas, o más disposición a experimentar con nuevas herramientas
Por idioma, los mayores beneficios se observan en autores de países con inglés lejano (China, Japón, Corea…). No solo publican mucho más, sino que también ven mejoras más claras en el impacto de las revistas. GenAI parece funcionar como una especie de “corrector de estilo primo Zumosol” que reduce la desventaja de escribir en una segunda lengua.
En género no hay grandes diferencias. Hombres y mujeres que adoptan GenAI experimentan aumentos de productividad y calidad bastante similares. Esto me parece interesante, porque alguna evidencia apunta a que las mujeres usan la IA menos y me alegra ver que quizá simplemente la usen mejor.
Los autores juegan bastante con el diseño para comprobar que los resultados no son un artefacto de cómo definen “uso de GenAI” o de cómo hacen el matching. Cambian el umbral de crecimiento de palabras “IA” (100 %, 200 %, 500 %) y los resultados se mantienen. Endurecen la definición de usuario (solo quienes están por encima del percentil 5, 10 o 15 del aumento en palabras GenAI). Las estimaciones siguen en la misma línea. Cambian el número de controles por cada tratado (1:1, 1:2, 1:3) y todo parece mantenerse.
Ahora bien, los autores son bastante prudentes con las limitaciones. El indicador de adopción es imperfecto: hay usos de GenAI que no dejan huella clara en la expresión. Puede haber factores no observados que cambien al mismo tiempo que la adopción y también impulsen la productividad (por ejemplo, instituciones que invierten en IA y, de paso, en otras cosas). Solo miran corto plazo (2023–2024); no sabemos qué pasa en equilibrio general cuando todo el mundo usa estas herramientas.
La lección más evidente es que GenAI no es solo una herramienta para escribir correos o resúmenes de artículos. Puede tener efectos cuantitativamente importantes sobre la producción científica. Los autores sugieren varias ideas de política. Facilitar el acceso institucional a buenas herramientas de GenAI (licencias, formación). Poner énfasis especial en países y grupos con desventajas lingüísticas o de recursos. A la vez, desarrollar normas claras sobre autoría, transparencia y responsabilidad para que el uso de GenAI se reconozca y no diluya la rendición de cuentas.
Desde la perspectiva de un sistema como el español, con mucha producción en inglés desde universidades con recursos limitados, la tentación de ignorar estas herramientas puede ser costosa. Si los demás países las usan y nosotros no, la brecha en publicaciones internacionales puede ampliarse.
Ya digo que a mí me funciona bien y esto puede sesgar positivamente mi juicio sobre la importancia de un uso libre y masivo de las herramientas, pero creo que lo que nos importa más ahora es ver cómo usarlas bien, y ponerlas al servicio de una ciencia mejor y más útil a todos.
Hay 3 comentarios
Le agradezco el resúmen convenciente de este trabajo importante. Lo que yo veo con respeto a la IA es una mena de contradicción entre la oportunidades que ofrece y los retos que impone a trabajadores con diferentes niveles de formacíón.
Es lógico que la IA sea un gran beneficio para investigadores científicos. Esa clase tienen por definición la más alta nivel de formación posible. También noto que los subjetos del estudio casi todos lograron terminar todo esa formación antes del advento de Chat GPT.
Pero lo que veo con mis estudiantes en la universidad, y hasta con algunos socios en mi trabajo principal en una compañía privada, es dependencia. Muchos de ellos se habitúan a utilizarla para todo y no saben cuando se les está fallando y no saben lo que están perdiendo de su formación.
Un doctor en economía es alguien que ya ha aprendido como superar dificultades en varios campos y sabrá como utilizar IA como ayudante. Pero hay mucho novicios que, por la tentación de la IA, y aunque crean que se les está ayundando a hacer y aprender mejor y más, en realidad quedan desviados del camino que tenían que tomar.
Hola Antonio,
Para mi el siguiente paso será sustituir a investigadores de carne y hueso por agentes de IA avanzados.
Los departamentos prescindirán del coste de formación de una persona para determinadas tareas, siendo más interesante contratar agentes investigadores autómatas que permitan no solo realizar tareas brutas sino proponer líneas de investigación independientes.
Las grandes tecnológicas proveerán de un servicio de IA research como te alquilan computación en la nube, con un área reservada para instituciones universitarias y centros de investigación. Un paquete premium para grandes entidades o proyectos complejos supondrá la diferencia en la calidad de los trabajos publicables.
Además, la vasta producción académica que genera una obesidad mórbida intelectual o una hiperinflación de papers, para no volverse disfuncional deberá a su vez ser objeto de cribado vía benchmarks automatizados que separen el grano de la paja.
Perderemos el monopolio del conocimiento, y sobre todo la capacidad de sentirnos partícipes de su ordenación y destilación lo que generará una brecha y una dependencia que culminará en un proceso por la lucha de la vuelta a los modelos tradicionales de la misma forma que se revalorizan los tomates de huerta ecológicos.
Saludos.
Utilizo la IA como amanuense informático a la hora de corregir scripts de desarrollo de modelos epidemiólogicos (R, Python) que solicito mejorar, acelerar o descubrir errores, de esos que hacen fallar el software en el momento menos esperado.
No diré que es maravillosa, pero ha corregido cosas que se me habían pasado por alto y siempre reduce el número de líneas del código con aproximaciones novedosas. Por supuesto que no "inventa" nada, porque tan solo reproduce patrones estadísticos. Supongo que en mi caso conoce todos los trucos propuestos en GitHub y los aplica (a veces con errores).
No me sirve para hablar con "ello" como si fuera un colega, porque siempre me da la razón. De esa forma, nunca se avanza. Mi punto de vista es que sirve para pulir una idea o para reducir el tiempo de desarrollo de un software. Nada más.
Gracias por el texto original. Saludos.
Los comentarios están cerrados.