- Nada es Gratis - https://nadaesgratis.es -

La IA como recurso para el análisis masivo de textos (y su uso en economía)

Por Vicente Bermejo, Andrés Gago, Ramiro Gálvez, Nicolás Harari.

La reciente expansión de las capacidades de digitalización ha convertido los datos textuales en un recurso que es posible explorar desde un enfoque cuantitativo. Así, en los últimos años, a través del análisis de texto, se han podido explorar fenómenos tan diversos como el funcionamiento de las expectativas de inflación (e.g., Thwaites 2022), los estereotipos de género en el cine (e.g., Gálvez et al. 2018), el comportamiento de los inversores en el mercado de valores (e.g., Dougal et al. 2012) o la efectividad de las políticas de competencia (e.g, Jiménez, Perdiguero y Gutiérrez, 2022).

Sin embargo, a pesar de su enorme potencial, la codificación de textos a gran escala para su posterior análisis ha presentado tradicionalmente importantes desafíos a los investigadores. Generalmente, la extracción de información de conjuntos de datos textuales se ha abordado de tres maneras distintas: codificación manual, métodos basados en diccionarios y modelos de aprendizaje supervisado. Si bien cada uno de estos métodos cuenta con sus propias virtudes, todos presentan también importantes inconvenientes.

La codificación manual, si es llevada a cabo por los investigadores, limita mucho la escala del estudio y consume un tiempo valioso y escaso. Si es subcontratada a terceros, resulta costosa y depende de personas sin conocimientos especializados. Por su parte, los métodos algorítmicos más simples, como aquellos basados en diccionarios, pueden resultar limitados a la hora de capturar fenómenos sutiles y no alcanzan el grado de finezza de la que es capaz un humano. Los métodos más complejos, como el aprendizaje supervisado, requieren habilidades técnicas avanzadas y grandes conjuntos de datos etiquetados. En este artículo reciente (Bermejo et. al 2024a) exploramos una cuarta alternativa que creemos supera a las ya disponibles: El uso de los nuevos modelos generativos de lenguaje a gran escala (LLMs).

Diseño del estudio

Nuestro estudio examina y extrae información de un cuerpo de 210 artículos de noticias en español que cubren un programa nacional de consolidación fiscal que afectó a más de 3,000 municipios (véase Bermejo et al. 2024b y esta entrada en NeG). Los artículos en esta muestra resultan particularmente adecuados para medir el desempeño de distintos métodos de codificación porque contienen numerosas relaciones conceptuales complejas que dificultan un análisis basado en meras coincidencias de palabras clave o en una lectura superficial. Otro reto es que estos artículos contienen narrativas políticas y económicas que a menudo requieren de un conocimiento profundo de las estructuras de gobierno local y de sus actores políticos.

Las tareas a realizar, en dificultad creciente, fueron las siguientes: 1) Identificar todos los municipios mencionados en cada artículo; 2) determinar el número total de municipios mencionados; 3) detectar si se critica la gestión municipal; 4) identificar quién emite esas críticas y 5) identificar quién las recibe.

Estas tareas fueron realizadas siguiendo las tres estrategias de codificación mencionadas:

  1. Codificadores humanos altamente capacitados (Gold Standard). Nosotros y un asistente de investigación entrenado, tras una exhaustiva lectura de las noticias, determinamos la respuesta correcta para cada una de las cinco tareas. Este proceso incluyó múltiples rondas de etiquetado y deliberación para alcanzar un consenso.
  2. Codificación mediante LLMs. Se probaron cuatro modelos LLM de vanguardia–GPT-3.5-turbo, GPT-4-turbo, Claude 3 Opus y Claude 3.5 Sonnet–utilizando un enfoque de aprendizaje zero-shot (sin entrenamiento previo). Cada modelo analizó cada artículo dos veces, lo que nos permitió evaluar no sólo su desempeño, sino también su consistencia.
  3. Codificadores humanos subcontratados. Se reclutaron 146 estudiantes universitarios de ESADE (Barcelona) para participar en un estudio incentivado en línea. Cada estudiante codificó tres artículos y cada artículo fue codificado por dos estudiantes. Para garantizar la calidad de las respuestas, introdujimos diversas pruebas de atención durante la tarea y descartamos a aquellos que no las pasaron.

La evaluación del desempeño mediante los métodos 2 y 3 se hizo utilizando la métrica habitual en la literatura según el tipo tarea, tomando como respuesta correcta lo codificado en el Gold Standard  (método 1). Concretamente, para la primera tarea, se utilizó la F1 macro promediada, que penaliza tanto la no identificacion de los municipios mencionados en la noticia como la identificacion de municipios no mencionados. Para la segunda tarea, utilizamos el error absoluto medio, que penaliza contar un numero incorrecto de municipios. Para el resto de tareas, utilizamos la precisión, que penaliza tanto los falsos positivos (ej. identificar una crítica que no es tal), como los falsos negativos (ej. no identificar una crítica que lo es).

Resultados clave

La Figura 1 ilustra el desempeño de los codificadores humanos subcontratados y de los LLMs en cada tarea. El panel final (‘Todas correctas’) muestra la proporción de artículos en los que los diferentes codificadores completaron con éxito las cinco tareas. Para todos los paneles salvo el de la T2, mayores valores indican mejores desempeños.

Figura 1. Desempeño general, por tareas y estrategias de codificación

La inspección visual de la Figura 1 revela que todos los LLM superan a los codificadores subcontratados en todas las tareas. Entre los LLM comparados, Claude 3.5 Sonnet y GPT-4-turbo (los más avanzados) obtienen las puntuaciones más altas. El mejor desempeño de los LLM se mantiene, o incluso se amplía, en las tareas más difíciles— aquellas en las que al menos dos autores discreparon inicialmente para determinar el Gold Standard. Esto se observa en la Figura 2.

Figura 2. Desempeño según la dificultad del artículo, por tareas y estrategias de codificación

Otros resultados

Tal y como mostramos en nuestro artículo, los LLMs no sólo fueron mejores que los humanos subcontratados codificando tanto el conjunto total de textos como aquellos más difíciles, también lo fueron codificando los textos más largos. Además, los LLMs mantuvieron un desempeño constante a diferencia de los humanos que requirieron de un aprendizaje y mostraron un efecto fatiga (su desempeño fue mejor en el segundo artículo que en el primero, pero peor en el tercero)

Es notable que cuando nos centramos sólo en la mitad de los codificadores humanos con mejor desempeño los LLMs más avanzados continúan desempeñando mejor. Del mismo modo, la consistencia que mostraron los LLMs en sus respuestas fue en todos los casos superior a la de los codificadores humanos, que a su vez se mostraron sustancialmente mejores que el simple azar en todas las tareas.

Ventajas de coste e implementación

Las ventajas en términos de coste para los investigadores que ofrecieron los LLMs fueron considerables. Ejecutar las cinco tareas en el cuerpo completo de textos costó solo $0,20 con GPT-3.5-turbo, $3,46 con GPT-4, $8,53 con Claude 3 Opus y $2,28 con Claude 3.5 Sonnet. En cada caso, el conjunto completo de respuestas se generó en cuestión de minutos a través de llamadas a las respectivas APIs

Por su parte, la subcontratación de codificadores humanos requirió una inversión sustancial: diseñar el cuestionario en línea, reclutar y gestionar a 146 participantes, y coordinar todo el proceso de recolección de datos tomó aproximadamente 98 días y requirió ofrecer remuneración a través de créditos universitarios.

Es importante mencionar que debido al limitado tamaño de nuestro conjunto de datos (210 artículos), no estimamos el coste medioambiental de utilizar los distintos LLMs. Sin embargo, a la hora de escalar su uso, esta es una dimensión a considerar. Este trabajo de Rillig et al. (2023) explora esta cuestión en profundidad.

Implicaciones

Nuestro estudio resalta el creciente potencial de los LLMs como herramientas potentes y baratas para el análisis de textos a gran escala. Los resultados muestran que los LLMs superan de manera consistente a los codificadores humanos en una amplia gama de tareas—algunas de las cuales requieren un conocimiento contextual profundo e la consideracion de relaciones sutiles. En nuestra opinión, estos modelos representan una disrupción que permitirá a los académicos y profesionales de distintos ámbitos multiplicar sus oportunidades para explorar diversos fenómenos sociales.

Gracias por leer nuestro blog. Nada es Gratis se financia en parte con las cuotas de los socios de la asociación homónima, pero para llevar a cabo sus actividades necesita la aportación desinteresada de todos aquellos que deseen apoyar su labor.
Dona aquí.