Los gorjeos del paro

paro esteban fig1Asistimos en los últimos meses a una auténtica explosión del impacto de la red social Twitter en la vida pública, en particular en lo tocante a las estupideces y barbaridades que dicen políticos, famosos y demás gente de la farándula (ejemplos). A mí me resulta asombroso lo imprudente de unos (que no interiorizan que lo que uno dice en Twitter es público) y el tiempo del que disponen otros para dedicarse a trollear (en cristiano, lanzar improperios) a los bocazas a troche y moche. Yo soy usuario de Twitter (le invito a seguirme en @anxosan, y a este blog en @nadaesgratis); de hecho, es la única herramienta social que utilizo y créame, amigo lector, me resulta muy útil para mi trabajo, ya que eligiendo adecuadamente a las personas e instituciones que sigo recibo una enorme cantidad de información que seguramente no tendría de otro modo. Pero entiendo perfectamente que a usted le parezca que esto de Twitter es una memez, por eso hoy voy a contarle como Twitter nos puede proporcionar valiosísimos conocimientos sobre cosas tan importantes como el paro.

Empecemos por el principio, porque aunque sospecho que a estas alturas mucha gente sabe perfectamente lo que es Twitter, no está de más explicar brevemente en que consiste. Twitter permite a sus usuarios lanzar tweets (gorjeos, aunque mucho más habitualmente decimos tuits en supuesto español), frases de 140 caracteres o menos, que pueden incluir fotos o citas a otros tuits o referencias a páginas web. Estos tuits son enviados exclusivamente a los seguidores de la persona que los envía, que son aquellos usuarios que han elegido recibirlos. Lo interesante (y lo que está enviando carreras políticas a la tumba) es que los tuits son públicos; cualquier persona puede revisar el contenido de Twitter y recoger lo que ha ido diciendo otra persona concreta, o un grupo de personas, o lo dicho sobre un tema (es muy habitual que los tuiteros utilicen palabras clave indicadas con el signo #, y que en la jerga del medio se llaman hashtags; un ejemplo podría ser #estepostesunabobada). Además, muchos tuits vienen marcados geográficamente, es decir, contienen información del momento y lugar desde donde fueron enviados. Esto está permitiendo en los últimos años realizar investigaciones muy variadas con una gran cantidad de datos (el famoso big data) y sobre temas de lo más diverso.

Uno de los investigadores más activos en este terreno en nuestro país es Esteban Moro, miembro destacado del Grupo Interdisciplinar de Sistemas Complejos (GISC) en la Universidad Carlos III de Madrid, al que yo también me honro en pertenecer. Por eso es un placer traer hoy aquí uno de sus últimos trabajos, Social media fingerprints of unemployment (Huellas digitales del paro en las redes sociales), recientemente aparecido en PLOS ONE. Junto con sus colaboradores A. Llorente (también miembro del GISC), M. García Herranz y M. Cebrián, han estudiado como usar Twitter para obtener datos a nivel de ciudades que luego se puedan relacionar con indicadores socioeconómicos, que en el caso de su ejemplo son los del paro. Para ello, recogieron casi 20 millones de tuits de diciembre de 2012 a junio de 2013, enviados por más de medio millón de usuarios, que comprobaron que muestreaban correctamente los municipios en función de su población. En el estudio no utilizan los municipios directamente, sino que construyen "comunidades" a partir del estudio de los desplazamientos entre localidades. Esto es muy interesante en sí mismo, pero para no alargar el post no entraré en el detalle de cómo lo hacen, y diré tan solo que obtienen 340 comunidades, que en media agrupan unos 20 municipios vecinos, y que son muy parecidas a la estructura informal que llamamos "comarca". Estas comunidades serán nuestros referentes geográficos en lo que sigue. Por otro lado, hay que indicar que Twitter no nos da una muestra correcta en términos de edades, ya que la gente mayor de 44 años está infra-representada, y por tanto el estudio debe entenderse como aplicable, sobre todo, al grupo de edad de menores de 44 años.

Para cada comunidad geográfica, los autores del estudio recogieron los datos oficiales del paro, para luego compararlos con las medidas obtenidas de Twitter, que eligieron como sigue:

  • Adopción de tecnologías de medios sociales, medida como el porcentaje de población en una comunidad que usa Twitter.
  • Actividad en medios sociales, medida como la frecuencia de tuits enviados a diferentes horas del día o en ciclos semanales.

paro esteban fig2a

Figura 1. Patrones de actividad horaria en regiones con bajo o alto nivel de desempleo.

  • Contenidos en medios sociales. Si bien uno podría fijarse en el uso de palabras como "trabajo" o "paro" (para las que por cierto se observa una cierta correlación con el nivel de paro), los autores intentan ir más allá analizando la manera de escribir (y los errores cometidos) como indicador del nivel de educación.paro esteban fig2bFigura 2. Ejemplos de errores ortográficos analizados.
  • Diversidad geográfica de las interacciones en medios sociales. En este caso se fijan en los tuits de un usuario que menciona a otros y se interpreta que hay relación social entre ellos (lo cual no es necesariamente cierto). A partir de esta información obtienen una magnitud llamada "entropía" (que para los expertos tiene que ver con la entropía de la información), cuyo cálculo no nos preocupa ahora, pero que a mayores valores indica mayor diversidad geográfica en las relaciones.

paro esteban fig2c

Figura 3. Ejemplo de comunidad con baja entropía (y por tanto baja diversidad en sus relaciones) y con alta entropía (y mayor diversidad en sus relaciones).

Como se ha podido ir imaginando el avispado lector de NeG viendo las gráficas, hay relaciones entre estas magnitudes y el desempleo, que se recogen en la figura siguiente:paro esteban fig3

Figura 4. Correlaciones observadas entre las magnitudes medidas y el nivel de paro. Cada círculo corresponde a una comunidad geográfica y el tamaño del círculo es proporcional a la población de la misma.

Así, en cuanto a penetración de redes sociales, se observa que crece con el desempleo, lo que contradice resultados obtenidos a nivel de estados y su producto interior bruto, indicando diferencias entre el nivel estado y el nivel intraestado. La actividad es muy diferente, y hay un pico claro a primeras horas de la mañana en zonas con bajo desempleo, en las que también hay menor actividad en horas nocturnas. Hay también una correlación muy fuerte entre regiones con mayor nivel de errores ortográficos y mayor desempleo, y menor (y negativa) entre desempleo y la entropía social (dada por los usuarios de otras regiones con los que se interacciones) que se vuelve inexistente en el caso de fijarnos en las regiones y no en los usuarios individuales ("entropy 2" en la figura).

El siguiente paso es realizar una regresión para identificar cuáles de estas variables son las más relevantes y descartar variables no significativas. El resultado de dicha regresión aparece en la figura siguiente:

paro esteban fig4

Figura 5. Comparación entre los resultados del modelo de regresión y el paro observado. Cada círculo corresponde a una comunidad geográfica y el tamaño del círculo es proporcional a la población de la misma.

Como vemos, un modelo con las variables que Llorente y colaboradores han considerado tiene un poder explicativo considerable, de más del 50%, resultando significativas las variables tasa de penetración (con peso 35% en el modelo), la entropía y los errores ortográficos (ambas con pesos ligeramente superiores al 20%) y la actividad matutina (en torno al 15%).

Es posible que, llegados a este punto, esté usted preguntándose, amigo lector, sobre el porqué de hacer estos estudios. Después de todo, ya sabemos el paro que hay en cada sitio, por lo que esto no nos aporta nada, ¿no? Pues me va usted a permitir contradecirle: aportan muchísimo, y por varias razones. En primer lugar, el estudio muestra que de Twitter, pese a que es con mucho la red social con más "ruido" (usuarios muy activos, usuarios destructivos, usuarios artificiales, datos sin localización geográfica,...), se pueden obtener indicadores que son significativos para analizar el estado de la economía. Esto puede inspirarnos para diseñar otros estudios que nos permitan averiguar el estado de otros indicadores económicos peor conocidos o incluso desconocidos. En segundo lugar, el estudio muestra que el desempleo condiciona la actividad de los usuarios de redes sociales, lo que debe ser tenido en cuenta a la hora de diseñar campañas de marketing o de comunicación y movilización social. Y en tercer lugar, el éxito del estudio en relacionar desempleo con indicadores obtenidos de Twitter abre la puerta a dos aplicaciones importantes: por un lado, y tras más estudios para afinar en la descripción y encontrar otras magnitudes interesantes, se podría pensar en sustituir las encuestas, que son muy costosas, por análisis como este, o al menos en combinarlos adecuadamente. Y por otro lado, en países donde es muy difícil llevar a cabo encuestas por motivos geográficos o de desarrollo, Twitter puede darnos datos que de otra manera no tendríamos, y de hecho hay países que ya se están interesando por desarrollar este estudio para su caso.

Queda todavía mucho camino por recorrer, pero este trabajo es un paso importante en la buena dirección. Obviamente, hay que seguir investigando para encontrar indicadores más fiables, e incluso para intentar predecir cambios analizando la evolución de magnitudes como la actividad en redes sociales o la movilidad, que varían en una escala de tiempo muy superior a otras magnitudes y que podrían, quizá, dar lugar a algoritmos que anticiparan la evolución de indicadores económicos. La aplicación para realizar ensayos aleatorizados o para estudiar el efecto de políticas concretas sería también un aspecto importante a considerar. Aún así, a pesar de todo lo que queda por hacer, lo que acabamos de ver es que el desempleo, y posiblemente otros indicadores económicos importantes, están tuiteando también. Queda aprender a escucharlos.

Hay 14 comentarios
  • Hay mucha information útil en recess sociales, pero los individuals se autoseleccionan, no solo en la decision de participar, sino en la intesidad de su participación. La consecuencia es que, al igual que en el muestreo de conveniencia, la information no es representativa de la poblacion, y suele haber un sego importante hacia posiciones extremas. Esto limita mucho la calidad de los datos, ciertamente mucho mas que en una encuesta representativa con una tasa de participación razonable. Es cierto que usando series temporales, la información de redes sociales, especialmente Twitter, puede correlacionarse con datos temporales de otras fuentes, y los resultados pueden ser útiles, se han usado para predecir resultados en bolsa, o variables clave en marketing y ventas de una marca. Pero parece algo arriesgado ir más allá.

    • Gracias José M, es cierto, pero de eso trata precisamente el post, de ver hasta qué punto se puede sacar información de una red tan ruidosa y sometida a tantas influencias internas y externas como Twitter. Y la conclusión es muy alentadora, aunque insisto con los autores en que no se trata de sustituir otros datos si no de complementarlos. O de hacer el único estudio posible en según qué sitios!

  • Anxo, perdone, pero "mobilización" no es correcto. Que conste que la primera vez que leí el texto se me pasó.

  • Muy interesante. Gracias. Se suele decir que una parte de la estadística del paro es en realidad economía sumergida. Esta parte será pequeña en unos sitios y no tan pequeña en otros. Si se puede predecir el desempleo con los tuits, quizá también se pueda predecir la economía sumergida. Por cierto, lo de los gorjeos es tan feo que me costó decidirme a leer la entrada :))

  • Intersante. Me pregunto cómo se ha hecho para diferenciar lo que es una falta de ortografía de lo que es una abreviación o incluso el uso de alguna de las lenguas que se hablan en España, no necesariamente todas ellas oficiales.

    • Los autores lo han hecho con cuidado y por eso se han fijado en cosas que no conllevan abreviar (por ejemplo, "hecho en falta" en vez de "echo en falta") y otras similares. No me puedo parar a detallarlo pero está bien explicado en su paper. En cuanto al idioma, imagino, pero no sé, que han identificado tuits en castellano...

  • Don Anxo, me atrevo a sugerir trinos como sustítuto de gorjeo, es más bucólico. Por otra parte el estudio parece más una exploración preliminar que puede incitar a la participación en profundidad de investigadores en otros campos. Interesantes conclusiones sin duda. Muchas gracias. No uso esa aplicación porqué no tengo tiempo pero le seguiría muy gustoso.

Los comentarios están cerrados.