- Nada es Gratis - https://nadaesgratis.es -

Los gorjeos del paro

paro esteban fig1Asistimos en los últimos meses a una auténtica explosión del impacto de la red social Twitter en la vida pública, en particular en lo tocante a las estupideces y barbaridades que dicen políticos, famosos y demás gente de la farándula (ejemplos). A mí me resulta asombroso lo imprudente de unos (que no interiorizan que lo que uno dice en Twitter es público) y el tiempo del que disponen otros para dedicarse a trollear (en cristiano, lanzar improperios) a los bocazas a troche y moche. Yo soy usuario de Twitter (le invito a seguirme en @anxosan, y a este blog en @nadaesgratis); de hecho, es la única herramienta social que utilizo y créame, amigo lector, me resulta muy útil para mi trabajo, ya que eligiendo adecuadamente a las personas e instituciones que sigo recibo una enorme cantidad de información que seguramente no tendría de otro modo. Pero entiendo perfectamente que a usted le parezca que esto de Twitter es una memez, por eso hoy voy a contarle como Twitter nos puede proporcionar valiosísimos conocimientos sobre cosas tan importantes como el paro.

Empecemos por el principio, porque aunque sospecho que a estas alturas mucha gente sabe perfectamente lo que es Twitter, no está de más explicar brevemente en que consiste. Twitter permite a sus usuarios lanzar tweets (gorjeos, aunque mucho más habitualmente decimos tuits en supuesto español), frases de 140 caracteres o menos, que pueden incluir fotos o citas a otros tuits o referencias a páginas web. Estos tuits son enviados exclusivamente a los seguidores de la persona que los envía, que son aquellos usuarios que han elegido recibirlos. Lo interesante (y lo que está enviando carreras políticas a la tumba) es que los tuits son públicos; cualquier persona puede revisar el contenido de Twitter y recoger lo que ha ido diciendo otra persona concreta, o un grupo de personas, o lo dicho sobre un tema (es muy habitual que los tuiteros utilicen palabras clave indicadas con el signo #, y que en la jerga del medio se llaman hashtags; un ejemplo podría ser #estepostesunabobada). Además, muchos tuits vienen marcados geográficamente, es decir, contienen información del momento y lugar desde donde fueron enviados. Esto está permitiendo en los últimos años realizar investigaciones muy variadas con una gran cantidad de datos (el famoso big data) y sobre temas de lo más diverso.

Uno de los investigadores más activos en este terreno en nuestro país es Esteban Moro, miembro destacado del Grupo Interdisciplinar de Sistemas Complejos (GISC) en la Universidad Carlos III de Madrid, al que yo también me honro en pertenecer. Por eso es un placer traer hoy aquí uno de sus últimos trabajos, Social media fingerprints of unemployment (Huellas digitales del paro en las redes sociales), recientemente aparecido en PLOS ONE. Junto con sus colaboradores A. Llorente (también miembro del GISC), M. García Herranz y M. Cebrián, han estudiado como usar Twitter para obtener datos a nivel de ciudades que luego se puedan relacionar con indicadores socioeconómicos, que en el caso de su ejemplo son los del paro. Para ello, recogieron casi 20 millones de tuits de diciembre de 2012 a junio de 2013, enviados por más de medio millón de usuarios, que comprobaron que muestreaban correctamente los municipios en función de su población. En el estudio no utilizan los municipios directamente, sino que construyen "comunidades" a partir del estudio de los desplazamientos entre localidades. Esto es muy interesante en sí mismo, pero para no alargar el post no entraré en el detalle de cómo lo hacen, y diré tan solo que obtienen 340 comunidades, que en media agrupan unos 20 municipios vecinos, y que son muy parecidas a la estructura informal que llamamos "comarca". Estas comunidades serán nuestros referentes geográficos en lo que sigue. Por otro lado, hay que indicar que Twitter no nos da una muestra correcta en términos de edades, ya que la gente mayor de 44 años está infra-representada, y por tanto el estudio debe entenderse como aplicable, sobre todo, al grupo de edad de menores de 44 años.

Para cada comunidad geográfica, los autores del estudio recogieron los datos oficiales del paro, para luego compararlos con las medidas obtenidas de Twitter, que eligieron como sigue:

paro esteban fig2a

Figura 1. Patrones de actividad horaria en regiones con bajo o alto nivel de desempleo.

paro esteban fig2c

Figura 3. Ejemplo de comunidad con baja entropía (y por tanto baja diversidad en sus relaciones) y con alta entropía (y mayor diversidad en sus relaciones).

Como se ha podido ir imaginando el avispado lector de NeG viendo las gráficas, hay relaciones entre estas magnitudes y el desempleo, que se recogen en la figura siguiente:paro esteban fig3

Figura 4. Correlaciones observadas entre las magnitudes medidas y el nivel de paro. Cada círculo corresponde a una comunidad geográfica y el tamaño del círculo es proporcional a la población de la misma.

Así, en cuanto a penetración de redes sociales, se observa que crece con el desempleo, lo que contradice resultados obtenidos a nivel de estados y su producto interior bruto, indicando diferencias entre el nivel estado y el nivel intraestado. La actividad es muy diferente, y hay un pico claro a primeras horas de la mañana en zonas con bajo desempleo, en las que también hay menor actividad en horas nocturnas. Hay también una correlación muy fuerte entre regiones con mayor nivel de errores ortográficos y mayor desempleo, y menor (y negativa) entre desempleo y la entropía social (dada por los usuarios de otras regiones con los que se interacciones) que se vuelve inexistente en el caso de fijarnos en las regiones y no en los usuarios individuales ("entropy 2" en la figura).

El siguiente paso es realizar una regresión para identificar cuáles de estas variables son las más relevantes y descartar variables no significativas. El resultado de dicha regresión aparece en la figura siguiente:

paro esteban fig4

Figura 5. Comparación entre los resultados del modelo de regresión y el paro observado. Cada círculo corresponde a una comunidad geográfica y el tamaño del círculo es proporcional a la población de la misma.

Como vemos, un modelo con las variables que Llorente y colaboradores han considerado tiene un poder explicativo considerable, de más del 50%, resultando significativas las variables tasa de penetración (con peso 35% en el modelo), la entropía y los errores ortográficos (ambas con pesos ligeramente superiores al 20%) y la actividad matutina (en torno al 15%).

Es posible que, llegados a este punto, esté usted preguntándose, amigo lector, sobre el porqué de hacer estos estudios. Después de todo, ya sabemos el paro que hay en cada sitio, por lo que esto no nos aporta nada, ¿no? Pues me va usted a permitir contradecirle: aportan muchísimo, y por varias razones. En primer lugar, el estudio muestra que de Twitter, pese a que es con mucho la red social con más "ruido" (usuarios muy activos, usuarios destructivos, usuarios artificiales, datos sin localización geográfica,...), se pueden obtener indicadores que son significativos para analizar el estado de la economía. Esto puede inspirarnos para diseñar otros estudios que nos permitan averiguar el estado de otros indicadores económicos peor conocidos o incluso desconocidos. En segundo lugar, el estudio muestra que el desempleo condiciona la actividad de los usuarios de redes sociales, lo que debe ser tenido en cuenta a la hora de diseñar campañas de marketing o de comunicación y movilización social. Y en tercer lugar, el éxito del estudio en relacionar desempleo con indicadores obtenidos de Twitter abre la puerta a dos aplicaciones importantes: por un lado, y tras más estudios para afinar en la descripción y encontrar otras magnitudes interesantes, se podría pensar en sustituir las encuestas, que son muy costosas, por análisis como este, o al menos en combinarlos adecuadamente. Y por otro lado, en países donde es muy difícil llevar a cabo encuestas por motivos geográficos o de desarrollo, Twitter puede darnos datos que de otra manera no tendríamos, y de hecho hay países que ya se están interesando por desarrollar este estudio para su caso.

Queda todavía mucho camino por recorrer, pero este trabajo es un paso importante en la buena dirección. Obviamente, hay que seguir investigando para encontrar indicadores más fiables, e incluso para intentar predecir cambios analizando la evolución de magnitudes como la actividad en redes sociales o la movilidad, que varían en una escala de tiempo muy superior a otras magnitudes y que podrían, quizá, dar lugar a algoritmos que anticiparan la evolución de indicadores económicos. La aplicación para realizar ensayos aleatorizados o para estudiar el efecto de políticas concretas sería también un aspecto importante a considerar. Aún así, a pesar de todo lo que queda por hacer, lo que acabamos de ver es que el desempleo, y posiblemente otros indicadores económicos importantes, están tuiteando también. Queda aprender a escucharlos.