- Nada es Gratis - http://nadaesgratis.es -

Por favor ¿puedes dejar de compartir mis datos, por favor?

El reciente escándalo de Facebook y Cambridge Analytica ha supuesto un serie toque de atención sobre la importancia de la privacidad de los datos personales. No creo que haga falta justificar mucho la relevancia de este tema, pero por si acaso diré simplemente que la Constitución Española, en su artículo 18, y sentencias posteriores del Tribunal Constitucional garantizan a la persona el control sobre sus datos personales, y sobre su uso y destino, para evitar el tráfico ilícito de los mismos o lesivo para la dignidad y los derechos de los afectados (véase por ejemplo aquí). Tráfico como el que se realizó en el caso Cambridge Analytica (véase también este post de Politikon sobre el tema), pero también tráfico como el que hace Facebook internamente cuando usa los datos para averiguar otros de sus usuarios especialmente protegidos, como religión u orientación sexual, que luego utiliza para vender campañas de publicidad dirigidas a colectivos específicos, como se ha puesto de manifiesto recientemente en un estudio de mis compañeros de universidad Angel Cuevas, Rubén Cuevas y José González (véase por ejemplo aquí).

Este post supone una vuelta de tuerca sobre el problema de la privacidad, ya que pretendo mostrar que compartir mis datos no sólo me afecta a mí, sino que afecta también a mis amigos y conocidos sin que ellos tengan el menor control sobre el asunto. De ahí, de hecho, el título: ¿queréis dejar de compartir mis datos, queridísimos amigos? Pero ¿cómo puede ser esto posible? Y aquí llegamos al trabajo que quiero comentar hoy, "Collective aspects of privacy in the Twitter social network" ("Aspectos colectivos de la privacidad en la red social Twitter"), de David García (más talento español emigrado, en este caso a Viena), Mansi Goel, Amod Kant Agrawal y Ponnurangam Kumaraguru. El mensaje del trabajo es muy claro: usando datos de Twitter se puede averiguar datos sobre personas que NO están en Twitter. ¿Cómo lo ve, amigo lector?

El punto de partida de la investigación es el hecho de que las redes sociales como Twitter existen en paralelo entre ellas y con otras aplicaciones, y normalmente al aceptar sus condiciones de uso (sí, esas páginas y páginas de rollo y letra pequeña y enlaces a otras páginas que nunca nos leemos, ejemplo, las de Facebook, y no son las peores) les dejamos acceder a datos de otras de esas aplicaciones, por ejemplo, a nuestros contactos. Esto permitiría a los propietarios de las redes sociales en cuestión elaborar perfiles en la sombra: perfiles de personas que no pertenecen a la red social. Esta es la hipótesis que García y sus colaboradores se propusieron comprobar y que tiene su origen en un trabajo anterior del español en solitario en el que la estudiaba sobre una red social ya difunta, Friendster.

El primer paso fue reunir una muestra al azar de usuarios de Twitter. Generaron identificadores numéricos de usuarios al azar, y de esa selección eliminaron las celebridades descartando perfiles con tasas de seguidores a seguidos inferiores a 0.1 o superiores a 10, y gente con menos de 50 seguidores. Así se quedaron con unos 1000 usuarios, de los que recogieron 3200 tuits. Con esos tuits, identificaron a los amigos de los usuarios, es decir, construyeron su red egocéntrica, fijándose en aquellos a los que citaban más de cuatro veces. Luego cogieron a todos estos usuarios, casi 70 000 más, y sus correspondientes tuits, hasta manejar un total de más de 150 millones de tuits.

De estos usuarios, identificaron su localización, usando tanto datos de aquellos tuits que están geolocalizados como sus propios datos biográficos en su perfil, cosa que lograron hacer con 630 de los 1000 iniciales, y casi 40 000 de los secundarios. En cuanto a los perfiles biográficos, es un poco más complicado de contar lo que hicieron, pero para nuestros propósitos es suficiente decir que mediante un algoritmo de tratamiento de texto lograron clasificar los perfiles de acuerdo a unas 100 variables, y luego con otro de análisis de componentes principales se quedaron con las dos características biográficas más importantes. Esto tiene el incoveniente de que las características seleccionadas no tienen una interpretación clara en términos usuales, pero facilita mucho el trabajo de predicción y permitiría seleccionar igualmente a objetivos para unas u otras campañas. Finalmente, identificaron también el dispositivo desde el que se escribió cada tuit cuando era posible, usando por ejemplo las coletillas "Twitter for iPhone" y similares, que casi un 80% de usuarios y tuits contienen. Esto es importante porque estos son los usuarios que permiten acceso a los contactos de su smartphone.

En la figura de arriba, el panel de la izquierda resume la estructura de datos que acabo de describir, y el de la derecha entra en el procedimiento de confección de perfiles en la sombra: para cada usuario de los 1000 primeros, cuentan con los usuarios de entre todos los seleccionados que ya pertenecían a Twitter cuando el usuario en cuestión entró en la red. De esos usuarios predecesores, algunos (los rojos) permitían acceso a su lista de contactos en Twitter y otros (los azules) no. El problema del perfil en la sombra consiste entonces en intentar inferir información personal del usuario en el que nos estamos fijando utilizando sólo información obtenida a través de los predecesores que comparten sus contactos, ignorando todos los datos de aquellos que no comparten sus contactos y de todos los que se incorporaron después a la red.

En este contexto, García y colaboradores utilizaron predictores no supervisados (da igual lo que sea esto; quédese, amigo lector, con que es un algoritmo de ordenador) para inferir la localización y el vector biográfico de acuerdo a las reglas anteriores. El resultado es que la mediana de los errores cometidos es de unos 70 km, a comparar con la de los obtenidos por el modelo nulo de comparación que es de más de 6300 km. Además, cuando se intenta predecir la ciudad concreta, los predictores aciertan un 32% de las veces, mientras que el modelo nulo no acierta prácticamente nunca. Además, mirando usuario a usuario, el error decrece con el número de predecesores del usuario que se pretende predecir, como cabría esperar si cada predecesor aporta información. En cuanto a los perfiles biográficos, la predicción en general es mala, pero si se fija uno en usuarios que tienen un número de predecesores superior a la media, la predicción mejora sensiblemente y supera de largo al modelo nulo.

Estos resultados (junto con los anteriores sobre Friendster) tienen implicaciones muy serias pero hay que discutirlas con cuidado, como hacen los investigadores en su trabajo. En primer lugar, la investigación prueba la existencia de los perfiles en la sombra, pero no que existan o que Twitter u otras redes los esté haciendo. Sin embargo, sabiendo que se pueden construir, es necesario preguntarse por esa posibilidad y cuestionarnos qué control tenemos sobre nuestra información personal online debido a que otros la comparten. Está claro que visto esto, sin mecanismos adicionales de control, las personas tenemos muy poca capacidad de evitar que obtengan nuestros perfiles sin nuestro consentimiento.

Por otro lado, los métodos que se usan en este artículo no son muy sofisticados, y aún así los errores son comparables a los que se cometen usando toda la información, no sólo de predecesores que comparten datos. Usar métodos más avanzados aumentará la capacidad de predicción, pero desarrollar dichos métodos conlleva implicaciones éticas sobre obtención de información de personas ajenas a la red social de que se trate que habría que abordar muy seriamente. Además, los autores discuten también algunas limitaciones de su trabajo, de las cuales la que me parece más relevante es la de que han comprobado la hipótesis del perfil en la sombra usando datos históricos de usuarios que entran en un momento dado en una red, pero habría que hacerlo con usuarios que no llegan a entrar, y que eso permitiría entender bien la gravedad del problema. Se podría hacer esto trabajando con voluntarios que permitieran utilizar sus datos para esa investigación, pero este tema queda obviamente pendiente. Por otro lado, la muestra utilizada puede no ser demográficamente representativa, pero el problema aquí no es la representatividad sino el demostrar, como han hecho, que se puede hacer perfiles en la sombra de algunas personas.

Y para concluir, nada mejor que las palabras de los propios investigadores (la traducción es mía):

Las implicaciones de nuestros resultados están claras: los individuos no tienen control total sobre su privacidad y la decisión de no compartir información online está afectada por las decisiones de otras personas. Esto quiere decir que no podemos pensar en privacidad online como un problema puramente individual que puede reducirse a decisiones personales. (...) Mientras que las Condiciones de Uso y las políticas de privacidad constituyen contratos exclusivos entre un usuario y los propietarios de un servicio online o red social, nuestros resultados muestran que hay claras externalidades de datos que afectan a otras personas. Cuando creamos una cuenta y compartimos información, compartimos información sobre otros sin darnos cuenta, afectando de manera efectiva a su privacidad. La analogía de que "los datos son el nuevo petróleo" y no el nuevo oro encaja bien con esta situación: los datos no solo tienen valor intrínseco, sino que también generan costes y daño a gente que no se beneficia directamente de ellos.

Pues ya lo sabe, amigo lector: piénselo la próxima vez que comparta cosas en redes sociales. Preservar la privacidad es trabajo de todos. Por favor, deje de compartir mis datos, por favor. Gracias.

Nota: El título de este post parafrasea el de una colección de cuentos de Raymond CarverWill you please be quiet, please? Carver, cuyo trabajo fue popularizado por el éxito de la película Shortcuts (Robert Altman, 1993), presenta en sus relatos una visión minimalista y deprimente de la sociedad de Estados Unidos, con relatos que empiezan y acaban sin ir realmente a ningún sitio.

Nota 2: Tres días antes de que se publicara este post nuestro bienamado editor Pedro Rey me hizo llegar este artículo de JotDown sobre el mismo tema de los "perfiles en la sombra" en Facebook, de lectura muy recomendable.