Por favor ¿puedes dejar de compartir mis datos, por favor?

El reciente escándalo de Facebook y Cambridge Analytica ha supuesto un serie toque de atención sobre la importancia de la privacidad de los datos personales. No creo que haga falta justificar mucho la relevancia de este tema, pero por si acaso diré simplemente que la Constitución Española, en su artículo 18, y sentencias posteriores del Tribunal Constitucional garantizan a la persona el control sobre sus datos personales, y sobre su uso y destino, para evitar el tráfico ilícito de los mismos o lesivo para la dignidad y los derechos de los afectados (véase por ejemplo aquí). Tráfico como el que se realizó en el caso Cambridge Analytica (véase también este post de Politikon sobre el tema), pero también tráfico como el que hace Facebook internamente cuando usa los datos para averiguar otros de sus usuarios especialmente protegidos, como religión u orientación sexual, que luego utiliza para vender campañas de publicidad dirigidas a colectivos específicos, como se ha puesto de manifiesto recientemente en un estudio de mis compañeros de universidad Angel Cuevas, Rubén Cuevas y José González (véase por ejemplo aquí).

Este post supone una vuelta de tuerca sobre el problema de la privacidad, ya que pretendo mostrar que compartir mis datos no sólo me afecta a mí, sino que afecta también a mis amigos y conocidos sin que ellos tengan el menor control sobre el asunto. De ahí, de hecho, el título: ¿queréis dejar de compartir mis datos, queridísimos amigos? Pero ¿cómo puede ser esto posible? Y aquí llegamos al trabajo que quiero comentar hoy, "Collective aspects of privacy in the Twitter social network" ("Aspectos colectivos de la privacidad en la red social Twitter"), de David García (más talento español emigrado, en este caso a Viena), Mansi Goel, Amod Kant Agrawal y Ponnurangam Kumaraguru. El mensaje del trabajo es muy claro: usando datos de Twitter se puede averiguar datos sobre personas que NO están en Twitter. ¿Cómo lo ve, amigo lector?

El punto de partida de la investigación es el hecho de que las redes sociales como Twitter existen en paralelo entre ellas y con otras aplicaciones, y normalmente al aceptar sus condiciones de uso (sí, esas páginas y páginas de rollo y letra pequeña y enlaces a otras páginas que nunca nos leemos, ejemplo, las de Facebook, y no son las peores) les dejamos acceder a datos de otras de esas aplicaciones, por ejemplo, a nuestros contactos. Esto permitiría a los propietarios de las redes sociales en cuestión elaborar perfiles en la sombra: perfiles de personas que no pertenecen a la red social. Esta es la hipótesis que García y sus colaboradores se propusieron comprobar y que tiene su origen en un trabajo anterior del español en solitario en el que la estudiaba sobre una red social ya difunta, Friendster.

El primer paso fue reunir una muestra al azar de usuarios de Twitter. Generaron identificadores numéricos de usuarios al azar, y de esa selección eliminaron las celebridades descartando perfiles con tasas de seguidores a seguidos inferiores a 0.1 o superiores a 10, y gente con menos de 50 seguidores. Así se quedaron con unos 1000 usuarios, de los que recogieron 3200 tuits. Con esos tuits, identificaron a los amigos de los usuarios, es decir, construyeron su red egocéntrica, fijándose en aquellos a los que citaban más de cuatro veces. Luego cogieron a todos estos usuarios, casi 70 000 más, y sus correspondientes tuits, hasta manejar un total de más de 150 millones de tuits.

De estos usuarios, identificaron su localización, usando tanto datos de aquellos tuits que están geolocalizados como sus propios datos biográficos en su perfil, cosa que lograron hacer con 630 de los 1000 iniciales, y casi 40 000 de los secundarios. En cuanto a los perfiles biográficos, es un poco más complicado de contar lo que hicieron, pero para nuestros propósitos es suficiente decir que mediante un algoritmo de tratamiento de texto lograron clasificar los perfiles de acuerdo a unas 100 variables, y luego con otro de análisis de componentes principales se quedaron con las dos características biográficas más importantes. Esto tiene el incoveniente de que las características seleccionadas no tienen una interpretación clara en términos usuales, pero facilita mucho el trabajo de predicción y permitiría seleccionar igualmente a objetivos para unas u otras campañas. Finalmente, identificaron también el dispositivo desde el que se escribió cada tuit cuando era posible, usando por ejemplo las coletillas "Twitter for iPhone" y similares, que casi un 80% de usuarios y tuits contienen. Esto es importante porque estos son los usuarios que permiten acceso a los contactos de su smartphone.

En la figura de arriba, el panel de la izquierda resume la estructura de datos que acabo de describir, y el de la derecha entra en el procedimiento de confección de perfiles en la sombra: para cada usuario de los 1000 primeros, cuentan con los usuarios de entre todos los seleccionados que ya pertenecían a Twitter cuando el usuario en cuestión entró en la red. De esos usuarios predecesores, algunos (los rojos) permitían acceso a su lista de contactos en Twitter y otros (los azules) no. El problema del perfil en la sombra consiste entonces en intentar inferir información personal del usuario en el que nos estamos fijando utilizando sólo información obtenida a través de los predecesores que comparten sus contactos, ignorando todos los datos de aquellos que no comparten sus contactos y de todos los que se incorporaron después a la red.

En este contexto, García y colaboradores utilizaron predictores no supervisados (da igual lo que sea esto; quédese, amigo lector, con que es un algoritmo de ordenador) para inferir la localización y el vector biográfico de acuerdo a las reglas anteriores. El resultado es que la mediana de los errores cometidos es de unos 70 km, a comparar con la de los obtenidos por el modelo nulo de comparación que es de más de 6300 km. Además, cuando se intenta predecir la ciudad concreta, los predictores aciertan un 32% de las veces, mientras que el modelo nulo no acierta prácticamente nunca. Además, mirando usuario a usuario, el error decrece con el número de predecesores del usuario que se pretende predecir, como cabría esperar si cada predecesor aporta información. En cuanto a los perfiles biográficos, la predicción en general es mala, pero si se fija uno en usuarios que tienen un número de predecesores superior a la media, la predicción mejora sensiblemente y supera de largo al modelo nulo.

Estos resultados (junto con los anteriores sobre Friendster) tienen implicaciones muy serias pero hay que discutirlas con cuidado, como hacen los investigadores en su trabajo. En primer lugar, la investigación prueba la existencia de los perfiles en la sombra, pero no que existan o que Twitter u otras redes los esté haciendo. Sin embargo, sabiendo que se pueden construir, es necesario preguntarse por esa posibilidad y cuestionarnos qué control tenemos sobre nuestra información personal online debido a que otros la comparten. Está claro que visto esto, sin mecanismos adicionales de control, las personas tenemos muy poca capacidad de evitar que obtengan nuestros perfiles sin nuestro consentimiento.

Por otro lado, los métodos que se usan en este artículo no son muy sofisticados, y aún así los errores son comparables a los que se cometen usando toda la información, no sólo de predecesores que comparten datos. Usar métodos más avanzados aumentará la capacidad de predicción, pero desarrollar dichos métodos conlleva implicaciones éticas sobre obtención de información de personas ajenas a la red social de que se trate que habría que abordar muy seriamente. Además, los autores discuten también algunas limitaciones de su trabajo, de las cuales la que me parece más relevante es la de que han comprobado la hipótesis del perfil en la sombra usando datos históricos de usuarios que entran en un momento dado en una red, pero habría que hacerlo con usuarios que no llegan a entrar, y que eso permitiría entender bien la gravedad del problema. Se podría hacer esto trabajando con voluntarios que permitieran utilizar sus datos para esa investigación, pero este tema queda obviamente pendiente. Por otro lado, la muestra utilizada puede no ser demográficamente representativa, pero el problema aquí no es la representatividad sino el demostrar, como han hecho, que se puede hacer perfiles en la sombra de algunas personas.

Y para concluir, nada mejor que las palabras de los propios investigadores (la traducción es mía):

Las implicaciones de nuestros resultados están claras: los individuos no tienen control total sobre su privacidad y la decisión de no compartir información online está afectada por las decisiones de otras personas. Esto quiere decir que no podemos pensar en privacidad online como un problema puramente individual que puede reducirse a decisiones personales. (...) Mientras que las Condiciones de Uso y las políticas de privacidad constituyen contratos exclusivos entre un usuario y los propietarios de un servicio online o red social, nuestros resultados muestran que hay claras externalidades de datos que afectan a otras personas. Cuando creamos una cuenta y compartimos información, compartimos información sobre otros sin darnos cuenta, afectando de manera efectiva a su privacidad. La analogía de que "los datos son el nuevo petróleo" y no el nuevo oro encaja bien con esta situación: los datos no solo tienen valor intrínseco, sino que también generan costes y daño a gente que no se beneficia directamente de ellos.

Pues ya lo sabe, amigo lector: piénselo la próxima vez que comparta cosas en redes sociales. Preservar la privacidad es trabajo de todos. Por favor, deje de compartir mis datos, por favor. Gracias.

Nota: El título de este post parafrasea el de una colección de cuentos de Raymond CarverWill you please be quiet, please? Carver, cuyo trabajo fue popularizado por el éxito de la película Shortcuts (Robert Altman, 1993), presenta en sus relatos una visión minimalista y deprimente de la sociedad de Estados Unidos, con relatos que empiezan y acaban sin ir realmente a ningún sitio.

Nota 2: Tres días antes de que se publicara este post nuestro bienamado editor Pedro Rey me hizo llegar este artículo de JotDown sobre el mismo tema de los "perfiles en la sombra" en Facebook, de lectura muy recomendable.

Hay 9 comentarios
  • Causa risa que la olla se haya destapado cuando el olor no gustaba a quienes se consideraban dueños del poder. Lo que se lamenta hoy sobre falta de privacidad viene ocurriendo desde hace mucho tiempo y nada tiene que ver con el "escándalo" de Cambridge Analytica y sus servicios a Trump y Brexit. Antes se ignoraba porque favorecía a Obama y otros ·"buenos".

    El problema de los medios sociales es muy simple o (a) pagamos por cualquier servicio que presten en nuestros términos mediante una suscripción o (b) aceptamos dar gratis nuestros datos para relacionarnos con otros en la esperanza de encontrar otros mejor que los otros que hoy tenemos y de paso dejamos financiar a los medios vendiendo nuestros datos. Sabemos que los medios masivos prefieren (b), en particular Facebook, y entonces (a) es una alternativa poco viable. Cualquier duda revise a cuantos medios usted está suscripto.

    Aunque demos gracias a los medios sociales por haber dejado en evidencia la podredumbre de los medios tradicionales --en su mayoría basados en una variante de (b)-- no es menos cierto que los nuevos medios no escapan a esa podredumbre. Ni los viejos ni los nuevos medios nos dan información fiable, o si dan algunas las debemos buscar en sus tarros de basura y la búsqueda se nos hace muy costosa.

    Por supuesto, no extraña que los mismos de siempre hoy nos quieran controlar en lo que decimos y leemos. Advertencia: Si aceptamos exhibir dichos o acciones privadas, luego no lloremos.

  • Seguramente esto no resuelve el problema, pero quizás el legislador debería empezar a considerar que mi lista de contactos en el móvil no son parte de MIS datos privados, y por tanto yo no debería estar autorizado a dar permiso a las applicaciones para que accedan a ella.

  • En cierto sentido, no hay nada nuevo bajo el sol. Desde siempre, se han establecido perfiles de consumidores, usando información sociodemografica, y de comportamiento. Y se ha inferido el comportamiento de elementos que no están en la muestra, utilizando todo tipo de procedimientos de estadísticas multivariante, tanto para éticos como no para métricos, incluidas redes neuronales, etc. Las redes sociales, simplemente abaratan la captación de datos, y aumentan los tamaños muéstrales. Que Facebook venda parte de la información procesada entra en lo esperable, y en parte con esta actividad financia el servicio gratuito que ofrece. Los consumidores también se ven beneficiados por publicidad más útil para ellos, ósea que en términos generales no hay que tomar esto como una conspiración destructiva para el género humano, es más bien provechoso para las partes involucradas. Pero en todo mercado puede haber abusos, y la regulación ayuda a prevenirlos.

  • Estaría bien aclarar algunas de los hechos básicos de este "ruido" sobre Facebook y Cambridge analytica.

    1.- Cambridge analytica no obtuvo los datos de forma "fraudulenta" de Facebook. El acuerdo para la obtención de datos implicaba su uso para investigación. La "violación" (supuesta) es que CA pudo haberlos usado tambien con fines comerciales. En particular en trabajos de consultoría electoral para el partido republicano (que ya se sabe que es pecado ... si hubiera sido para el demócrata contaría como "tareas de ONG")

    2.- La "conexión rusa" (que contribuye al pánico) es que uno de los investigadores de Cambridge que trabajan en los algoritmos de extracción de datos es un profesor asociado en St Petesburg State University.

    3.- Lo que CA hacia (o vendía al partido republicano que podía hacer) era crear perfiles sicológicos de los votantes (y no a partir de datos de FB si no de una encuesta de 120 preguntas que "distribuia" a través de FB. Los perfiles permitían, teoricamente, hacer campañas personalizadas.

    Teniendo que rellenar anualmente información financiera personal detalladísima para el gobierno (para varios de hecho) esto solo puede parecerle un juego de niños. Y, además, útil ¿qué mejor que que los partidos políticos personalicen su oferta electoral a las características psicológicas de sus electores? ¿no se ha hecho toda la vida? ¿lo malo es tener herramientas mejores para hacer lo de siempre?

  • Gracias por el artículo. Llevo tiempo sin venir por aquí y me alegra ver que el profesor Sánchez sigue produciendo utilidad y detalle.

    Llevo entre ordenadores,n redes y software unos 50 años y ni por asomo se me ocurrió nunca entrar en el tipo de redes como Facebook o Twitter.
    Como bien explica Enrique más arriba estos son apenas dos de las menores preocupaciones para nuestra inexistente "privacidad".
    Lo sorprendente es que esto no sea un problema político de primera magnitud. Nuestra sumisión es lo realmente preocupante.
    En cualquier caso, la norma es: "Si estás conectado asume que todo el contenido de tus ficheros es público y eterno"
    Saludos

Los comentarios están cerrados.