¿Han hecho los grandes volúmenes de datos que el anonimato sea imposible?

En 1995, la Unión Europea introdujo unas leyes sobre privacidad que definían los 'datos personales' como cualquier información que pudiera identificar a una persona, directa o indirectamente. Aparentemente, los legisladores estaban considerando cosas como documentos con un número de identificación, y querían que estuvieran protegidos como si llevaran impreso nuestro nombre.

Hoy día, esta definición abarca mucha más información de la que aquellos legisladores europeos jamás podrían haber imaginado, y fácilmente supera a la cantidad total de bits y bytes mundiales cuando redactaron la ley hace 18 años.

Lo que ha pasado es lo siguiente. En primer lugar, la cantidad de datos creados cada año ha crecido de manera exponencial: alcanzó 2,8 zettabytes en 2012, una cifra que a pesar de sonar gigantesca volverá a duplicarse para el año 2015, según la consultora IDC. De esa cantidad de datos, alrededor de tres cuartas partes son generados por individuos a medida que crean y mueven archivos digitales. Un oficinista norteamericano típico produce 1,8 millones de megabytes de datos cada año. Eso supone alrededor de 5.000 megabytes por día, entre los que se incluyen películas descargadas, archivos de Word, correo electrónico y bits generados por ordenadores a medida que la información se mueve a lo largo de las redes de telefonía móvil o a través de Inte et.

Muchos de estos datos son invisibles de cara a la gente y parecen impersonales. Pero no lo son. La ciencia mode a está descubriendo que casi cualquier tipo de datos se puede utilizar, de forma similar a una huella digital, para identificar a la persona que los creó: las películas que elegimos en webs como Netflix, las señales de localización emitidas por el teléfono móvil, incluso el patrón que seguimos al caminar según lo registrado por una cámara de vigilancia. En efecto, cuantos más datos haya, menos se puede decir que sean privados, ya que la riqueza de dichos datos hace que la localización de personas sea "algorítmicamente posible", según Arvind Narayanan, científico informático de la Universidad de Princeton (EE.UU.).

Ya estamos yendo por ese camino. Los tipos de información que considerábamos como datos personales en el pasado, nuestro nombre, dirección o registros de tarjeta de crédito, ya son comprados y vendidos por corredores de datos como Acxiom, una empresa que posee un promedio de 1.500 piezas de información de más de 500 millones de consumidores de todo el mundo. Estos datos acabaron siendo de dominio público después de que los usuarios rellenaran un formulario de encuesta al inscribirse en servicios como TiVo.

Acxiom utiliza la información sobre la marca y el año de tu coche, tus ingresos e inversiones, además de tu edad, educación y código postal para colocarte en uno de los 70 grupos 'PersonicX', que funcionan como "resumen de indicadores de estilo de vida, intereses y actividades". ¿Acabas de finalizar un divorcio o se te ha quedado el nido vacío? Tales 'acontecimientos vitales', que hacen que la gente pase de una clase de consumidores a otra, son de gran interés para Acxiom y sus clientes de publicidad. La compañía señala que puede analizar sus datos para predecir 3.000 propensiones diferentes, por ejemplo el modo en que una persona puede responder a una marca frente a otra.

Sin embargo, estos corredores de datos se consideran algo anticuados en comparación con empresas de Inte et como Facebook, que han automatizado la recopilación de información personal para que se pueda hacer en tiempo real. Según sus archivos financieros en el momento de su salida a bolsa, Facebook almacena alrededor de 111 megabytes de fotos y videos de cada uno de sus usuarios, que hoy día suman más de mil millones. Eso supone 100 petabytes de información personal. En algunos casos jurídicos europeos, los demandantes han descubierto que los registros de Facebook sobre sus interacciones con el sitio, que incluyen mensajes de texto, cosas que "les gustaba", y direcciones en ordenadores que han utilizado suponían 800 páginas impresas, lo que sumaba unos cuantos megabytes más por usuario.

Algo que preocupa a los defensores de la privacidad digital es que los conjuntos de datos fuera de línea y en línea están siendo conectados para ayudar a las empresas de marketing a dirigir anuncios con mayor precisión. En febrero, Facebook anunció un acuerdo con Acxiom y otros corredores de datos para combinar sus datos, vinculando las actividades de la vida real con las de Inte et. En una reunión de inversores en marzo, la directora científica de Acxiom alegó que sus datos podrían estar actualmente relacionados con el 90 por ciento de los perfiles sociales de Estados Unidos.

A menudo se dice que estos conjuntos de datos son 'anónimos' de alguna manera, pero cuantos más datos estén implicados, menos probable será que dicha afirmación sea cierta. Las empresas de telefonía móvil, por ejemplo, registran las ubicaciones de los usuarios, despojan los números de teléfono y venden los conjuntos de datos agregados a comerciantes u otras personas interesadas en los movimientos de las personas. Los investigadores del MIT (Instituto Tecnológico de Massachusetts, en EE.UU.) Yves-Alexandre de Montjoye y César A. Hidalgo han demostrado que, incluso cuando tales datos de ubicación son anónimos, solo cuatro puntos de datos distintos sobre la posición de un teléfono por lo general pueden conectar el teléfono a una persona única.

Cuanto mayor sea la cantidad de datos personales que se encuentre disponible, más informativos se vuelven los datos. De hecho, con una cantidad de datos suficiente es incluso posible encontrar información sobre el futuro de una persona. El año pasado, Adam Sadilek, investigador de la Universidad de Rochester, y John Krumm, ingeniero del laboratorio de investigación de Microsoft, demostraron que podían predecir la ubicación aproximada de una persona hasta 80 semanas en el futuro, con una precisión de más del 80 por ciento. Para llegar hasta ese punto, la pareja extrajo lo que describieron como un "gran conjunto de datos", recogiendo 32.000 días de lecturas GPS tomadas de 307 personas y 396 vehículos.

Después, imaginaron las distintas aplicaciones comerciales que podría tener, como por ejemplo anuncios que digan "¿Necesitas un corte de pelo? En cuatro días, estarás a 100 metros de un salón que tendrá un precio especial de 5 euros en ese momento".

Sadilek Krumm llamaron a su sistema "Far Out", que en español se traduciría como "lejos", una descripción bastante buena sobre dónde nos están llevando los datos personales.

Jessica Leber ha contribuido en este artículo.

Sadilek Krumm llamaron a su sistema "Far Out", que en español se traduciría como "lejos", una descripción bastante buena sobre dónde nos están llevando los datos personales.

Jessica Leber ha contribuido en este artículo.

Buscar en MIT Technology Review

Explorar Temas

Secciones

¿Han hecho los grandes volúmenes de datos que el anonimato sea imposible?