.

Getty

Tecnología y Sociedad

Bastan tres datos para identificar a cualquiera en una base anónima

1

Se supone que la información anonimizada protege nuestra privacidad. Pero un nuevo estudio demuestra que el 81% de las veces, tres datos son suficientes para localizar a alguien, lo que implica que las técnicas de anonimización actuales se han quedado obsoletas

  • por Charlotte Jee | traducido por Ana Milutinovic
  • 29 Julio, 2019

El rastro de datos que vamos dejando con cada cosa que hacemos no para de crecer. Aunque muchos de ellos, como la comida que pedimos a domicilio y el cabezal de ducha que compramos online, no son demasiado interesantes, hay otros muy personales, como los diagnósticos médicos, la orientación sexual y los impuestos.

El mecanismo más habitual con el que las agencias públicas protegen nuestras identidades es la anonimización. Esto supone eliminar datos que claramente puedan identificar a una persona, como los nombres, números de teléfono, direcciones de correo electrónico, etcétera. Los conjuntos de datos también se modifican para ser menos precisos, se eliminan algunas columnas de las hojas de cálculo y se introduce el "ruido" en los datos. Las políticas de privacidad aseguran que gracias a este proceso no hay riesgo de que nos localicen en una base de datos.

Sin embargo, un nuevo estudio publicado en Nature Communications sugiere que no es así. Investigadores del Imperial College de Londres (Reino Unido) y de la Universidad Católica de Lovaina (Bélgica) han creado un modelo de aprendizaje automático que calcula exactamente lo fácil que resulta volver a identificar a los individuos desde un conjunto de datos anónimos. Si usted reside en EE. UU. o Reino Unido, puede verificar su propio resultado aquí, introduciendo su código postal, sexo y fecha de nacimiento.

En EE. UU., tres datos permiten identificar correctamente a una persona en una base de datos "anónima" el 81 % de las ocasiones. Con 15 datos demográficos de alguien que vive en Massachusetts (EE. UU.), hay un 99,98 % de probabilidades de encontrar a esa persona en cualquier base de datos anónima. "Cuanta más información se introduce más fácil y rápido resulta descartar a otras personas", explica el investigador del Imperial College de Londres y uno de los autores del estudio Yves-Alexandre de Montjoye.

La herramienta se creó mediante la elaboración de una base de datos de 210 conjuntos de datos diferentes de cinco fuentes, incluido el censo de EE. UU. Los investigadores introdujeron estos datos en un modelo de aprendizaje automático, que aprendió qué combinaciones son más particulares y cuáles menos, para luego asignar la probabilidad de una identificación correcta.

Este no es el primer estudio que muestra lo fácil que resulta rastrear a las personas en bases de datos anónimas. Un estudio de 2007 mostró que bastan unas pocas calificaciones de películas en Netflix para identificar a una persona de forma tan sencilla como a partir de su número de la seguridad social, por ejemplo. Además, el trabajo revela hasta qué punto las prácticas actuales de anonimización se han quedado obsoletas frente a nuestra capacidad para descifrarlas. El hecho de que el conjunto de datos esté incompleto ya no protege la privacidad de las personas, asegura De Montjoye.

Pero no todo son malas noticias. A principios de este año, un equipo de periodistas de The New York Times utilizó esta misma técnica de reidentificación para encontrar las declaraciones de la renta de Donald Trump de 1985 a 1994. Pero el método también podría ser utilizado por alguien que quiera cometer un fraude de suplantación de identidad u obtener información para un chantaje. Montjoye advierte: "El problema es que pensamos que cuando los datos se anonimizan ya son seguros. Las organizaciones y las empresas nos dicen que lo es, pero esto demuestra que no".

Para evitar este problema, las compañías podrían usar la privacidad diferencial, un complejo modelo matemático que permite a las organizaciones compartir datos añadidos sobre los hábitos de los usuarios mientras protegen la identidad de una persona, argumenta el investigador principal de la empresa de ingeniería de privacidad Privitar, Charlie Cabot. La técnica tendrá su primera prueba importante el próximo año: se está utilizando para asegurar la base de datos del Censo de EE. UU.

Tecnología y Sociedad

Los avances tecnológicos están cambiando la economía y proporcionando nuevas oportunidades en muchas industrias.

  1. Lo que dice el último paquete militar de EE UU para Ucrania e Israel sobre el futuro de la guerra

    Esto es lo que nos dicen las prioridades del paquete de gastos de más de 88.000 millones de euros sobre cuatro tecnologías militares y el modo en que están remodelando la forma de hacer la guerra.

    Un Sistema de Misiles Tácticos del Ejército es disparado durante una prueba cerca de Fort Bragg, N.C.
  2. La competencia de Neuralink: las otras empresas de interfaces cerebro-ordenador

    Empresas como Synchron, Paradromics y Precision Neuroscience también se apresuran a desarrollar implantes cerebrales.

    Sección transversal de una cabeza humana genérica con un cable que se extiende hasta el cerebro y desciende hasta el dispositivo Synchron.
  3. Los híbridos enchufables emiten más CO₂ del que se creía

    Los híbridos enchufables se venden a menudo como una transición a los vehículos eléctricos, pero nuevos datos procedentes de Europa muestran que seguimos subestimando las emisiones que producen

    Se supone que los híbridos enchufables son lo mejor de dos mundos: la comodidad de un coche de gasolina y las ventajas climáticas de un vehículo eléctrico de batería. Pero nuevos datos sugieren que algunas cifras oficiales subestiman gravemente las emisiones que producen.  Según los nuevos datos de conducción real de la Comisión Europea, los híbridos enchufables producen aproximadamente 3,5 veces las emisiones que sugieren las estimaciones oficiales. La diferencia está relacionada en gran medida con los háb