.

Inteligencia Artificial

Historia de cómo la IA biométrica nos robó el control de nuestras caras

1

El mayor estudio sobre el reconocimiento facial muestra cómo el aprendizaje profundo rompió las normas para crear conjuntos de datos de entrenamiento. Motivados por la creciente demanda de información, los investigadores fueron dejando de pedir consentimiento a las personas progresivamente

  • por Karen Hao | traducido por Ana Milutinovic
  • 26 Febrero, 2021

En 1964, el matemático y científico informático Woodrow Bledsoe hizo el primer intento de buscar coincidencias entre las caras de los sospechosos y las fotos de las fichas policiales. Midió las distancias entre diferentes rasgos faciales en las fotografías impresas y las introdujo en un programa informático. Gracias a su rudimentario éxito, se desencadenaron décadas de investigación para enseñar a las máquinas a reconocer los rostros humanos.

Pero, un nuevo estudio muestra lo mucho que este esfuerzo ha erosionado nuestra privacidad. No solo ha impulsado una herramienta de vigilancia cada vez más poderosa, además la última generación de reconocimiento facial basado en el aprendizaje profundo ha alterado por completo las normas de consentimiento.

La investigadora de la organización sin ánimo de lucro Mozilla Deborah Raji y la asesora de responsabilidad algorítmica para los congresistas de EE. UU. Genevieve Fried han examinado más de 130 conjuntos de datos de reconocimiento facial recogidos durante 43 años. Y han descubierto que los investigadores, motivados por la creciente demanda de datos para el aprendizaje profundo, fueron dejando de pedir el consentimiento de las personas progresivamente. Este fenómeno ha provocado que cada vez más fotos personales se incorporen a los sistemas de vigilancia sin su conocimiento.

También ha dado lugar a conjuntos de datos de muy mala calidad: pueden incluir fotos de menores de forma involuntaria, usar etiquetas racistas y sexistas o tener una resolución e iluminación inconsistentes. Esa tendencia podría explicar el creciente número de fallos demostrados de los sistemas de reconocimiento facial, algunos de los cuales han supuesto consecuencias preocupantes, como los arrestos por error de dos hombres negros en el área de Detroit (EE. UU.) del año pasado.

Al principio, la gente era extremadamente cautelosa a la hora de recoger, documentar y verificar los datos faciales, recuerda Raji, y añade: "Ahora eso ya no importa. Todo se ha abandonado. Simplemente no se puede hacer un seguimiento de un millón de caras. Después de cierto punto, ni siquiera se puede fingir que existe un control".

La historia de los datos de reconocimiento facial

Las investigadoras han identificado cuatro grandes eras del reconocimiento facial, cada una impulsada por el creciente deseo de mejorar la tecnología. La primera fase, que duró hasta la década de 1990, se caracterizó en gran medida por métodos manuales intensivos y computacionalmente lentos.

Pero luego, el Departamento de Defensa de EE. UU., motivado por la idea de que el reconocimiento facial podía rastrear e identificar a las personas de manera más eficaz que las huellas dactilares, invirtió 5,4 millones de euros en la creación del primer conjunto de datos faciales a gran escala. Con más de 15 sesiones fotográficas en tres años, el proyecto capturó 14.126 imágenes de 1.199 personas. La base de datos de la tecnología de reconocimiento facial (FERET) se publicó en 1996.

Las cuatro eras del reconocimiento facial

Gráfico: Muestra el aumento en el número de imágenes utilizadas a lo largo de los años. Fuente: Raji & Fried.

La siguiente década estuvo marcada por el repunte en la investigación académica y comercial del reconocimiento facial, y se crearon muchos más conjuntos de datos. La gran mayoría se obtuvieron a través de las sesiones de fotos como las de FERET y tuvieron el consentimiento total de los participantes. Muchos también incluían metadatos meticulosos, según Raji, como la edad y el origen étnico de los sujetos, o información sobre la iluminación. Pero estos primeros sistemas tuvieron problemas en el mundo real, lo que llevó a los investigadores a buscar conjuntos de datos más grandes y diversos.

En 2007, la publicación del conjunto de datos de Labeled Faces in the Wild (LFW) abrió las compuertas para la recopilación de datos a través de la búsqueda en la web. Los investigadores comenzaron a descargar imágenes directamente de Google, Flickr y Yahoo sin preocuparse por el consentimiento. Posteriormente, una versión ampliada de esta base, llamada LFW + y creada por otro grupo de investigación, relajó los estándares en torno a la inclusión de menores, usando fotos que aparecen bajo términos de búsqueda como "bebé", "juvenil" y "adolescente" para aumentar la diversidad. Este proceso permitió crear conjuntos de datos significativamente más grandes en poco tiempo, pero el reconocimiento facial aún se enfrentaba a muchos de sus mismos desafíos previos. Esto empujó a los investigadores a buscar aún más métodos y datos para superar el bajo rendimiento de la tecnología.

Proporción de fuentes datos utilizadas en cada era del reconocimiento facial

 

Gráfico: Sesión de fotos (rojo), búsqueda web (marrón), fotografía para la ficha policial (beige), cámara de vigilancia (azul), otras (gris). Fuente: Raji & Fried.

Luego, en 2014, Facebook usó las fotos de sus usuarios para entrenar un modelo de aprendizaje profundo denominado DeepFace. Aunque la empresa nunca publicó ese conjunto de datos, el rendimiento sobrehumano del sistema elevó el aprendizaje profundo a método de facto para analizar rostros. La verificación manual y el etiquetado se volvieron casi imposibles a medida que los conjuntos de datos crecían a decenas de millones de fotos, explica Raji. También empiezaron a aparecer fenómenos realmente extraños, como etiquetas autogeneradas con terminología ofensiva.

La forma en la que se utilizaban los conjuntos de datos también comenzó a cambiar en esta época. En vez de intentar buscar coincidencias entre personas, los nuevos modelos empezaron a centrarse más en la clasificación. "En lugar de decir: '¿Es esta una foto de Karen? Sí o no', se convirtió en: 'Vamos a predecir la personalidad de Karen, o su origen étnico', para encajar a la gente en estas categorías", afirma Raji.

La directora de Políticas Globales de AI Now, Amba Kak, que no participó en la investigación, cree que el artículo ofrece una imagen clara de cómo ha evolucionado la industria biométrica. El aprendizaje profundo pudo haber rescatado a la tecnología de algunas de sus batallas, pero "ese avance tecnológico también ha tenido un coste", resalta, y añade: "Han aparecido todos estos problemas con los que actualmente estamos bastante familiarizados: consentimiento, extracción, problemas de propiedad intelectual, privacidad".

Daño engendra daño

Raji admite que su investigación sobre los datos biométricos ha aumentado su preocupación por el reconocimiento facial basado en el aprendizaje profundo.

La investigadora detalla: "Es mucho más peligroso. La demanda de tantos datos nos obliga a recoger información demasiado sensible sobre, como mínimo, decenas de miles de personas. Nos obliga a violar su privacidad. Eso en sí mismo es la base del daño. Y luego acumulamos toda esta información que no se puede controlar para construir algo que probablemente funcionará de formas que ni siquiera se pueden predecir. Esa es la verdadera naturaleza de la situación en la que nos encontramos".

Raji espera que su trabajo provoque que los investigadores reflexionen sobre el balance entre los aumentos de rendimiento derivados del aprendizaje profundo y la pérdida del consentimiento, la verificación meticulosa de datos y la documentación detallada. "¿Acaso valió la pena abandonar todas estas prácticas para llevar a cabo el aprendizaje profundo?" pregunta.

La investigadora insta a aquellos que quieran seguir desarrollando el reconocimiento facial a considerar el desarrollo de técnicas diferentes, y concluye: "Para que de verdad intentemos usar esta herramienta sin causar daño a las personas, será necesario volver a replantearnos todo lo que sabemos sobre ella".

Inteligencia Artificial

 

La inteligencia artificial y los robots están transofrmando nuestra forma de trabajar y nuestro estilo de vida.

  1. Una IA basada en GPT-2 ofrece ayuda a adolescentes LGTBQ en crisis

    Los orientadores voluntarios del Proyecto Trevor necesitan formarse antes de atender las peticiones de ayuda de este colectivo, y los responsables han encontrado en la inteligencia artificial una herramienta ideal para recrear una conversación en la que el sistema actúa como un joven con pensamientos suicidas 

  2. Cassie, el robot que aprendió a andar solo, amenaza a Boston Dynamics

    Los videos del gigante de la robótica resultan impresionantes, pero tienen truco: sus máquinas requieren ajustes manuales para sus acrobacias. En cambio, este robot bípedo descubrió cómo caminar por el mundo real y recuperarse de un tropiezo sin ayuda gracias al aprendizaje reforzado

  3. Las 10 bases de datos de IA más conocidas están llenas de errores de etiquetado

    Famosos conjuntos como ImageNet y MNIST, usados ampliamente para entrenar otros modelos, incluyen numerosas etiquetas incorrectas, según ha descubierto el MIT. El problema puede estar generando algoritmos defectuosos de forma insconsciente que luego se acaban aplicando en el mundo real