John Moore | Getty

Computación

Aprendizaje federado: la nueva arma de IA para asegurar la privacidad

El método, creado por Google en 2017, podría acelerar el uso de la inteligencia artificial en salud pues no requiere el traspaso de información confidencial. Para lograrlo, el algoritmo se entrena por partes en cada lugar donde están los datos y luego combina lo aprendido en un modelo maestro único

por Karen Hao | traducido por Ana Milutinovic
26 Marzo, 2019

En 2017, Google publicó una actualización en su blog sobre un nuevo enfoque de aprendizaje automático. A diferencia del método estándar, que requiere que los datos estén centralizados en un solo lugar, su algoritmo era capaz de aprender de distintas fuentes de datos distribuidas en múltiples dispositivos. Gracias a este enfoque, Google entrenó su modelo de texto predictivo a partir de todos los mensajes enviados y recibidos por los usuarios de Android, sin siquiera leerlos ni extraerlos de sus teléfonos.

A pesar de su inteligencia, en aquel momento el aprendizaje federado (como lo bautizaron los investigadores) generó poca influencia dentro de la comunidad de inteligencia artificial (IA). Pero eso puede estar a punto de cambiar, ya que ha encontrado un uso estupendo en un área completamente nueva: su estrategia para salvaguardar la privacidad podría dar respuesta al mayor obstáculo que enfrenta la adopción de IA en la atención médica actual.

"Hay una falsa dicotomía entre la privacidad de los datos del paciente y la utilidad de esos datos para la sociedad. La gente no se da cuenta de que la arena se está moviendo bajo sus pies y que, de hecho, ahora se puede obtener privacidad y utilidad al mismo tiempo", detalla el profesor asociado de informática del MIT (EE. UU.) Ramesh Raskar, cuya investigación se centra en la inteligencia artificial en salud.

Durante la última década, el espectacular aumento del aprendizaje profundo ha provocado transformaciones sorprendentes en docenas de industrias. Ha impulsado la industria de los coches autónomos, ha cambiado fundamentalmente nuestra forma de interactuar con nuestros dispositivos y ha reinventado nuestro planteamiento de la ciberseguridad. Sin embargo, a pesar de que muchos estudios demuestran su capacidad para detectar y diagnosticar enfermedades, en la atención médica, la adopción del aprendizaje profundo para ayudar a pacientes reales está yendo muy despacio.

Los algoritmos actuales requieren una gran cantidad de datos para aprender; en la mayoría de los casos, cuantos más datos, mejor. Los hospitales y las instituciones de investigación deberían combinar todas sus bases para conseguir un conjunto de datos lo suficientemente grande y diverso para resultar útil. Pero, como era de esperar, la idea de centralizar montones de información médica confidencial en manos de empresas tecnológicas genera mucho rechazo.

Como resultado, la investigación sobre los usos diagnósticos de la IA ha mantenido un alcance y aplicación limitados. No se puede implementar un modelo de detección de cáncer de mama en todo el mundo que solo se ha entrenado en unos pocos miles de pacientes del mismo hospital. Pero todo esto podría cambiar con el aprendizaje federado.

La técnica puede entrenar a un algoritmo con datos almacenados en múltiples hospitales distintos sin que esos datos salgan de sus instalaciones ni tengan que ser copiados a los servidores de una empresa tecnológica. Para ello, primero hay que entrenar a distintos modelos separados en cada hospital con los datos locales disponibles. Luego, todos los modelos se envían a un servidor central donde se combinan en un modelo maestro. A medida que cada hospital adquiere más datos, puede descargar el último modelo maestro, actualizarlo con su nueva información y enviarlo de vuelta al servidor central. Durante este proceso, los datos sin procesar nunca se intercambian, lo único que se transfiere son los algoritmos, que no pueden diseñarse a la inversa para revelar esos datos.

Existen algunos retos para el aprendizaje federado. Por un lado, la combinación de modelos separados corre el riesgo de crear un modelo maestro peor que cada una de sus partes. Los investigadores están refinando las técnicas existentes para asegurarse de que eso no sucede, afirma Raskar. Por otro, el aprendizaje federado requiere que cada hospital tenga la infraestructura y el personal cualificado para entrenar los algoritmos de aprendizaje automático. También hay fricciones en la estandarización de la recopilación de datos en todos los hospitales. Pero estos desafíos no son insuperables, sostiene Raskar: "Hace falta trabajar más, pero en gran parte solo es cuestión de tapar algunos parches".

De hecho, para dar respuesta a estos retos, desde entonces han surgido otras técnicas de aprendizaje distribuido. Raskar y sus alumnos, por ejemplo, han inventado uno llamado aprendizaje dividido. Al igual que en el aprendizaje federado, cada hospital empieza entrenando a cada algoritmo por separado, pero a medias. Los modelos semihechos se envían al servidor central que los combina y completa el entrenamiento. El principal beneficio de este enfoque es que reduce la carga computacional en los hospitales. La técnica todavía está en fase de prueba de concepto, pero en los primeros test, el equipo de investigación de Raskar demostró que había creado un modelo maestro casi tan preciso como si se hubiera entrenado en un conjunto de datos centralizado.

Varias compañías, como IBM Research, han empezado a trabajar para aplicar el aprendizaje federado en la asistencia médica y la salud del mundo real. La start-up Owkin con sede en París (Francia) y respaldada por Google Ventures, también lo está utilizando para predecir la resistencia de los pacientes a diferentes tratamientos y medicamentos, así como sus tasas de supervivencia para ciertas enfermedades. La compañía está hablando con varios centros de investigación del cáncer en EE. UU. y Europa para aplicar sus datos a estos modelos. Estas conversaciones ya están dando frutos en forma de un próximo trabajo de investigación. Sus creadores explican que entrenarán a un nuevo algoritmo para que analice las probabilidades de supervivencia para una forma rara de cáncer a partir de las imágenes patológicas de los pacientes. Este estudio dará un gran paso hacia la validación de los beneficios de esta técnica en un entorno real.

El cofundador de Owkin y un médico de investigación clínica, Thomas Clozel, afirma: "Estoy muy contento. Actualmente, la mayor barrera en oncología es el conocimiento. Es realmente maravilloso contar con el poder de extraer ese conocimiento y hacer descubrimientos que den lugar a avances médicos".

Raskar cree que las aplicaciones del aprendizaje distribuido también podrían extenderse más allá del servicio sanitario y penetrar en cualquier industria donde las personas no quieran compartir sus datos. "En los entornos distribuidos y de poca confianza, va a ser muy, muy poderoso", concluye.

Computación

Aprendizaje federado: la nueva arma de IA para asegurar la privacidad

Balance de la caída de Microsoft: "Muestra lo fácil que es infligir un daño global"

Estas estructuras de madera que se moldean solas anticipan el futuro de la arquitectura sostenible

Cómo la gamificación pasó de una fuerza positiva a la coacción