Innovadores Menores De 35 Centroamérica La edición en español de
MIT Technology Review elige a los
innovadores menores de 35

Arnoldo Müller, 34

Su software ‘cloud’ es capaz de comparar rápidamente grandes cantidades datos, detectar patrones y ayudar en la toma de decisiones

simMachines

Arnoldo Müller

¿Qué clientes de un banco cancelarán su tarjeta de crédito el próximo mes? ¿Contienen las muestras de sangre de varios pacientes indicadores de cáncer maligno de próstata? ¿Con qué probabilidad? En general, contestar a este tipo de preguntas requiere tecnología avanzada y equipos de personas que recogen e interpretan grandes cantidades de datos. Y también lleva tiempo, mucho tiempo.

Sin embargo, la inteligencia artificial puede ayudar a acelerar y afinar considerablemente la búsqueda de respuestas. Así lo está demostrando el joven Arnoldo Müller, doctor ingeniero en Computación, apasionado por las posibilidades del big data y fundador de la empresa simMachines, dedicada a optimizar el proceso de generación de predicciones certeras sobre asuntos complejos como estos.

Este costarricense de 34 años ha creado un software que funciona en la nube y utiliza una de las ramas de la inteligencia artificial -el aprendizaje de máquinas-  para aportar ahorro y eficiencia a organizaciones de ámbitos diversos: sanidad, moda, auditoría, seguridad informática, ingeniería y recursos humanos. Entre sus clientes están la Corporación de Internet para la Asignación de Nombres y Números (ICANN), Garnier, Subway, e-Therapeutics, la Universidad de Stanford y la FDA.

Un ejemplo que ilustra la utilidad de su tecnología es el de una empresa que recibe miles de currículos cada semana y quiere saber qué candidatos serán incorporados a su plantilla. Esta compañía puede ponerse en manos del algoritmo de simMachines que, a partir del texto de los currículos, predecirá con una precisión del 95% si esas personas van a ser contratadas. "Hace de comité técnico y de experto en recursos humanos en un solo paquete", afirma Müller, que ya lo ha probado con la empresa Rackspace.

Detrás de esta capacidad predictiva se encuentra la tecnología desarrollada por Müller durante los últimos diez años, basada en las llamadas búsquedas de similitud que permiten encontrar objetos similares a uno dado (usando el método de "vecinos más cercanos", en inglés, nearest neighbour). Estos objetos pueden ser de todo tipo, desde un tomate a una muestra de sangre, pasando por un tuit, un currículo o una solicitud a un servidor.

En el campo de internet, el año pasado, simMachines trabajó junto a la ICANN en la detección de patrones de acceso a los servidores raíz de la web para identificar actuaciones ilícitas y agujeros de seguridad. Con este fin, la herramienta de Müller utilizó funciones específicas que comparan hileras de caracteres y detectan la recurrencia de accesos potencialmente malintencionados a esos servidores.

El motor de similitud de Müller trabaja con una función de distancia, es decir, una regla matemática que recibe dos objetos y ofrece como resultado un cero si son iguales o un número mayor que cero si son progresivamente diferentes. Por ejemplo, para determinar la distancia entre dos puntos, la función requiere la entrada de dos posiciones geodésicas; pero también es posible medir distancias en otros espacios, como en el de las muestras de sangre. En ese caso, el motor permite partir de los datos de una muestra relacionada con el cáncer de próstata, compararla con otras miles, observar si se parecen, y predecir las probabilidades de padecer cáncer de esos pacientes.

Versatilidad y rapidez

Para adaptarse a casi cualquier tipo de dato, simMachines ha desarrollado una función universal llamada Dense Nearest Neighbour (DNN) que puede aplicarse a todo lo que pueda guardarse en una base de datos, por ejemplo, una tabla que contenga cifras, texto libre, categorías y otros tipos de información en varias columnas. Según Müller, DNN permite procesar todos estos tipos de columnas, lo que resuelve "el 90% de los casos", ya que la mayoría de los datos están almacenados en estos formatos. Lo que su motor compara son unidades de datos o instancias, es decir, cada fila de la tabla. Para otros objetos no tan corrientes, por ejemplo, la información que genera la medición en el tiempo de una señal, utilizan funciones de distancia adaptadas.

El algoritmo diseñado por Müller es capaz de buscar muy rápidamente y de generar funciones de distancia relevantes en cada caso que ayudan a sus clientes a predecir hechos con mucha precisión. Si el objetivo es decidir si un tomate es bueno o malo, la función se ajustará para maximizar ese resultado. Si la búsqueda se efectúa entre 100 millones de tomates el algoritmo podría encontrar un elemento en 23 milisegundos con un solo procesador y en un ordenador relativamente modesto. "Este desempeño no ha podido lograrse en el pasado", asegura Müller.

En este caso, la tabla contendría decenas de columnas con características (color, peso, estadísticas de forma) y una final en la que se indica el tipo de tomate: bueno o malo. Tras un periodo en el que el algoritmo procesa esos datos y observa qué características llevan a un tomate bueno, se realiza una validación del sistema de predicción. Para ello, reservan un subconjunto de esos datos de los que conocen sus valores finales reales y los "esconden" al algoritmo. Luego le piden que prediga cómo son esos tomates, y cuando ha emitido sus predicciones, las comparan con los resultados que conocían a priori. A partir de entonces, el motor podrá usarse para validar futuros tomates.

Un reto para los programas de aprendizaje de máquinas es la existencia de problemas descritos por cientos de miles de columnas. Cuantas más son, más difícil es que el motor trabaje rápido. Normalmente la estrategia que adoptan los motores es escoger sólo las que consideran más relevantes para emitir sus predicciones. Por el contrario, DNN permite buscar rápido incluso tomando todas las columnas. Esto es útil en casos en los que es necesario considerar la existencia de subconjuntos, por ejemplo, los tipos benigno o maligno de un cáncer. Müller explica que el algoritmo usa todas las columnas en diferentes momentos y les asigna automáticamente y de forma "dinámica y oportunista" diferentes grados de relevancia para maximizar el éxito de predicción.

Otra de las ventajas del motor de simMachines es que funciona en la nube y, por tanto, sus servicios de predicción, reconocimiento de patrones y búsquedas de similitud están disponibles 24 horas al día. En comparación con otras técnicas de aprendizaje de máquinas, como Deep Learning o Decision Trees, Müller asegura que DNN es más intuitivo para programadores y público en general, y que la calidad de sus predicciones es mayor. Además, permite hacer búsquedas "per se", lo que incrementa sus aplicaciones más allá de las que pueden ejecutarse con otras técnicas tradicionales.

Müller se formó en el Instituto Tecnológico de Costa Rica, el Instituto Tecnológico de Kyushu (Japón) y el Instituto Max Planck de Biomedicina Molecular (Alemania). Hoy lidera al equipo de simMachines a caballo entre sus oficinas de San Luis (EEUU) y Santo Domingo (Costa Rica).

Para el director del Instituto de Inteligencia Artificial del CSIC (España), Ramón López de Mántaras, miembro del jurado de los premios MIT Technology Review Innovadores menores de 35 Centroamérica, los logros alcanzados con su algoritmo de cálculo de similitudes son "muy significativos" y el hecho de estar implementado como un servicio basado en la nube "le confiere si cabe todavía más interés". - Elena Zafra

Ganadores de Innovadores menores de 35 Centroamérica 2014

Yeny Carias

Ha ideado un software para traducir la voz a lenguaje de señas y facilitar el aprendizaje de las personas sordas

Arnoldo Müller

Su software ‘cloud’ es capaz de comparar rápidamente grandes cantidades datos, detectar patrones y ayudar en la toma de decisiones

Brayan Salazar

Ha creado un dispositivo eólico para cargar teléfonos móviles en zonas sin electrificación

Para comentar, por favor accede a tu cuenta o regístrate

¿Olvidaste tu contraseña?

Advertisement
Advertisement
Publicidad