Computación

¿Qué es lo próximo para los algoritmos de Netflix?

Aplicar las lecciones aprendidas durante la competición valorada en 1 millón de dólares a otros sistemas de recomendación será todo un reto.

por Erica Naone | traducido por Francisco Reyes (Opinno)
08 Octubre, 2009

Con la entrega del Premio Netflix el mes pasado se puso fin a tres años de intensa competición enfocada en la búsqueda de un mejor algoritmo para predecir las preferencias de los usuarios en cuanto a películas.

El equipo ganador, el Pragmatic Chaos de BellKor, fue el primero en pronosticar las clasificaciones de películas de los usuarios de Netflix con un 10 por ciento de precisión adicional en comparación con el sistema de la compañía—un hecho que muchos expertos creían imposible cuando el premio de un millón de dólares fue anunciado. Netflix tiene previsto ofrecer un segundo premio, esta vez para algoritmos que predigan las preferencias en cuanto a películas utilizando más información de usuario, como por ejemplo el género, la edad y el código postal. No obstante los expertos afirman que el reto verdadero es encontrar formas para aplicar las lecciones aprendidas a través del reto Netflix original a otros sistemas de recomendación.

A finales de octubre los expertos en el campo se reunirán en la Conferencia ACM sobre Sistemas de Recomendación en Nueva York para preguntarse, entre otras cosas, qué se ha aprendido del Premio Netflix.

Los participantes de la competición original de Netflix entrenaron sus algoritmos utilizando una enorme colección de datos: más de 100 millones de clasificaciones que cubrían casi 18.000 títulos de casi medio millón de suscriptores. Para poner a prueba sus resultados, los algoritmos fueron puestos a prueba sobre un grupo de datos mantenido por Netflix y al que los concursantes no tenían acceso para así evitar hacer trampas.

Los datos de Netflix presentaban varios obstáculos formidables, según explica Nicholas Ampazis, profesor asistente en el departamento de ingeniería financiera y de administración en la Universidad de Aegean en Grecia, cuyo equipo, The Ensemble, acabó en segunda posición. El grupo de datos era enorme, pero también era escaso, lo que quiere decir que los consumidores normalmente clasificaban un 1 por ciento de las películas que veían. “Superar la barrera del 10 por ciento, por tanto, significaba sobrepasar los límites de las técnicas de modelado existentes hasta un grado significativo,” afirma Ampazis.

No obstante los retos presentados por los datos de Netflix también hicieron que la competición fuese muy valiosa, según afirma Ces Bertino, otro miembro de The Ensemble. Los investigadores normalmente tienen el lujo de elegir los grupos de datos, así como de poseer más información acerca de los datos. En el concurso de Netflix, los concursantes fueron forzados a aplicar todos los algoritmos al mismo grupo datos pertenecientes al mundo real y frustrantemente irregulares. “Puesto que había que utilizar un grupo de datos fijo, había que tratar no sólo con las ventajas de un método particular sino también con sus desventajas,” afirma Bertino. “No había forma de escaparse.”

Gavin Potter, que ganó reconocimiento por haber entrado en el top 10 del premio Netflix en 2008 bajo el pseudónimo “Un tipo en el garaje,” afirma que para que los algoritmos ganadores alcanzasen su objetivo hubo que tener en cuenta una serie de cuestiones. En primer lugar, se elaboró un potente algoritmo para buscar patrones en los grupos de datos, una técnica conocida como filtrado colaborativo, y que pudiese utilizarse en la enorme base de datos de Netflix. En segundo lugar, los participantes aprendieron a prestar atención a ciertos nuevos tipos de detalles, por ejemplo el hecho de que alquilar una película indica algún tipo de preferencia, incluso si el usuario no le otorga ninguna clasificación. La información relativa al día y la hora también pasó a ser significativa. No obstante, lo más importante según Potter fue que la mezcla de una variedad de métodos hizo que se produjesen los mejores resultados.

Una vez pasada la competición se ha generado mucho interés en la mezcla de distintos métodos, aunque John Riedl, profesor de ciencias informáticas en la Universidad de Minnesota, afirma que tiene no acaba de verlo claro. “La gente como yo hemos estado buscando ideas que nos aclaren la estructura de la solución,” afirma, “porque realmente nos gusta comprender algo nuevo no sólo a través del éxito de sus resultados sino mediante el conocimiento de por qué funciona tan bien.”

Los modelos ganadores, no obstante, no han proporcionado ese nivel de claridad. Lo que sugieren, según Riedl, es que la combinación de muchos algoritmos junto a técnicas de aprendizaje de máquinas puede que sea un buen método para manejar grandes grupos de datos en general. Sin embargo, aún no ha podido probarse ni siquiera una afirmación como esta. “A muchos de nosotros nos preocupa que este método puede que no dé los mismos frutos en un entorno distinto,” añade.

Lo que sí está claro es que muchas industrias podrían beneficiarse de los tipos de modelos construidos para la competición. Al margen de en otros sistemas de recomendación online, Ampazis sugiere que estos algoritmos se podrían utilizar en los intercambios bursátiles, la detección de fraudes, la lucha contra el spam y la seguridad informática. Bertino afirma que los miembros de The Ensemble están considerando en la actualidad la mejor forma de utilizar la tecnología que han generado a lo largo de la competición.

Potter está trabajando en la aplicación de su propia investigación dentro del concurso en el sitio de citas online YesNoMayB, que emplea algoritmos de recomendación de doble vía para encontrar a usuarios que quizá quieran conocer a otros. En particular, espera utilizar lo aprendido en el Premio Netflix para hacer predicciones basadas en las preferencias implícitas de los usuarios, tales como las páginas que cargan.

El Premio Netflix ha puesto mucha atención en los sistemas de recomendación y ha hecho que se produzcan grandes avances en el campo. La segunda competición parece destinada a lograr lo mismo. No obstante Riedl cree que durante el proceso puede que se abandonen otros componentes de los sistemas de recomendación. “Es hora de que nos preguntemos qué aspectos no hemos tenido en cuenta hasta ahora,” afirma, “cómo pueden progresar los investigadores en esos aspectos de forma que tenga implicaciones para la industria.”

Por ejemplo, Riedl ve la necesidad de crear algoritmos que permitan a los sistemas de recomendación utilizar grupos de datos incluso más grandes, sistemas que expliquen al usuario por qué se llevó a cabo una recomendación en particular, y mejores interfaces de usuario. También denota que, aunque la competición de Netflix logró impresionantes avances en la interpretación de la escasez de datos, en algunos casos puede que tenga sentido aprender a diseñar sitios que animen a los usuarios a dar más datos. Espera que la próxima reunión en Nueva York ayude a definir una serie de cuestiones más amplia para que los investigadores busquen su solución.

Computación

¿Qué es lo próximo para los algoritmos de Netflix?

La 'start-up' de EE UU que se enfrenta al gigante japonés de materiales para chips

ASML, la empresa que revolucionó la fabricación de chips y quiere seguir haciéndolo

‘Chiplets’: el arma de China en su batalla tecnológica contra EE UU