.

Computación

Yahoo publica la mayor base de datos de la historia sobre los hábitos de sus lectores

1

Solo está disponible para investigadores académicos con el objetivo de que mejoren los algoritmos de recomendaciones y sugerencias

  • por Tom Simonite | traducido por Teresa Woods
  • 18 Enero, 2016

Cientos de miles de personas visitan las páginas web de noticias de Yahoo cada mes. La semana pasada, la empresa lanzó un enorme conjunto de datos sobre los hábitos de lectura de noticias de unos 20 millones de usuarios. Su intención: ayudar a los investigadores a inventar un software más capacitado para predecir lo que queremos.

El paquete informativo, de 13 terabytes, procede de la actividad generada en las páginas de Yahoo entre febrero y mayo del año pasado y ha sido puesto únicamente a disposición de investigadores académicos. Yahoo afirma que se trata del conjunto de datos más grande que se haya hecho público jamás, eclipsando un conjunto de datos de un terabyte lanzado por la empresa de publicidad online Criteo el año pasado.

La directora de Investigaciones para la Ciencia de la Personalización de Yahoo Labs, Suju Rajan, dice que el paquete proporciona un valioso banco de pruebas para entrenar y probar algoritmos que intentan comprender lo que gusta a la gente en función su comportamiento anterior. "Esto no sólo es relevante para Yahoo; beneficiará a la industria al completo", afirmó Rajan en una reunión informativa el pasado martes.

Los algoritmos de recomendación son cruciales para las empresas tecnológicas como Yahoo, Netflix, Amazon y Google, que los emplean para sugerir contenidos y productos que al usuario le podría interesar leer, ver o comprar. Y los investigadores académicos rara vez tienen oportunidad de trabajar con los datos generados por los comportamientos reales de los usuarios a la misma escala que los científicos de datos corporativos, pero son mucho más libres para explorar nuevas ideas que podrían ofrecer importantes mejoras, explica Rajan.

Los datos recién publicados incluyen los titulares que los algoritmos de personalización mostraron a la gente, un resumen del contenido de los artículos y una relación de los artículos sobre los que la gente hizo clic. Los registros de unos siete millones de usuarios de Yahoo incluyen demografía básica como la edad, el sexo y la ubicación de los usuarios.

Kristian Hammon, profesor de la Universidad de Northwestern (EEUU) y científico jefe de Narrative Science, celebró el movimiento de Yahoo: "Si los datos son buenos, entonces creo que disponer de ellos representa un beneficio tremendo".

Para Hammond, proporcionan una contrapartida útil para el lanzamiento reciente de Google de un paquete de software que emplea para el aprendizaje de máquinas a gran escala (ver El cerebro de inteligencia artificial de Google sale de sus laboratorios con permiso). "La mayoría de la gente no dispone de enormes conjuntos de datos como los que requiere ese paquete", dice. Además de los algoritmos de recomendación, los datos de Yahoo podrían revelar patrones en los intereses de distintos grupos demográficos, afirma.

Hammond también apunta que publicar datos sobre la actividad digital de la gente no carece de riesgos. AOL reveló accidentalmente las identidades y pensamientos íntimos de algunos de sus clientes en 2006 cuando publicó los historiales de búsqueda de unas 650.000 personas sin filtrar debidamente los datos. Pero Rajan explica que sin los nombres ni otras informaciones de identificación, conocer los artículos de noticias en los que un usuario anónimo ha hecho clic no presenta tal riesgo. Hammond cree que algunas personas lo intentarán de todos modos.

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. La 'start-up' de EE UU que se enfrenta al gigante japonés de materiales para chips

    La financiación federal está impulsando a empresas estadounidenses como Thintronics a incursionar en la fabricación de semiconductores. El éxito está lejos de estar garantizado.

    Placas de circuitos electrónicos apiladas en una cadena de montaje.
  2. ASML, la empresa que revolucionó la fabricación de chips y quiere seguir haciéndolo

    ‘MIT Technology Review’ se reunió con el CTO saliente, Martin van den Brink, para hablar del ascenso de la empresa a la hegemonía y de la vida y muerte de la Ley de Moore  

    Dos trabajadores de ASML pasan por delante de la máquina UVE de alta apertura numérica en Veldhoven
  3. ‘Chiplets’: el arma de China en su batalla tecnológica contra EE UU

    Al conectar varios chips menos avanzados en uno, las empresas chinas podrían eludir las sanciones impuestas por el gobierno estadounidense.