.

Computación

El análisis de datos como disciplina deportiva

1

Kaggle organiza concursos para organizaciones que desean conseguir predicciones fiables partiendo de montañas de datos.

  • por Rachel Metz | traducido por Lía Moya (Opinno)
  • 07 Febrero, 2012

Hay cosas, Como la niebla en San Francisco o los atascos en la ciudad de Nueva York, que son fáciles de predecir. Otras, como la reacción de la bolsa ante los grandes valores o la progresión de la enfermedad de un paciente de VIH, son mucho más complejas.  Ahí es donde entra en escena una start-up llamada Kaggle. Organiza concursos en los que los participantes intentan hacer predicciones aparentemente imposibles mediante el análisis de montañas de datos.

Kaggle reúne a miles de personas con experiencia en el análisis de datos, incluyendo doctores, estudiantes, profesores y personas que trabajan en empresas como IBM y Google, y les ofrece la posibilidad de competir para resolver las interrogantes que presentan los grandes datos de las empresas a cambio de dinero. Los usuarios cogen los datos proporcionados por los promotores del concurso y compiten usando algoritmos hechos a medida para hallar patrones y presentar las predicciones más exactas. Se podría definir como una competición  a muerte de modelos de predicción.

Fundada por el economista australiano Anthony Goldbloom, la inspiración para crear Kaggle proviene en parte de un concurso convocado por Netflix entre 2006 y 2009. La empresa de alquiler de películas ofrecía un millón de dólares al equipo que fuera capaz de mejorar la precisión de su software de recomendación de títulos en un 10 por ciento.

La popularidad del concurso de Netflix reveló a Goldbloom la cantidad de gente interesada en trabajar interpretando y analizando los datos de las empresas. Su estancia en prácticas en The Economist en 2008 puso delante a montones de empresas con datos analizables para sacar conclusiones valiosas, pero sin la gente adecuada para estudiarlos.

Apostó por que había sitio para una empresa que uniera a estas dos partes y decidió que conseguiría mejores resultados si tuviera un toque competitivo.

Y tenía razón. Desde su lanzamiento en abril de 2010 con un premio de 1.000 dólares (unos 775 euros) para el equipo que hiciera una predicción más precisa de cómo votarían los países en el concurso de la canción de Eurovisión, Kaggle ha llevado a cabo 30 concursos distintos, cinco de los cuales aún están en marcha.

Y la comunidad de Kaggle, que ha crecido hasta estar formada por unas 27.000 personas, obtiene resultados. En uno de los primeros retos, un académico de la Universidad de Drexel (EE.UU.) puso a disposición de los concursantes historiales médicos anónimos de pacientes con VIH que contenían datos de marcadores genéticos que él esperaba se pudieran usar para predecir la progresión del virus. En semana y media los usuarios de Kaggle fueron capaces de predecir la progresión con una precisión del 70 por ciento al comparar sus predicciones con datos conocidos de una investigación académica que supuso un hito y que se logró tras cuatro años de trabajo. Para el final de la competición, que duraba tres meses, los usuarios del sitio habían creado un modelo que reducía la tasa de error anterior en un tercio y aumentaba la precisión de las predicciones al 77 por ciento.

Goldbloom afirma que el atractivo del sitio para los concursantes es la embriagadora sensación  de subir en las tablas de líderes. Quienes presentan las mejores soluciones suben a la parte más alta de la tabla de líderes en ese concurso, algo que encanta a los usuarios. “Quieres seguir subiendo por la escala”, afirma Goldbloom.

A Will Cukierski, estudiante de doctorado en ingeniería biomédica en la Universidad de Rutgers (EE.UU.) no solo le gusta subir por la escala sino que también considera que las competiciones son una forma de entrar en el mercado de trabajo. Ha participado en media docena de los concursos de Kaggle, consiguiendo el primer lugar en uno de ellos y quedándose muy cerca de la cima en otros. “Es un poco de diversión mezclada con un poco de negocios”, explica.

Aunque la mayor parte de la gente que trabaja en los concursos de Kaggle tienen experiencia en investigación de datos, los ganadores suelen salir de campos distintos al específico del concurso, probablemente porque son capaces de abordar el problema desde un ángulo distinto, según Goldbloom.

Barbara Chow, directora educativa de la Fundación William and Flora Hewlett espera que esta forma de pensar de forma creativa ayude al reto propuesto por su grupo, que busca un a forma mejor de evaluar automáticamente los ensayos de los estudiantes. El concurso, que ofrece un premio de 60.000 dólares ( unos 47.000 euros) y termina el 30 de abril, se celebra al mismo tiempo que un concurso privado que incluye a las principales empresas que ya trabajan en el campo de la evaluación automática de ensayos.

Aunque no está segura de que a la comunidad de Kaggle se le ocurra el mejor resultado, Chow afirma que la Fundación Hewlett decidió probar a hacer el concurso allí puesto que “el sitio tiene un buen acceso a las personas adecuadas”.

Cukierski es una de esas personas, su equipo está trabajando duro para resolver el concurso, intentando mejorar las ofertas automatizadas ya existentes y crear una solución que se parezca a la evaluación hecha por humanos. ¿Qué tal les va por ahora? “Nuestros resultados preliminares demuestran que ya nos acercamos bastante a los humanos”, sostiene. 

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. ASML, la empresa que revolucionó la fabricación de chips y quiere seguir haciéndolo

    ‘MIT Technology Review’ se reunió con el CTO saliente, Martin van den Brink, para hablar del ascenso de la empresa a la hegemonía y de la vida y muerte de la Ley de Moore  

    Dos trabajadores de ASML pasan por delante de la máquina UVE de alta apertura numérica en Veldhoven
  2. ‘Chiplets’: el arma de China en su batalla tecnológica contra EE UU

    Al conectar varios chips menos avanzados en uno, las empresas chinas podrían eludir las sanciones impuestas por el gobierno estadounidense.

  3. Esta ciudad china quiere ser el Silicon Valley de los ‘chiplets’

    Wuxi, el centro chino del envasado de chips, está invirtiendo en la investigación de ‘chiplets’ para potenciar su papel en la industria de semiconductores