.

Computación

El análisis de datos como disciplina deportiva

Kaggle organiza concursos para organizaciones que desean conseguir predicciones fiables partiendo de montañas de datos.

  • por Rachel Metz | traducido por Lía Moya (Opinno)
  • 07 Febrero, 2012

Hay cosas, Como la niebla en San Francisco o los atascos en la ciudad de Nueva York, que son fáciles de predecir. Otras, como la reacción de la bolsa ante los grandes valores o la progresión de la enfermedad de un paciente de VIH, son mucho más complejas.  Ahí es donde entra en escena una start-up llamada Kaggle. Organiza concursos en los que los participantes intentan hacer predicciones aparentemente imposibles mediante el análisis de montañas de datos.

Kaggle reúne a miles de personas con experiencia en el análisis de datos, incluyendo doctores, estudiantes, profesores y personas que trabajan en empresas como IBM y Google, y les ofrece la posibilidad de competir para resolver las interrogantes que presentan los grandes datos de las empresas a cambio de dinero. Los usuarios cogen los datos proporcionados por los promotores del concurso y compiten usando algoritmos hechos a medida para hallar patrones y presentar las predicciones más exactas. Se podría definir como una competición  a muerte de modelos de predicción.

Fundada por el economista australiano Anthony Goldbloom, la inspiración para crear Kaggle proviene en parte de un concurso convocado por Netflix entre 2006 y 2009. La empresa de alquiler de películas ofrecía un millón de dólares al equipo que fuera capaz de mejorar la precisión de su software de recomendación de títulos en un 10 por ciento.

La popularidad del concurso de Netflix reveló a Goldbloom la cantidad de gente interesada en trabajar interpretando y analizando los datos de las empresas. Su estancia en prácticas en The Economist en 2008 puso delante a montones de empresas con datos analizables para sacar conclusiones valiosas, pero sin la gente adecuada para estudiarlos.

Apostó por que había sitio para una empresa que uniera a estas dos partes y decidió que conseguiría mejores resultados si tuviera un toque competitivo.

Y tenía razón. Desde su lanzamiento en abril de 2010 con un premio de 1.000 dólares (unos 775 euros) para el equipo que hiciera una predicción más precisa de cómo votarían los países en el concurso de la canción de Eurovisión, Kaggle ha llevado a cabo 30 concursos distintos, cinco de los cuales aún están en marcha.

Y la comunidad de Kaggle, que ha crecido hasta estar formada por unas 27.000 personas, obtiene resultados. En uno de los primeros retos, un académico de la Universidad de Drexel (EE.UU.) puso a disposición de los concursantes historiales médicos anónimos de pacientes con VIH que contenían datos de marcadores genéticos que él esperaba se pudieran usar para predecir la progresión del virus. En semana y media los usuarios de Kaggle fueron capaces de predecir la progresión con una precisión del 70 por ciento al comparar sus predicciones con datos conocidos de una investigación académica que supuso un hito y que se logró tras cuatro años de trabajo. Para el final de la competición, que duraba tres meses, los usuarios del sitio habían creado un modelo que reducía la tasa de error anterior en un tercio y aumentaba la precisión de las predicciones al 77 por ciento.

Goldbloom afirma que el atractivo del sitio para los concursantes es la embriagadora sensación  de subir en las tablas de líderes. Quienes presentan las mejores soluciones suben a la parte más alta de la tabla de líderes en ese concurso, algo que encanta a los usuarios. “Quieres seguir subiendo por la escala”, afirma Goldbloom.

A Will Cukierski, estudiante de doctorado en ingeniería biomédica en la Universidad de Rutgers (EE.UU.) no solo le gusta subir por la escala sino que también considera que las competiciones son una forma de entrar en el mercado de trabajo. Ha participado en media docena de los concursos de Kaggle, consiguiendo el primer lugar en uno de ellos y quedándose muy cerca de la cima en otros. “Es un poco de diversión mezclada con un poco de negocios”, explica.

Aunque la mayor parte de la gente que trabaja en los concursos de Kaggle tienen experiencia en investigación de datos, los ganadores suelen salir de campos distintos al específico del concurso, probablemente porque son capaces de abordar el problema desde un ángulo distinto, según Goldbloom.

Barbara Chow, directora educativa de la Fundación William and Flora Hewlett espera que esta forma de pensar de forma creativa ayude al reto propuesto por su grupo, que busca un a forma mejor de evaluar automáticamente los ensayos de los estudiantes. El concurso, que ofrece un premio de 60.000 dólares ( unos 47.000 euros) y termina el 30 de abril, se celebra al mismo tiempo que un concurso privado que incluye a las principales empresas que ya trabajan en el campo de la evaluación automática de ensayos.

Aunque no está segura de que a la comunidad de Kaggle se le ocurra el mejor resultado, Chow afirma que la Fundación Hewlett decidió probar a hacer el concurso allí puesto que “el sitio tiene un buen acceso a las personas adecuadas”.

Cukierski es una de esas personas, su equipo está trabajando duro para resolver el concurso, intentando mejorar las ofertas automatizadas ya existentes y crear una solución que se parezca a la evaluación hecha por humanos. ¿Qué tal les va por ahora? “Nuestros resultados preliminares demuestran que ya nos acercamos bastante a los humanos”, sostiene. 

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. ¿Quién ganará la batalla de los chips si el sector de la IA no para de cambiar?

    Nvidia ha presentado su nuevo chip, basado en su enfoque de procesador gráfico. Mientras tanto, Intel, Google, Microsoft y cada vez más 'start-ups' trabajan en sus propios enfoques, con distintos pros y contras. ¿Cuál vencerá la carrera? Sólo el tiempo lo dirá

  2. El fallo de Instagram que desveló la cuenta secreta del director del FBI también le afecta a usted

    Antes, la mayoría de los hackeos se producían porque los datos estaban desprotegidos. Ahora, el problema son las complicadas relaciones entre los datos y los algoritmos. La periodista de esta historia sólo tardó cuatro horas en encontrar la cuenta

  3. La inteligencia artificial se alía con la Biblia para rescatar idiomas en peligro

    La investigación ha conseguido identificar elementos comunes en los tiempos verbales de distintas lenguas poco habladas que la traducción automática y la comunicación amenazan con matar. Es un buen primer paso para conseguir traducirlas automáticamente y que no se pierdan