Tecnología y Sociedad

Business Impact: ¿Tienen valor los Grandes Datos?

Muchos emprendedores prevén grandes beneficios en la explotación de los datos procedentes de la actividad en línea y los aparatos móviles. Un profesor de la Escuela Wharton de la Universidad de Pennsylvania no está de acuerdo.

por Lee Gomes | traducido por Lía Moya (Opinno)
09 Mayo, 2012

En la actualidad hay pocas ideas que tengan tanto tirón entre emprendedores e inversores como la noción de 'Grandes Datos'. La idea es que estamos recogiendo tanta información sobre la actividad en línea de la gente y, sobre todo, de sus teléfonos móviles, que podemos hacer predicciones cada vez más específicas sobre cómo se comportarán y qué comprarán.

Pero ¿son ciertas esas suposiciones? Entre los escépticos se encuentra Peter Fader, codirector de la Iniciativa de Análisis de Consumidores en la Escuela Wharton de la Universidad de Pennsylvania (Estados Unidos) donde además es profesor de márketing. Fader ha compartido algunas de sus preocupaciones con Technology Review.

TR: ¿Cómo describiría la idea predominante sobre los Grandes Datos en la comunidad tecnológica?

Fader: “Cuanto más, mejor”. Si me puedes dar más datos sobre un cliente, si puedes capturar más aspectos de su comportamiento, sus conexiones con otros, sus intereses y demás, entonces podré definir perfectamente a esa persona. Podré prever qué va a comprar y cuándo, cuánto se gastará y a través de qué canales.

¿Qué falla en eso?

Me recuerda muchísimo a lo que pasaba hace quince años con la CMR (siglas en inglés de la administración de la relación con los clientes). Entonces la idea era: “Podemos recoger todas estas transacciones e información e imagina todas las predicciones que podremos hacer”. Pero si le preguntas a cualquiera en la actualidad qué se le viene a la cabeza al oír CRM oirás “frustración”, “desastre”, “caro” y “fuera de control”. Resultó ser una gran trampa infructuosa de la tecnología de la información. Y me temo que vamos por el mismo camino con los Grandes Datos.

Ahora mismo parece que existen muchas empresas que prometen tomar una conversación de Twitter o una serie de comentarios de Facebook para hacer predicciones sobre el precio de las acciones o sobre cómo acogerá el mercado a un producto.

Todo eso es absurdo. Si pudiéramos obtener una visión de los datos realmente desgranada –por ejemplo, los tuits de cada individuo junto a las transacciones de ese mismo individuo, para ver cómo interactúa una cosa con la otra-, sería completamente distinto. Pero eso no es lo que está pasando. La gente se está centrando en lo atractivo de los medios sociales y llevándolo mucho más lejos de lo que deberían.

Hay quien dice que el fetichismo por los datos que describe es especialmente endémico de las start-ups relacionadas con la computación móvil. ¿Cree que es cierto? Y, si lo cree, ¿eso no sugiere que dentro de un año o dos habrá muchísimo emprendedor y mucho capital riesgo decepcionado?

Existe un 'fetichismo de la información' con cada nueva tecnología registrable, desde el correo electrónico y los buscadores en los años 90 hasta las comunicaciones móviles y los servicios de geolocalización actuales. Existe demasiada gente que cree que lo móvil es 'un nuevo mundo', que ofrece sorprendentes imágenes de comportamientos que antes era impensable lograr. Pero una gran mayoría de los patrones de comportamiento son sorprendentemente coherentes en todas estas plataformas. Eso no significa que no tengan interés ni importancia. Pero los métodos básicos que podemos usar en el mundo móvil para comprender y predecir estos comportamientos (y por lo tanto, los datos clave para conseguir hacerlo) no son ni mucho menos tan radicales como muchos creen.

¿Pero la computación móvil no ofrece algunas formas de datos que pueden ser especialmente útiles, como la localización de cada persona, el hecho de que en un momento determinado puedas estar comprando en una tienda? La información de ese tipo parece especialmente valiosa.

Por supuesto. No soy un Ludita de los datos. No cabe ninguna duda de que las nuevas tecnologías nos proporcionarán toda clase de parámetros útiles que antes no se podían conseguir. La cuestión es cuántos de esos datos necesitamos en realidad. Por ejemplo, ¿necesitamos una situación al segundo de la localización del consumidor? ¿Sería realmente útil integrar esta serie de observaciones con otros datos relacionados con el comportamiento (por ejemplo, qué productos miró el consumidor)? ¿O simplemente estaría bien saberlo? ¿Y cuántos de estos datos deberíamos conservar una vez terminado el análisis?

Un auténtico científico de datos tendría una idea clara de cómo responder a esas preguntas, con la vista puesta en la toma de decisiones prácticas. Pero un fanático de los Grandes Datos diría “Guárdalos todos, nunca se sabe cuándo nos podrían servir para una futura explotación”. Eso es lo que diferencia a los analistas de la 'vieja' escuela de los de la 'nueva' escuela.

Supongo que no estará en contra del aprendizaje automático, que ha revolucionado campos como el de la traducción o de nuevas herramientas de bases de datos como Hadoop.

Me aseguro de que mis estudiantes de doctorado aprendan sobre todas estas tecnologías emergentes porque son muy importantes para determinadas tareas. El aprendizaje automático es muy bueno clasificando cosas, encasillando cosas. Si quiero saber qué marca comprará una persona a continuación, o si una persona votará por los republicanos o por los demócratas, nada gana al aprendizaje automático y éste mejora día a día.

El problema es que hay muchas decisiones que no son fácilmente 'encasillables'. Por ejemplo, las preguntas que empiezan por 'cuándo' en vez de por 'cuál'. El aprendizaje automático fracasa estrepitosamente en ese tipo de tareas, es importante contar con unas capacidades mucho más amplias además del aprendizaje automático y del manejo de bases de datos, pero muchos defensores de los “Grandes Datos” no saben lo que no saben.

Parece creer que el trabajo más importante en el campo de la ciencia de datos se hizo hace mucho.

La edad de oro de la predicción del comportamiento fue hace 40 o 50 años, cuando había muy pocos datos y las empresas tenían que sacarles todo el provecho que podían.

Piensa en Lester Wunderman, que acuñó la frase 'marketing directo' en la década de 1960. Él sí que hacía auténtica ciencia de datos. Decía: “Escribamos todo lo que sabemos de este cliente, qué ha comprado, qué catálogos le hemos enviado, cuánto ha pagado por ello”. Era muy difícil porque no tenía un cluster Hadoop que lo hiciera por él.

¿Y qué descubrió?

El legado que él (y otros de la vieja escuela del marketing directo) nos dejaron son unas siglas que siguen siendo muy válidas: RFM (las siglas en inglés de recency -hace cuánto tiempo-, frequency –con qué frecuencia- y monetary value –valor monetario-).

La 'F' y la 'M' son evidentes. No hacía falta mucha ciencia para saberlo. La 'R' es la parte más interesante, porque no era evidente que la temporalidad, o el momento de la última transacción, debiera pertenecer siquiera al triunvirato de medidas clave, mucho menos que fuera la primera de la lista. Pero se descubrió que los clientes que habían hecho cosas recientemente, aunque no fuera mucho, eran mucho más valiosos que los clientes que llevaban tiempo sin aparecer. Eso fue una gran sorpresa.

Algunos de esos viejos modelos son fantásticos aún hoy en día. Si le preguntas a cualquiera en marketing directo sobre el modelo RFM, te dirá “Cuéntame algo nuevo”. Pero pregúntale a cualquiera en el mundo del comercio electrónico y probablemente no sepan de qué estás hablando. O usarán un montón de Grandes Datos y acabarán por descubrir la rueda RFM. Y esa rueda que descubran quizá no ruede tan bien como la original.

Los Grandes Datos y los científicos de datos parecen tener un barniz de respetabilidad.

En el mundo de la inversión, tienes lo que se denomina 'topógrafos técnicos'. Observan los precios (de las acciones) subir y bajar, alcanzando lo que se denomina 'resistencia' a los 30 o 'apoyo' a los 20, por ejemplo. Los topógrafos observan los datos sin elaborar explicaciones básicas sobre por qué se dan esos movimientos, sobre la calidad de la gestión de una empresa, por ejemplo.

Entre los académicos financieros, los topógrafos son considerados unos charlatanes. Pero una gran parte de los de los Grandes Datos son exactamente iguales que ellos. Dicen “Vamos a observar los datos y buscar patrones y actuar en consecuencia cuando los encontremos”. En resumen, lo que llamamos 'ciencia de datos' tiene muy poco de ciencia y eso es un grave problema.

¿Hay algún sector que lo haga bien?

Sí, las aseguradoras. Los actuarios pueden decir con toda confianza qué porcentaje de personas con tus características vivirá hasta los 80. Pero ningún actuario intentaría siquiera predecir cuándo morirás tú. Saben exactamente dónde establecer los límites.

Incluso con un conocimiento infinito de los comportamientos pasados, en muchas ocasiones no tendremos información suficiente para hacer predicciones significativas sobre el futuro. De hecho, cuantos más datos tenemos, más aumenta nuestra falsa sensación de confianza. Nuestro porcentaje de acierto no solo no será perfecto, sino que será sorprendentemente bajo. La parte importante, tanto como científicos como como hombres de negocios, es comprender cuáles son nuestros límites y usar la mejor ciencia posible para rellenar los espacios en blanco. Y el mundo de los datos nunca logrará hacer eso por nosotros.

Tecnología y Sociedad

Business Impact: ¿Tienen valor los Grandes Datos?

Cómo las baterías térmicas están caldeando el almacenamiento de energía

Probar fármacos, crear bioordenadores y otros usos de los organoides

Tecnología de código abierto para combatir la desconfianza en las elecciones de EE UU