Tecnología y Sociedad

Las evaluaciones de rendimiento humano están dominadas por datos subjetivos

Los humanos analizamos el desempeño de otras personas constantemente, y en el ámbito laboral cada vez es más importante, pero ¿cómo lo hacemos? Una investigación demuestra que, en el caso del fútbol, la información de contexto tiene mucho peso frente a los datos técnicos objetivos

por Emerging Technology From The Arxiv | traducido por Teresa Woods
27 Diciembre, 2017

Nuestra forma de evaluar el desempeño de otras personas es uno de los misterios más grandes de la psicología cognitiva. Este proceso ocurre continuamente a medida que juzgamos la capacidad de las personas de realizar ciertas tareas. Y esto se lo hacemos a todo el mundo, desde electricistas y conductores de autobuses hasta contables y políticos.

El problema es que solo tenemos acceso a un conjunto limitado de datos sobre el rendimiento de un individuo, algunos de ellos directamente relevantes, como el historial de conducción de un taxista. Pero muchos otros son irrelevantes, como el sexo del conductor. De hecho, la cantidad de información puede ser tan grande que nos vemos obligados a decidir usar un pequeño subconjunto de datos. ¿Cómo se toman esas decisiones?

Hoy recibimos una especie de respuesta gracias al trabajo del investigador de la Universidad de Pisa (Italia) Luca Pappalardo y varios compañeros. El equipo ha estudiado este problema en el ámbito deportivo, donde las cuestiones de rendimiento se ponen de relieve. Su trabajo proporciona una visión única de la forma en la que evaluamos el desempeño humano y su relación con las medidas objetivas.

Los factores que los observadores humanos usan para calificar el desempeño son un pequeño subconjunto de medidas objetivas.

Foto: Los factores que usan los observadores humanos para calificar el desempeño son un pequeño subconjunto de medidas objetivas.

El rendimiento deportivo es un área que lleva años recopilando registros detallados del desempeño individual. El equipo de Pappalardo se centró en el fútbol, el deporte más popular del mundo, y en particular en el rendimiento de los jugadores que compiten al nivel más alto del deporte en la liga de fútbol de Serie A de Italia.

Durante muchos años los periódicos deportivos italianos han calificado el rendimiento de los jugadores en cada partido sobre una escala de 0 a 10, donde 0 es inolvidablemente malo y 10 inolvidablemente increíble. Este sistema se basa en el sistema italiano de calificaciones escolares, donde un 6 indica que un alumno ha tenido un desempeño adecuado. La forma en la que los jugadores son calificados no se publica, pero presumiblemente se encarga a un periodista deportivo experto.

Durante los últimos años, los mismos jugadores han empezado a ser evaluados por un sistema objetivo que cuenta el número de pases, tiros a puerta, entradas, recuperaciones de balón y más estadísticas de este tipo para cada jugador. Esta medida técnica tiene en cuenta 150 parámetros diferentes y proporciona un recuento exhaustivo del rendimiento sobre el césped de cada jugador.

La pregunta que hacen Pappalardo y sus compañeros es cómo las clasificaciones de los periódicos se correlacionan con las calificaciones técnicas, y si es posible utilizar los datos técnicos para comprender los factores que influyen en las calificaciones de los seres humanos.

Los investigadores comenzaron con el conjunto de datos técnicos de 760 partidos de la Serie A de las temporadas 2015-16 y 2016-17. Está compuesto por más de un millón de puntos de datos que describen los eventos transcurridos en el terreno de juego con sello de tiempo. Con esta información, los investigadores obtienen un vector de rendimiento técnico para cada jugador en cada partido, una medida objetiva de su desempeño.

Los investigadores también tenían las calificaciones para cada jugador de cada partido de tres periódicos deportivos: Gazzetta dello Sport , Corriere dello Sport y Tuttosport. Estas clasificaciones tienen algunas propiedades estadísticas interesantes. Solo el 3% son inferiores a un 5 y solo un 2% superiores a un 7. Cuando las calificaciones se clasifican de acuerdo con el sistema de calificaciones escolares (como malas si son inferiores a 6 y buenas si son de 7 o más), las calificaciones malas resultan ser tres veces más comunes que las buenas.

En general, los periódicos califican una misma actuación de manera similar, aunque puede haber desacuerdos ocasionales de hasta 6 puntos. La investigación detalla: "Observamos un buen nivel de consenso en las calificaciones entre los tres periódicos, al encontrar que las calificaciones (i) tienen distribuciones idénticas; (ii) están fuertemente correlacionadas entre sí y (iii) típicamente difieren por una unidad de calificación (0,5)".

Para analizar la relación entre las calificaciones de los periódicos y las calificaciones técnicas, el equipo de Pappalardo utilizó el aprendizaje automático para encontrar correlaciones en los conjuntos de datos. En particular, crearon un "juez artificial" que intenta reproducir las calificaciones de los periódicos a partir de un subconjunto de datos técnicos.

Esto generó un resultado curioso. El juez artificial puede igualar las calificaciones de los periódicos con un grado razonable de precisión, pero no tan bien como coinciden los periódicos entre sí. "El desacuerdo indica que las características técnicas por sí solas no pueden explicar completamente el proceso de calificación [de los periódicos]", dicen los investigadores.

En otras palabras, las calificaciones de los periódicos deben depender de factores externos que no aparecen en los datos técnicos, como la expectativa de un determinado resultado, los sesgos personales y otros.

Para poner a prueba esta idea, el equipo de Pappalardo recopiló un nuevo conjunto de datos de factores externos. Estos incluyen la edad, la nacionalidad y el club del jugador, el resultado esperado del partido según las previsiones de los corredores de apuestas, el resultado real del partido y si un partido se disputó en casa o fuera.

Cuando se incluyen estos datos, el juez artificial rinde mucho mejor. "Al añadir datos de contexto, el acuerdo estadístico entre el juez artificial y el juez humano aumenta significativamente", dice el equipo.

De hecho, está claro que pueden ver ejemplos de cómo los factores externos influyen en las calificaciones de los periódicos. En todo el conjunto de datos, solo dos jugadores han recibido la calificación máxima (10). Uno de ellos fue el delantero argentino Gonzalo Higuaín, que jugaba entonces para el Nápoles. En esta ocasión, marcó tres goles en un partido, y al hacerlo se convirtió en el máximo anotador durante una misma temporada de la historia la Serie A. Ese hito fue sin duda la razón para la calificación perfecta, pero no hay forma de obtener esta puntuación a partir de los datos técnicos.

Una pregunta importante es qué factores utiliza el juez artificial para coincidir con las calificaciones de los periódicos. La investigación continúa: "observamos que la mayor parte de la atención de un juez humano está dedicada a un pequeño número de características, y la gran mayoría de las características técnicas son poco consideradas o descartadas durante el proceso de evaluación".

Entonces, en el caso de los delanteros, los periódicos tienden a clasificarlos mediante factores fácilmente observables, como el número de goles marcados y califican a los porteros en función del número de goles encajados. Los jugadores de medio campo tienden a ser calificados en base a parámetros más generales, como la diferencia de goles. Eso tiene sentido, los observadores humanos tienen un ancho de banda limitado y probablemente solo sean capaces de observar una pequeña fracción de los indicadores de rendimiento. De hecho, el equipo afirma que el juez artificial puede igualar las clasificaciones humanas con menos de 20 de los factores técnicos y externos.

Es un resultado fascinante que tiene importantes implicaciones para la forma en la que pensamos en las evaluaciones de desempeño. El objetivo, por supuesto, es encontrar formas más efectivas de evaluar el rendimiento en todo tipo de situaciones. El equipo de Pappalardo cree que su trabajo tiene una importante relación con esto. "Este trabajo puede ser utilizado para capacitar a los evaluadores humanos para adquirir un entendimiento de la lógica subyacente de sus decisiones", concluyen.

Ref: arxiv.org/abs/1712.02224: Human Perception of Performance

Tecnología y Sociedad

Las evaluaciones de rendimiento humano están dominadas por datos subjetivos

¿Está la robótica a punto de vivir su momento ChatGPT?

Cómo las baterías térmicas están caldeando el almacenamiento de energía

Probar fármacos, crear bioordenadores y otros usos de los organoides