.

Computación

Tiembla Groucho Marx, los ordenadores ya pillan casi todos tu sarcasmos

1

Este tipo de humor resulta especialmente complejo de detectar para una inteligencia artificial, pero las matemáticas han permitido una estrategia que lo identifica con mucha precisión

  • por Emerging Technology From The Arxiv | traducido por Teresa Woods
  • 20 Octubre, 2016

Allá por 1970, la activista social Irina Dunn escribió un eslogan en la puerta del inodoro en la Universidad de Sídney (Australia) que decía: "Una mujer necesita a un hombre como un pez necesita una bicicleta". La frase se volvió viral y finalmente se convirtió en un famoso refrán del creciente movimiento feminista del momento.

La frase también es un ejemplo del sarcasmo. El humor nace del hecho de que un pez no necesita una bicicleta. La mayoría de los humanos detectan esto sin problema. Pero mientras que varias técnicas de aprendizaje de máquinas han ayudado a los ordenadores a entender otras formas de humor, el sarcasmo aún les resulta muy complicado de pillar.

Este tipo de humor puede identificarse a través de verbos positivos asociados con una situación negativa o poco deseable. Y algunos investigadores han empleado este enfoque para buscar el sarcasmo.

Pero el sarcasmo a menudo carece de sentimiento. La frase del pez y la bicicleta es un buen ejemplo. No contiene palabras que transmitan emociones. Así que hace falta una nueva estrategia si los ordenadores quieren entender este tipo de bromas.

El investigador del Instituto Indio de Tecnología en Mumbái Aditya Joshi  y varios compañeros afirman haber encontrado precisamente este tipo de estrategia. Dicen que su nuevo enfoque mejora drásticamente la capacidad de los ordenadores de detectar sarcasmo.

Su método es relativamente sencillo. En lugar de analizar el sentimiento de una frase, el equipo de Joshi analiza la similitud de las palabras. Para ello estudia cómo se relacionan entre sí dentro de una vasta base de datos de artículos de Google News que contiene unas tres millones de palabras. Es la base de datos Word2Vec.

Esta base ha sido ampliamente analizada para determinar la frecuencia con la que las palabras aparecen juntas (ver Para Google News los hombres son médicos y las mujeres amas de casa). Esto permite representarlas como vectores dentro de un espacio altamente dimensional. Resulta que las palabras similares pueden ser representadas por vectores similares y las matemáticas del espacio vectorial puede captar relaciones sencillas entre ellas. Por ejemplo, "rey - hombre + mujer = reina".

Aunque existen claras diferencias entre las palabras "hombre" y "mujer", ocupan partes similares del espacio vectorial. Sin embargo, las palabras "bicicleta" y "pez" ocupan partes totalmente distintas y por tanto se consideran muy distintas.

Según el equipo de Joshi, las frases que contrastan conceptos similares con otros muy distintos tienen mayores probabilidades de ser sarcásticas.

Para probar esta idea, estudiaron la similitud entre las palabras de una base de datos de citas de la página web Goodreads. El equipo sólo escogió citas que habían sido etiquetadas como "sarcásticas" por los lectores. Como método de control, también incluyó citas etiquetadas como "filosóficas". Ambos tipos generaron una base de 3.629 citas, de las cuales 759 eran sarcásticas. A partir de ellas, el equipo se dispuso a comparar los vectores de cada cita en busca de similitudes y diferencias.

Los resultados son interesantes. El equipo de Joshi afirma que este enfoque es significativamente mejor que otras técnicas. El equipo escribe: "Observamos una mejora en la detección del sarcasmo".

Aunque por supuesto su técnica no es perfecta. Y los errores que comete son bastante ilustrativos. Por ejemplo, no identificó el sarcasmo en la siguiente cita: "Genial. Consejos sentimentales de uno de los más buscados de Estados Unidos".

Probablemente se debe a que muchas de estas palabras tienen significados múltiples difíciles de captar.

Otra frase sarcástica que no identificada fue: "Ah, y supongo que la manzana se comió el queso". En este caso, manzana y queso tienen una similitud muy alta y ninguna de las dos muestra una diferencia significativa. Así que este ejemplo no sigue la regla que el algoritmo está diseñado para buscar.

El algoritmo también considera sarcásticas algunas frases que no lo son. Por ejemplo esta: "Ay mi amor, me gusta desaparecer en ti como desaparece una ola en el océano, lenta, silenciosa e infinitamente".

Los humanos no habían etiquetado esto como sarcástico. Sin embargo, no resulta difícil imaginar que esta frase sea empleada de manera sarcástica.

En general, es un trabajo interesante que marca algunas direcciones para futuras investigaciones. En particular, sería fascinante emplear este tipo de algoritmo para generar frases sarcásticas y tal vez emplear a humanos para decidir si funcionan o no.

Más allá de eso está la tarea del propio humor computacional. Es un objetivo ambicioso pero tal vez no esté totalmente fuera de nuestro alcance. Gran parte del humor es formulista, por lo que un algoritmo debería poder aplicar tal fórmula con facilidad. ¡Sí, claro!

Ref: arxiv.org/abs/1610.00883: Are Word Embedding-based Features Useful for Sarcasm Detection?

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. IBM afirma que Google no ha logrado la supremacía cuántica

    El gigante de los datos aseguró que su ordenador cuántico de 53 cúbits logró resolver una tarea que a un ordenador convencional le costaría 10.000 años. Pero su rival avisa de que, con una serie de mejoras, un superordenador podría hacerlo en dos días y medio

  2. El 'big data' revela qué elementos estimulan el dinamismo de una ciudad

    Un ingenioso software emplea los datos abiertos de Open Street Maps para acelerar la creación de mapas y otras herramientas de planificación urbana. Además de su artístico resultado, el enfoque podría lograr que el urbanismo se convierta por fin en una ciencia basada en pruebas

  3. "Me preocupa la biometría asociada a cosas como cajeros automáticos"

    El CTO y cofundador de Veracode, Chris Wysopal, lleva trabajando en ciberseguridad desde los albores de internet. A lo largo de los años ha visto muchas mejoras, como la doble autenticación, pero le preocupa que los desarrolladores de software no tienen responsabilidades si su producto falla