.

Otros

¿Cómo clasifica Google los tweets?

1

Unos algoritmos juzgan la relevancia de los microblogs con 140 caracteres o menos.

  • por David Talbot | traducido por Francisco Reyes (Opinno)
  • 13 Enero, 2010

Para poder ofrecer resultados de búsqueda útiles procedentes de la, así llamada, web en tiempo real—tales como “tweets” de Twitter con sólo unos pocos segundos de antigüedad informando acerca de un atasco en la carretera—Google ha adaptado su tecnología de clasificación de páginas y ha desarrollado unos nuevos algoritmos y filtros para que los resultados sean relevantes, según informa uno de los ingenieros líderes de Google.

Google sacó su tecnología de búsquedas en tiempo real el mes pasado, para ofrecer a los navegantes el acceso a las más recientes publicaciones en blogs y noticias en menos de los 15 minutos que con anterioridad tardaban los rastreadores de la compañía en descubrir elementos de nueva creación.

Bing, Cuil y otros motores de búsqueda también proporcionan varios tipos de resultados en tiempo real. Tanto Google como Bing han forjado acuerdos importantes con Twitter para obtener acceso en tiempo real a los tweets, que son los microblogs de 140 caracteres que envían los usuarios de Twitter. Sin embargo Google afirma ofrecer los resultados en tiempo real más detallados gracias al escaneado de titulares de noticias, blogs y feeds de Facebook, MySpace, Twitter y otras fuentes.

Los tweets son unos de los pilares de los resultados en tiempo real de Google, aunque la compañía hasta ahora no ha discutido públicamente la forma en que los clasifica. Una estrategia fundamental de Google para identificar la relevancia de los tweets guarda analogías con la tecnología PageRank de la compañía, que ayuda a encontrar páginas web relevantes con las búsquedas en internet tradicionales. Con PageRank, Google juzga la importancia de las páginas que contengan una palabra de búsqueda concreta, y lo hace en parte mediante el análisis de la estructura de sus vínculos. Cuantas más páginas estén vinculadas con esa página—y cuantas más páginas estén vinculadas a esas páginas vinculadas—más relevante será la página original.

En el caso de los tweets, lo principal es identificar a “seguidores reputados,” afirma Amit Singhal, un Miembro de Google que dirigió el desarrollo de las búsquedas en tiempo real. (Los usuarios de Twitter “siguen” los comentarios de otros usuarios que previamente han seleccionado, y ellos mismos son “seguidos.”)

“Puedes ganar reputación, y después lo que haces es otorgar dicha reputación a otros. Si te sigue mucha gente, y después tú sigues a alguien—entonces, e incluso si esta nueva persona no tiene muchos seguidores,” sus tweets son considerados valiosos porque sus seguidores por ellos mismos son ampliamente seguidos por otros, afirma Singhal. Es “decidida, decididamente” algo más que un simple concurso de popularidad, añade.

“Un usuario que siga a otro en un medio social es algo análogo a que una página esté viculada a otra en la web. Ambas son formas de recomendación,” afirma Singhal. “Al tiempo que las páginas de calidad se vinculan entre ellas en la web, la calidad de las páginas vinculadas sube. De igual forma, en el campo de los medios sociales, al tiempo que los usuarios establecidos siguen a otros usuarios, la calidad del usuario al que se sigue también sube.”

Sin embargo las clasificaciones sociales de Google apenas son el único método que el gigante de las búsquedas sigue para extraer la relevancia de los tweets. Google también ha desarrollado nuevas formas para escoger cuáles (si es que hay alguno) de entre todos los tweets se deben resaltar para términos comunes como “Obama”—y así evitar el spam o los tweets de baja calidad—en cuestión de segundos.

Uno de los problemas de los tweets es que la gente a menudo los equipa con los así llamados ‘hashtags’. Estos son símbolos que empiezan por el signo de libra (#) seguidos por una palabra que representa un tema actual de gran popularidad, tales como “Nexus One” o “Terremoto”, o el tema que tienda a ser más popular en ese momento. Cuando se incluyen hashtags en un tweet, el tweet resultante se muestra cuando otros usuarios de Twitter hacen clic en la palabra clave del hashtag en cualquier otra parte del sitio.

Aunque este tipo de etiquetas pueden maximizar la exposición pública de un tweet, también pueden servir como señales de alarma que apuntan a una baja calidad de los tweets y a contenidos parecidos al spam, afirma Singhal. Aunque no quiso entrar en detalles, señaló que Google ha modelado el comportamiento de los hashtags de forma que se tienda a reducir la exposición de los tweets de baja calidad. “Necesitamos modelar el comportamiento de los hashtags. Ese es el reto técnico que perseguimos con nuestros métodos de modelado,” señala Singhal.

Otro problema: cómo, si alguien busca con la palabra “Obama”, pasar por los tweets de prensa de la Casa Blanca y los miles restantes para encontrar la información más actual y relacionada. Google escanea los tweets para encontrar “la señal dentro del ruido,” afirma. Esta “señal” podría incluir una nueva serie de tweets y otros blogs que mencionen a “la policía de Cambridge” o a “Harry Reid” cerca de las menciones a “Obama.” Al buscar este tipo de señales, Google es capaz de elaborar resultados en tiempo real que contengan los temas más frescos incluso para términos de búsqueda muy comunes.

En el futuro, tanto Twitter como Google esperan poder mejorar la relevancia de los términos de búsqueda en todos los contextos mediante la incorporación de datos de geo-localización, que se pueden añadir a las publicaciones enviadas a través de los smartphones. En general, la búsqueda en tiempo real “está evolucionando,” señala Dylan Casey, director de producto de Google para búsquedas en tiempo real. “Hablo con los responsables de Twitter de forma habitual para saber a dónde quieren llevar el sitio. Nos dan sus opiniones, y nosotros a ellos las nuestras, con lo que nuestros ingenieros acaban colaborando. Es algo realmente simbiótico.”

Singhal añadió que Twitter es apenas la única fuente de información en tiempo real. “Twitter es de hecho un componente muy importante de la web en tiempo real. Sin embargo, lo que estamos observando es que es sólo uno de los componentes. Hay mucho valor en las noticias, blogs y páginas webs que se generan en tiempo real, puesto que las orgnizaciones de noticias trabajan con mucho esfuerzo por llevar la calidad a cierto nivel,” afirma. “Twitter es definitivamente útil puesto que incluye contenidos de forma abreviada. Sin embargo, lo que hemos descubierto es que la web en tiempo real es mucho más grande.”

Otros

  1. De la llegada a la Luna al desarrollo de la IA: el papel de las universidades en la innovación

    Capacitar a las universidades para que se mantengan a la vanguardia de la investigación en IA será clave para hacer realidad el potencial de este campo a largo plazo.

    Cuatro columnas y un frontón griego sobre torres de servidores mientras un investigador mira un portátil en un carro de servidores.
  2. Es hora de jubilar el término "usuario"

    La proliferación de la IA significa que necesitamos una nueva palabra.

    Chica con un móvil en la mano vista a través de un cristal roto
  3. Elevar tu casa o abandonarla: el dilema del cambio climático en Luisiana

    La costa suroeste de Luisiana se enfrenta a algunas de las predicciones climáticas más severas de Estados Unidos. ¿Puede un proyecto gubernamental levantar la zona y sacarla de la crisis?

    Una casa de estilo A-frame en Luisiana, elevada sobre pilares de cemento, preparada para inundaciones. Con dos pisos, su fachada roja contrasta con el cielo parcialmente nublado. Al fondo, se ve el bayou.