.

Computación

T. S. Eliot será el autor más destacado del dominio público en 2015

1

Un algoritmo de aprendizaje automático genera un 'ranking' para decidir qué libros digitalizar cuando pasan al dominio público

  • por The Physics Arxiv Blog | traducido por Francisco Reyes
  • 17 Diciembre, 2014


El Día del Dominio Público,que se celebra cada 1 de enero, es el día en que obras que hasta entonces han tenido derechos de autor pueden empezar a imprimirse, digitalizarse, modificarse y reutilizarse de forma más o menos libre y gratuita. En la mayoría de los países esto ocurre entre 50 o 70 años después de la muerte del autor.

Existe incluso un sitio web que celebra el evento, anunciando todos los autores más notables cuyas obras estarán disponibles gratuitamente ese día. Esto permite que organizaciones como el Proyecto Gutenberg preparen ediciones digitales y que LibriVox cree versiones de audio, y así sucesivamente.

Pero la cuestión es la siguiente. Aunque cada año pasan a ser de dominio público las obras de miles de autores, sólo un pequeño porcentaje acaban estando ampliamente disponibles. Así que, ¿cómo elegir en qué obra centrarse?

Allen Riddell desde el Dartmouth College de New Hampshire (EEUU) asegura tener la respuesta. Riddell ha desarrollado un algoritmo que genera automáticamente una clasificación independiente de autores notables en un determinado año. Después sólo hay que escoger en qué obras centrarse o detectar omisiones significativas del pasado.

El enfoque de Riddell consiste en analizar en qué tipo de contenidos de dominio público se ha centrado el mundo en el pasado y después usar esa información como guía para encontrar contenido en el que la gente tienda a centrarse en el futuro. Para ello, utiliza un algoritmo de aprendizaje automático para analizar dos bases de datos. La primera es una lista de más de un millón de libros en línea de dominio público mantenida por la Universidad de Pennsylvania (EEUU). La segunda es Wikipedia.

Riddell empieza por las entradas de Wikipedia de todos los autores en la edición en inglés, que ascienden a más de un millón. Su algoritmo extrae información como la longitud del artículo, su antigüedad, las vistas estimadas por día, el tiempo transcurrido desde la última revisión, y así sucesivamente.

A continuación el algoritmo toma la lista de autores en la base de datos de libros en línea y busca una correlación entre los datos biográficos de Wikipedia y la existencia de una edición digital de dominio público.

Esto produce una "clasificación de dominio público" de todos los autores que aparecen en Wikipedia. Por ejemplo, la autora Virginia Woolf tiene una clasificación de 1.081 entre 1.011.304, mientras que el pintor italiano Giuseppe Amisani, que murió en el mismo año que Woolf, tiene una clasificación de 580.363. Según la clasificación de Riddell, organizaciones como el Proyecto Guttenberg deberían centrarse más en la digitalización de la obra de Woolf que la de Amisani.

Lo bueno de este enfoque es que es totalmente independiente. Eso está en marcado contraste con los comités que a menudo se establecen para clasificar las obras subjetivamente.

Placa homenaje al autor en Camden (Reino Unido). Crédito: sleepymyf

De las personas que murieron en 1965 y cuya obra entrará en el dominio público el próximo enero en muchas partes del mundo, el nuevo algoritmo escoge a T. S. Eliot como el individuo de más alta clasificación. Entre las otras personas con alta clasificación están Somerset Maugham, Winston Churchill y Malcolm X.

Además de por el año de la muerte, es posible clasificar los autores en función de categorías de interés. Por ejemplo, el poeta mexicano mejor clasificado es Homero Aridjis, el filósofo francés mejor clasificado es Jean-Paul Sartre y la escritora norteamericana mejor clasificada es Terri Windling.

Riddell afirma que su sistema de clasificación está casi al mismo nivel de clasificaciones existentes recopiladas por expertos humanos, como la elaborada por el consejo editorial de la Biblioteca Moderna. "La Clasificación de Dominio Público de los autores seleccionados por el consejo editorial de la Biblioteca Moderna es siempre de alto nivel", asegura.

Sin embargo no es perfecta. Riddell reconoce que su nueva Clasificación de Dominio Público probablemente refleje los sesgos inherentes a Wikipedia, que por ejemplo es famosa por tener pocas mujeres entre sus editores.

A pesar de esto, probablemente la clasificación seguirá siendo útil. Debería ser especialmente práctica para encontrar autores notables en el dominio público cuyas obras aún no estén disponibles en formato electrónico porque de alguna manera hayan sido pasados ​​por alto. "Flannery O'Connor y Sylvia Plath destacan como ejemplos significativos de autores cuyas obras podrían estar disponibles hoy día en el Proyecto Gutenberg de Canadá", señala Riddell. (Canadá sigue la regla de los 50 años en vez de 70).

Puede que incluso cambie la naturaleza del Día del Dominio Público. "La Clasificación del Dominio Público promete facilitar, e incluso automatizar, el Día del Dominio Público", asegura Riddell.

¡Muy práctico!

Ref: arxiv.org/abs/1411.2180: Public Domain Rank: Identifying Notable Individuals with the Wisdom of the Crowd

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. La 'start-up' de EE UU que se enfrenta al gigante japonés de materiales para chips

    La financiación federal está impulsando a empresas estadounidenses como Thintronics a incursionar en la fabricación de semiconductores. El éxito está lejos de estar garantizado.

    Placas de circuitos electrónicos apiladas en una cadena de montaje.
  2. ASML, la empresa que revolucionó la fabricación de chips y quiere seguir haciéndolo

    ‘MIT Technology Review’ se reunió con el CTO saliente, Martin van den Brink, para hablar del ascenso de la empresa a la hegemonía y de la vida y muerte de la Ley de Moore  

    Dos trabajadores de ASML pasan por delante de la máquina UVE de alta apertura numérica en Veldhoven
  3. ‘Chiplets’: el arma de China en su batalla tecnológica contra EE UU

    Al conectar varios chips menos avanzados en uno, las empresas chinas podrían eludir las sanciones impuestas por el gobierno estadounidense.