.

JINHWA JANG

Computación

Todo muere, incluida la información

1

La digitalización puede ayudar a controlar la ola de entropía, pero no la detendrá

  • por Erik Sherman | traducido por Ana Milutinovic
  • 03 Noviembre, 2022

Todo muere: personas, máquinas, civilizaciones. Tal vez podamos encontrar algún consuelo al saber que todas las cosas significativas que hemos aprendido en el camino sobrevivirán. Pero incluso el conocimiento tiene una duración. Los documentos se desvanecen. El arte desaparece. Bibliotecas y colecciones enteras pueden sufrir una destrucción rápida e inesperada.

Sin duda, nos encontramos en una etapa tecnológica en la que podríamos idear formas de hacer que el conocimiento esté disponible y accesible para siempre. Al fin y al cabo, la densidad de almacenamiento de datos ya es incomprensiblemente alta. En el museo de internet, que no para de crecer, uno puede pasar fácilmente de las imágenes del telescopio espacial James Webb a diagramas que explican la filosofía de Pitágoras. O de la música de las esferas a un tutorial de YouTube sobre solos de guitarra de blues. ¿Qué más se podría querer?

Bastante, según los expertos. Por un lado, lo que pensamos que es permanente no lo es. Los sistemas de almacenamiento digital se pueden volver ilegibles en tan solo un periodo de entre tres a cinco años. Los bibliotecarios y archivistas trabajan con prisa para copiar las cosas a los formatos más nuevos. Pero la entropía siempre está ahí, esperando entre bastidores. "Nuestras profesiones y nuestra gente a menudo intentan extender la duración normal tanto como sea posible a través de una variedad de técnicas y todavía controlan la marea", afirma Joseph Janes, profesor asociado de la Escuela de Información de la Universidad de Washington.

Para complicar más las cosas, los archivistas se enfrentan a una avalancha de información sin precedentes. En el pasado, los materiales eran escasos y el espacio de almacenamiento limitado. "Ahora tenemos el problema opuesto", indica Janes. "Todo se está grabando todo el tiempo".

En principio, eso podría corregir un error histórico. Durante siglos, innumerables personas no tenían la cultura adecuada, el género o la clase socioeconómica para que su conocimiento o trabajo fuera descubierto, valorado o preservado. Pero la escala masiva del mundo digital actual presenta un desafío único. Según una estimación del año pasado de la empresa de investigación de mercado IDC, la cantidad de datos que las empresas, los gobiernos y las personas crearán en los próximos años será el doble del total de todos los datos digitales generados anteriormente desde el inicio de la era informática.

Escuelas enteras dentro de algunas universidades trabajan para encontrar mejores técnicas para guardar los datos bajo su paraguas. El Centro de Datos y Servicios para Humanidades de la Universidad de Basilea (Suiza), por ejemplo, ha estado desarrollando una plataforma de software llamada Knora no solo para archivar los muchos tipos de datos del trabajo de humanidades, sino también para garantizar que las personas en el futuro puedan leerlos y usarlos. Sin embargo, el proceso es difícil.

"No podemos salvarlo todo... pero no es una razón para no hacer lo que podamos".

Andrea Ogier

"Hacemos conjeturas fundadas y esperamos lo mejor, pero hay conjuntos de datos que se pierden porque nadie sabía que serían útiles", resalta Andrea Ogier, vicedecana y directora de Servicios de Datos en las Bibliotecas Universitarias de Virginia Tech (EE UU).

Nunca hay suficientes personas o dinero para hacer todo el trabajo necesario, y los formatos cambian y se multiplican todo el tiempo. "¿Cómo asignamos mejor los recursos para preservar las cosas? Porque los presupuestos son limitados", se pregunta Janes. "En algunos casos, eso significa que las cosas se guardan o almacenan, pero simplemente se quedan allí, sin catalogar ni procesar, y es casi imposible encontrarlas o acceder a ellas". En algunos casos, los archivistas no aceptan nuevas colecciones.

Los formatos utilizados para almacenar datos son en sí mismos transitorios. La NASA guardó alrededor de 170 cintas de datos sobre el polvo lunar, recopilados durante la era Apolo. Cuando los investigadores querían usar las cintas a mediados de la década de 2000, no pudieron encontrar a nadie con la máquina IBM 729 Mark 5 de la década de 1960 necesaria para usarlas. Con ayuda, el equipo finalmente localizó una en mal estado en el almacén del Australian Computer Museum. Algunos voluntarios ayudaron a restaurar la máquina.

El software también tiene su fecha de caducidad. Ogier recuerda haber tratado de examinar un archivo de hoja de cálculo antiguo de Quattro Pro pero descubrió que no había ningún software disponible que pudiera leerlo.

Ha habido intentos de programas resistentes al futuro. Un proyecto que recibió mucha fanfarria en 2015 es el archivo Olive, siglas en inglés de Biblioteca Abierta de Imágenes para Ejecución Virtualizada (Open Library of Images for Virtualized Execution), que ejecuta software antiguo en un conjunto de máquinas virtuales; por ejemplo, Chaste 3.1, un programa de investigación de biología y fisiología de 2013, y la versión para Mac de 1990 del juego de ordenador The Oregon Trail. El proyecto aún está activo, según explica Mahadev Satyanarayanan, profesor de informática de la Universidad Carnegie Mellon (EE UU), y ha habido desafíos en su expansión. Incluso el software que no se usa debe tener una licencia de las empresas propietarias y, a menudo, no hay una manera fácil de introducir nuevos datos en las aplicaciones de investigación del archivo.

Otros esfuerzos para ayudar a avanzar en la longevidad del conocimiento también han tenido resultados encontrados. Internet Archive, hogar de Wayback Machine, tiene una gran colección de materiales digitalizados, incluidos software, música y vídeos, pero desde el verano de 2022, lucha contra una demanda por infracción de derechos de autor presentada por varios editores.

En el lado más esperanzador, la Iniciativa de codificación de texto (Text Encoding Initiative) ha mantenido estándares internacionales para codificar textos legibles por máquina desde la década de 1990. Hace una década, la Oficina de Política Científica y Tecnológica de EE UU estipuló que las solicitudes de investigación con apoyo federal deben proporcionar un plan de gestión de datos para que los investigadores o la sociedad puedan utilizar los datos en el futuro. "Estamos llegando al punto en el que casi todos los proyectos de investigación financiados por subvenciones tienen que poner sus datos en alguna parte", explica Ogier. Pero no existen requisitos generales sobre quién debe almacenar los datos o cuánto tiempo se deben guardar.

Inevitablemente, se seguirán perdiendo las ideas, conocimientos y creaciones humanas. "No podemos salvarlo todo. No podemos proporcionar acceso a todo. No podemos recuperarlo todo", concluye Ogier. "Pero eso no es una razón para no hacer lo que podamos".

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. La corrupción desata dudas sobre el modelo chino de inversión en microchips

    Los arrestos de varios altos directivos del fondo para semiconductores podrían obligar al Gobierno chino a replantearse cómo invierte en este sector

  2. La censura de China contra el código abierto se le puede volver en contra

    Muchos sospechan que China ha obligado a Gitee, el rival chino de GitHub, a censurar el código de fuente abierto, algo que los desarrolladores de 'software' temen que pueda obstruir la innovación

  3. El ocaso de Pegasus abre una nueva era para el 'software' espía

    Ante la posible caída de NSO Group, muchos rivales quieren ya ocupar su lugar. Los problemas de este sector, sin embargo, siguen presentes