Pango: el proyecto que advierte de las nuevas variantes de COVID-19

En marzo de este año, cuando los casos de la COVID-19 empezaron a crecer en la India, la estudiante de doctorado de tercer año del Instituto CSIR de Genómica y Biología Integrativa en Nueva Delhi (India) Bani Jolly buscó respuestas en el código genético del virus.

Los investigadores de Reino Unido acababan de sorprender el mundo científico con la noticia de que la variante de la COVID-19 B.1.1.7, que pronto se denominó alfa, era la culpable del aumento tan vertiginoso de los casos allí. Jolly esperaba descubrir que también provocaba las infecciones en su país.

Como su institución está al frente de la investigación de la COVID-19 en India, Jolly tuvo acceso a secuencias de miles de muestras del virus tomadas en todo el país. Comenzó a ejecutarlas a través de un software que las agrupaba según las ramas del árbol genealógico de la COVID-19.

En vez de las densas acumulaciones de casos de B.1.1.7, Jolly encontró un grupo de secuencias que no se parecía mucho a ninguna variante conocida, y algunas de ellas con dos mutaciones de la proteína espiga que ya se sospechaba que hacían que el virus fuera más peligroso.

Jolly habló con su mentor, que le sugirió que se pusiera en contacto con otros laboratorios de secuenciación de la India. Sus datos también mostraban indicios de que un brote local había dado lugar a una nueva familia del virus.

Poco tiempo después, los periodistas se enteraron del nuevo descubrimiento, y Jolly empezó a ver artículos sobre las "mutaciones dobles" y la "variante india". Sabía que los investigadores tendrían más éxito con una etiqueta útil que con un apodo "aterrador", así que acudió al lugar donde un pequeño grupo de científicos da nombres a las nuevas variantes: la página de GitHub gestionada por un puñado de voluntarios de todo el mundo y dirigida por una estudiante de doctorado en Escocia.

Esos voluntarios supervisan el sistema Pango, que se ha vuelto esencial para la investigación global de la COVID-19. Sus herramientas de software y su sistema de denominación han ayudado a los científicos de todo el mundo a comprender y clasificar casi 2,5 millones de muestras del virus.

En abril, Jolly publicó sus secuencias en la página de GitHub, junto con una explicación de por qué representaban un cambio significativo del virus. Ella fue la segunda usuaria en avisar sobre la nueva variante; la primera alerta había sido publicada unos días antes, por un investigador de Reino Unido. Al equipo de Pango rápidamente se le ocurrió un nuevo nombre, B.1.617. La familia incluye la variante infamemente transmisible conocida como delta en los medios de comunicación.

"Pango hace que sea realmente fácil comprobar si otras personas ven lo que vemos nosotros", afirma Jolly. "Si no es así, resulta muy fácil informar sobre lo que se ve en la India, para que la gente pueda buscarlo en otras regiones".

Los investigadores, funcionarios de salud pública y periodistas de todo el mundo utilizan Pango para comprender la evolución del virus. Pero pocos se dan cuenta de que todo el esfuerzo, como la mayoría en el nuevo campo de la genómica de la COVID-19, está impulsado por un pequeño equipo de jóvenes investigadores que a menudo dejan su propio trabajo en espera para dedicarse a eso.

Demasiados datos

Durante mucho tiempo ha existido un proceso oficial y testado para nombrar las nuevas ramas del árbol genealógico de un virus a medida que evoluciona, infectando a una persona tras otra. Al fin y al cabo, los investigadores llevan dos décadas utilizando la secuenciación genómica para estudiar los virus.

Pero ese trabajo ha tenido que lidiar históricamente con datos de órdenes de magnitud menor, y pocos se compartían de forma colaborativa entre los científicos de diferentes continentes, como ha sido el caso de las secuencias de la COVID-19. Nunca había existido una necesidad apremiante de desarrollar nombres estandarizados.

En marzo de 2020, cuando la OMS declaró la pandemia, la base de datos pública de secuencias GISAID contenía 524 secuencias de la COVID-19. Durante el mes siguiente, los científicos subieron 6.000 más. A finales de mayo, el total superaba los 35.000. (En contraste, los científicos añadieron a GISAID 40.000 secuencias de gripe en todo 2019).

"Si no tenemos un nombre común, es imposible trabajar, no podemos entender lo que dicen otras personas", explica el postdoctorado en epidemiología genómica de la Escuela de Salud Pública de la Universidad de Yale (EE. UU.) Anderson Brito, quien contribuye al esfuerzo de Pango.

A medida que la cantidad de secuencias de la COVID-19 aumentaba en espiral, los investigadores que intentaban estudiarlas se vieron obligados a crear una infraestructura y estándares completamente nuevos y sobre la marcha. Un sistema universal de nombres ha sido uno de los elementos más importantes de este esfuerzo: sin él, los científicos tendrían dificultades para hablar entre ellos sobre cómo viajan y cambian los descendientes del virus, ya sea para realizar una pregunta o, lo que es aún más crítico, para hacer sonar la alarma.

De dónde vino Pango

En abril de 2020, un puñado de virólogos destacados en Reino Unido y Australia propuso un sistema de letras y números para nombrar los linajes, o las nuevas ramas, de la familia de la COVID-19. Tenía una lógica y una jerarquía, aunque los nombres que generaba, como B.1.1.7, eran un poco complicados.

Una de las autoras del artículo fue la candidata a doctorado de la Universidad de Edimburgo (Escocia) Áine O'Tool, que se convirtió pronto en la primera persona que realizaba esa clasificación y revisaba cientos de miles de secuencias. O'Tool afirma: "Al principio, solo se trataba de ver quién estaba disponible para organizar las secuencias. Ese terminó siendo mi trabajo. Supongo que nunca imaginé la escala a la que íbamos a llegar".

Rápidamente se dedicó a crear software para asignar los nuevos genomas a los linajes adecuados. No mucho después de eso, otra investigadora postdoctoral, Emily Scher, construyó un algoritmo de aprendizaje automático para acelerar aún más las cosas.

"Si no tenemos un nombre común, es imposible trabajar, no podemos entender lo que dicen otras personas", Anderson Brito, Escuela de Salud Pública de la Universidad de Yale
n

El software fue denominado Pangolin, una referencia irónica al debate sobre el origen animal de la COVID-19 (todo el sistema ahora se conoce simplemente como Pango). Junto con el software para implementarlo, se convirtió rápidamente en un elemento esencial a nivel mundial. Aunque la OMS ha empezado recientemente a usar letras griegas para las variantes que parecen especialmente preocupantes, como delta, esos apodos son para la sociedad y los medios de comunicación. Delta en realidad se refiere a una creciente familia de variantes, que los científicos llaman por sus nombres Pango más precisos: B.1.617.2, AY.1, AY.2 y AY.3.

"Cuando surgió la variante alfa en Reino Unido, Pango nos facilitó la búsqueda de esas mutaciones en nuestros genomas para ver si también teníamos ese linaje en nuestro país", recuerda Jolly. "Desde entonces, Pango se ha utilizado como referencia para notificar y vigilar las variantes en la India".

Debido a que Pango ofrece un enfoque racional y ordenado de lo que de otro modo sería un caos, podría cambiar para siempre la forma en la que los científicos nombran las cepas virales. Permitiría así que los expertos de todo el mundo trabajen juntos con un vocabulario compartido. Brito opina: "Lo más probable es que este sea el formato que usaremos para cualquier otro virus nuevo".

Muchas de las herramientas fundamentales para seguir los genomas de la COVID-19 han sido desarrolladas y mantenidas durante el último año y medio por los científicos en la primera etapa de su carrera, como O'Toole y Scher. Cuando surgió la necesidad de colaboración mundial sobre la COVID-19, los científicos rápidamente querían apoyarla con una infraestructura ad hoc como Pango. Gran parte de ese trabajo recayó en los jóvenes investigadores expertos en tecnología que tenían entre 20 y 30 años. Utilizaban las redes informales y herramientas que eran de código abierto, lo que significa que eran de uso gratuito y cualquiera podía ofrecerse como voluntario para añadir ajustes y mejoras.

"Las personas que están a la vanguardia de las nuevas tecnologías tienden a ser estudiantes de posgrado y postdoctorados", destaca la bioinformática de la UC Santa Cruz (EE. UU.) Angie Hinrichs, que se unió al proyecto a principios de este año. Por ejemplo, O'Toole y Scher trabajan en el laboratorio del epidemiólogo genómico Andrew Rambaut, que publicó las primeras secuencias públicas de la COVID-19 online después de recibirlas de los científicos chinos. "Simplemente estaban perfectamente ubicados para proporcionar estas herramientas que se volvieron absolutamente críticas", reconoce Hinrichs.

Construyendo rápido

No ha sido fácil. Durante casi todo 2020, O'Toole asumió por sí sola la mayor parte de la responsabilidad de identificar y nombrar los nuevos linajes. La universidad estaba cerrada, pero ella y otra de las estudiantes de doctorado de Rambaut, Verity Hill, obtuvieron permiso para entrar a la oficina. Su trayecto diario, 40 minutos de paseo desde el apartamento donde vivía sola hasta la escuela, le dio cierta sensación de normalidad.

Cada pocas semanas, O'Toole descargaba todo el repositorio de la COVID-19 de la base de datos GISAID, que crecía exponencialmente cada vez más. Luego, buscaba grupos de genomas con mutaciones que parecieran similares, o cosas que parecieran extrañas y que pudieran haber sido mal etiquetadas. Cuando estaba especialmente atascada, Hill, Rambaut y otros miembros del laboratorio la ayudaban para hablar de las designaciones. Pero el trabajo duro recaía sobre ella.

"Imagínese pasar por 20.000 secuencias de 100 lugares diferentes del mundo. Vi secuencias de sitios de los que nunca había oído hablar", Áine O'Toole, Universidad de Edimburgo
n

Decidir cuándo los descendientes del virus merecen un nuevo nombre puede ser tanto un arte como una ciencia. Fue un proceso minucioso examinar una cantidad inaudita de genomas y preguntar una y otra vez: ¿es esta una nueva variante de la COVID-19 o no?

"Fue bastante tedioso", admite. "Pero siempre fue una lección de humildad. Imagínese pasar por 20.000 secuencias de 100 lugares diferentes del mundo. Vi secuencias de sitios de los que nunca había oído hablar".

A medida que pasaba el tiempo, O'Toole luchó por mantenerse al día con el volumen de nuevos genomas para clasificar y nombrar. En junio de 2020, había más de 57.000 secuencias almacenadas en la base de datos de GISAID, y las había clasificado en 39 variantes. En noviembre de 2020, un mes después de que supuestamente debiera haber entregado su tesis, O'Toole realizó su última prueba en solitario de los datos. Tardó 10 días en repasar todas las secuencias, que para aquel entonces sumaban 200.000. Y, aunque la COVID-19 ha eclipsado su investigación sobre otros virus, O'Toole ha creado un capítulo sobre Pango en su tesis).

Afortunadamente, el software Pango está diseñado para ser colaborativo, y otros investigadores también han avanzado. La comunidad online —a la que recurrió Jolly cuando notó la variante que se extendía por toda la India— brotó y creció. Este año, el trabajo de O'Toole ha sido mucho más sencillo. Los nuevos linajes ahora se designan principalmente cuando los epidemiólogos de todo el mundo se ponen en contacto con O'Toole y el resto del equipo a través de Twitter, correo electrónico o GitHub, su método preferido. "Ahora es más reaccionario", explica O'Toole. "Si un grupo de investigadores en algún lugar del mundo está trabajando en algunos datos y creen que han identificado un nuevo linaje, pueden presentar una solicitud".

El diluvio de datos ha continuado. La primavera pasada, el equipo celebró un pangothon, una especie de hackatón en el que clasificaron 800.000 secuencias en alrededor de 1.200 linajes. O'Tool recuerda: "Nos dimos tres días completos. Tardamos dos semanas".

Desde entonces, el equipo de Pango ha reclutado a algunos voluntarios más, como al investigador Hindriks de la UCSC y el investigador de Yale Brito, que se involucraron inicialmente aportando su granito de arena en Twitter y en la página de GitHub. Un postdoctorado en la Universidad de Cambridge (Reino Unido), Chris Ruis, ha centrado su atención en ayudar a O'Toole a resolver la acumulación de solicitudes de GitHub.

O'Toole les pidió recientemente que se unieran formalmente a la organización como parte del recién creado Comité de Designación de Linaje de la Red Pango, que analiza y toma decisiones sobre los nombres de las variantes. Otro comité, que incluye al líder del laboratorio, Andrew Rambaut, toma decisiones de alto nivel.

O'Toole aclara: "Tenemos un sitio web y un correo electrónico que no es solo mi correo electrónico". "Se ha vuelto mucho más formal y creo que eso realmente ayudará a escalar".

El futuro

Algunas grietas alrededor de los bordes han comenzado a aparecer a medida que aumentan los datos. En la actualidad, hay casi 2,5 millones de secuencias de la COVID-19 en GISAID, que el equipo de Pango ha dividido en 1300 ramas. Cada rama corresponde a una variante, de las cuales ocho son las que hay que vigilar, según la OMS.

Con tantos datos que procesar, el software empieza a fallar. Algunas cosas están mal etiquetadas. Muchas cepas parecen similares, porque el virus desarrolla las mutaciones más ventajosas una y otra vez. Como medida provisional, el equipo ha creado un nuevo software que utiliza un diferente método de clasificación y es capaz de detectar algo que a Pango le puede pasar por alto.

Sin embargo, es importante recordar que ningún sistema se ha enfrentado jamás a semejante avalancha de datos sobre cómo se transforman los virus. La COVID-19 se ha convertido en el virus más analizado de todos los tiempos. También es la primera vez que los científicos han podido ver exactamente cómo cambia el virus a medida que se mueve entre distintos países. "Todo esto fue posible porque la gente compartía sus datos y sus herramientas", resalta Jolly.

A medida que los científicos han encontrado formas de comunicarse entre sí, también han tenido que aprender sobre la comunicación pública. Ha sido "un poco surrealista", reconoce O'Toole, ver a los medios usar estos nombres altamente técnicos.

"Hemos estado usando esta nomenclatura durante todo el año y es realmente útil para la comunidad científica, pero un nombre como B.1.1.7 definitivamente no fue diseñado para aparecer en BBC News", confiesa. "Ha sido una gran experiencia de aprendizaje tener este nivel de escrutinio público".

Detrás de las escenas, el equipo de Pango sigue controlando la evolución de la COVID-19 con el fin de que los científicos de todo el mundo puedan trabajar juntos para frenar la pandemia.

Brito concluye: "Los medios de comunicación están hablando todo el tiempo sobre la variante delta, la variante alfa. CNN Brasil habla de la secuenciación de los genomas y destaca: 'Se asignará el linaje y obtendremos el informe en unos días'... Eso ha sido inimaginable hace dos años".

*Este reportaje forma parte del Proyecto de Tecnología Pandémica, elaborado con el apoyo de la Fundación Rockefeller.

Demasiados datos

De dónde vino Pango

"Si no tenemos un nombre común, es imposible trabajar, no podemos entender lo que dicen otras personas", Anderson Brito, Escuela de Salud Pública de la Universidad de Yale
n

Construyendo rápido

"Imagínese pasar por 20.000 secuencias de 100 lugares diferentes del mundo. Vi secuencias de sitios de los que nunca había oído hablar", Áine O'Toole, Universidad de Edimburgo
n

O'Toole aclara: "Tenemos un sitio web y un correo electrónico que no es solo mi correo electrónico". "Se ha vuelto mucho más formal y creo que eso realmente ayudará a escalar".

El futuro

Detrás de las escenas, el equipo de Pango sigue controlando la evolución de la COVID-19 con el fin de que los científicos de todo el mundo puedan trabajar juntos para frenar la pandemia.

Buscar en MIT Technology Review

Explorar Temas

Secciones

Pango: el proyecto que advierte de las nuevas variantes de COVID-19

Demasiados datos

De dónde vino Pango

Construyendo rápido

El futuro

*Este reportaje forma parte del Proyecto de Tecnología Pandémica, elaborado con el apoyo de la Fundación Rockefeller.

Demasiados datos

De dónde vino Pango

Construyendo rápido

El futuro

*Este reportaje forma parte del Proyecto de Tecnología Pandémica, elaborado con el apoyo de la Fundación Rockefeller.