¿Cuánto cuesta y cómo se secuencia un genoma?

Seguro que has oído hablar de la secuenciación genómica pero ¿sabes qué tecnología lo hace posible? ¿Sabes cuánto cuesta secuenciar un genoma? En este artículo te damos las respuestas a éstas y otras preguntas y analizamos los últimos datos sobre esta tecnología.

gout-2870583_640.jpg

El principio de todo: el código genético del ADN

Nuestro código genético y el de todos los organismos vivos, desde el más pequeño de los virus hasta el más grande de los dinosaurios que hayan existido, se basa en un alfabeto de tan sólo cuatro letras: A, C, G y T (una para cada nucleótido o base del ADN: adenina, guanina, citosina y timina, respectivamente).

Con este lenguaje cuaternario se escriben las cadenas de ADN. El conjunto de todas las cadenas de ADN de un ser vivo es su genoma. El genoma humano está formado por 46 cadenas de ADN (46 cromosomas) que en total suman más de 3 mil millones de letras. Cada una de nuestras células, en su núcleo, contiene una copia de nuestro genoma. La misma copia en cada célula. Este genoma se procesará de manera diferente en cada tipo celular tal y como hemos explicado en nuestro reciente artículo:

«Qué es la herencia genética explicado con las notas de un piano»

Las secuencias genómicas se pueden consultar en bases de datos públicas

El orden en el que las cuatro letras A, C, G y T están escritas en un genoma es lo que se conoce como su secuencia. Actualmente se conoce la secuencia de miles de genomas; y esas secuencias se almacenan en enormes bases de datos, muchas de ellas públicas y que se pueden consultar gratuitamente. Las bases de datos genómicas públicas más importantes son NCBI (National Center for Biotechnology Information, EEUU), ENA (European Nucleotide Archive, Reino Unido) y DDBJ (DNA Database of Japan, Japón).

Todos los proyectos de secuenciación financiados con fondos públicos tienen la obligación de ceder gratuitamente las secuencias que obtengan es sus investigaciones a alguna de estas bases de datos para que puedan ser consultadas o utilizadas libremente.

El genoma humano se secuenció completamente en el año 2001. Y este hito para la biología molecular fue publicado simultáneamente por las revistas científicas Nature y Science.

Las tecnologías que hacen posible la secuenciación genómica

Pero, ¿cómo se leen las cadenas de ADN? El primer paso en cualquier proyecto de secuenciación es siempre fragmentar las cadenas de ADN de un genoma en trozos más pequeños, lo que facilitará su lectura por los equipos de secuenciación. Una vez fragmentado el genoma, se colocarán etiquetas diferentes para cada base del ADN, que hará que los equipos de secuenciación las reconozcan, las traduzcan como A, C, G o T y envíen esta traducción a un software que nos devolverá una imagen similar a ésta:

genoma-1.png

Estas salidas de software se denominan cromatogramas, en los que se representa cada base del ADN con un color diferente (verde para A, azul para C, negro para G y rojo para T). También nos indica la calidad de cada lectura de base individual, representado por una barra vertical de color verde. El índice de calidad de una secuencia de ADN se calcula sumando la calidad individual de cada base y sirve para discriminar entre secuencias de baja, media y buena calidad. Dependiendo de las aplicaciones posteriores de la secuencia de ADN se pueden usar todas las calidades o solamente las de mejor calidad.

Las lecturas de secuenciación son enviadas a una base de datos que, una vez analizada su calidad y otras informaciones relativas al proyecto de secuenciación, les asigna un código de identificación, (único para cada secuencia de ADN de la base de datos), y las almacena. Como usuarios de esa base de datos, al descargar una secuencia se nos devolverá un archivo en formato texto similar a éste:

genoma-2.png

Las dos primeras líneas del archivo, delimitadas por un signo >, contienen la información única de esa secuencia de ADN: su código numérico (en este caso 568815593), su nombre (en este caso NC_000005.10, correspondiente al cromosoma número 5 humano) seguido de su localización exacta dentro de ese cromosoma (:c151690947-151657201, la secuencia se encuentra entre esas posiciones de inicio y final). Nota: la letra c indica que la secuencia se ha leído en la hebra complementaria del ADN, de ahí que su posición inicio de lectura sea un número mayor que su posición final de lectura.

2v116n17-13013757tab01.jpg
Fuente: https://www.genome.gov/27562862/breve-historia-del-proyecto-del-genoma-humano/

Existen diferentes tecnologías de secuenciación

No es el objetivo de este artículo hacer un análisis pormenorizado de cada tecnología de secuenciación desarrollada hasta la fecha sino presentar una visión global que nos ayude a entender el porqué de la evolución a la baja de su coste y por tanto la democratización de su aplicación. Para una revisión de las distintas tecnologías, ésta es una buena guía en español.

En las décadas 70-80 del siglo pasado se normalizó la secuenciación de ADN en todos los laboratorios de biología molecular; se trataba de una secuenciación manual basada en un etiquetado radiactivo de las bases del ADN. Se conseguían lecturas de entre 150-300 bases por cada reacción de secuenciación y en cada ronda se podían incorporar hasta 10 reacciones independientes. Se llamaba manual porque la lectura la realizaba el usuario, base a base.

A mediados de los 90 empezaron a comercializarse los primeros equipos de secuenciación automática, llamados así porque ya incorporaban un software que “leía” la secuencia; además, fue la época en que se abandonó el marcaje radiactivo (con la consiguiente disminución de los riesgos laborales) por marcajes basados en emisiones de fluorescencia que aún hoy continúan siendo la base de algunos métodos actuales de secuenciación masiva.

genoma-4.jpg

La verdadera revolución de las tecnologías de secuenciación empieza con el desarrollo de la miniaturización de los dispositivos de carga de las muestras de ADN: primero surgieron las placas de 96 pocillos (se colocaba 1 muestra de ADN en cada pocillo), luego se cuadriplicó su capacidad hasta 384 pocillos por placa y finalmente hasta hoy en día en que se usan placas donde se colocan decenas de miles de muestras de ADN simultáneamente.

Si a lo ya comentado le añadimos las mejoras efectuadas en la arquitectura de los equipos, en la detección de las etiquetas de marcaje de las bases del ADN y en los algoritmos de secuenciación utilizados, todo ello ha significado una paulatina reducción de los costes de secuenciación.

Pero ¿cuánto cuesta secuenciar un genoma?

Hemos elaborado un gráfico de la evolución del coste de secuenciación de un genoma desde el año 2001 hasta 2017, usado datos públicos del NHGRI (National Human Genome Research Institute) de los Estados Unidos, uno de los pioneros en la secuenciación del genoma humano y actualmente uno de los principales repositorios de proyectos de secuenciación públicos a nivel mundial. Los datos crudos y los métodos empleados para su cálculo se pueden consultar aquí.

genoma-3.png

En el gráfico anterior se representa el coste por genoma (en miles de dólares USA) frente al tiempo transcurrido (desde 2001 a 2017). Para observar mejor las enormes diferencias encontradas, se representa el coste por genoma en una escala logarítmica. En el año 2001 secuenciar un genoma costaba unos 100 millones de dólares USA mientras que hoy en día hacer lo mismo cuesta tan sólo 1000 dólares USA. A lo largo de estos 17 años se observan diferentes fases en esta reducción: hasta 2007 se observa una reducción de un 10% pero a partir de 2007 los costes de secuenciación se reducen a un ritmo muy acelerado; esto fue debido a la introducción de las mejoras comentadas anteriormente por las diferentes tecnologías de secuenciación masiva y por la competencia feroz que existió y existe entre las compañías tecnológicas que las desarrollaron.

La importancia de estos desarrollos de bajo coste ya se ha traducido en numerosas áreas de aplicación entre las que destaca la denominada medicina personalizada. Su objetivo es optimizar los tratamientos médicos así como las recomendaciones de salud basándose en las características genómicas individuales de cada paciente.

No dentro de mucho tiempo nuestra secuencia genómica se incorporará a nuestra historia clínica y a esto se unirán los datos de monitorización en tiempo real que obtenemos mediante nuestras aplicaciones móviles. Son las tres patas de lo que se ha denominado el Big Data en Salud.

Cualquier cambio tecnológico siempre ha supuesto a lo largo de la historia un cierto temor por parte de las sociedades que los vieron nacer, pero también se ha demostrado que el correcto uso de las tecnologías basado en una regulación adecuada y actualizada ha permitido importantes avances a la humanidad. Una correcta regulación en el uso de nuestros datos genómicos propiciará el desarrollo de aplicaciones que mejorarán sin duda nuestra calidad de vida.

Referencias bibliográficas usadas en la elaboración de este artículo:

Mardis E. A decade’s perspective on DNA sequencing technology. Nature, 470: 198-203. 2011.

Metzker M. Sequencing technologies – the next generation. Nature Genetics, 11: 31-46. 2010.

Human genome at ten: the sequence explosion. Nature, 464: 670-671. 2010.

Wetterstrand KA. DNA Sequencing Costs: Data from the NHGRI Genome Sequencing Program (GSP) Available at: www.genome.gov/sequencingcostsdata. Accessed [02-09-2018].

begoña Begoña Redruello

articulo_oficial

5 comentarios en “¿Cuánto cuesta y cómo se secuencia un genoma?

  1. Muy interesante. Aunque admito que la última parte me da un poco de miedo: que la información de mi ADN esté en alguna base de datos… HACKEABLE es un problema. Mafias, tráfico de órganos… En fin, desde luego que es un avance espectacular siempre que se haga un buen uso de él (como de todo, claro).

    Un saludo

  2. Totalmente de acuerdo Javier , la ciberseguridad de las bases de datos es y será fundamental para garantizar que nuestros datos estén almacenados con confidencialidad. Un saludo y gracias por comentar!

  3. La secuenciación del genoma de un humano en efecto son 46 cadenas de adn pero eso son 6000 Mps y no 3000 Mbps como se dice en el artículo. Por otra parte, sí es cierto que el genoma humano como tal es la mitad y se habla de entre 3000 y 3200 Mps. SOlo disponer de dos cromosomas XX o XY ya varía mucho la longitu en unos 100Mbp ya que en números redondos el X son 150 Mpbs i el Y son 50 Mbp.

Deja un comentario