La secuenciación de ADN es para determinar el orden de secuencia de nucleótidos a un fragmento de ADN dado.
La secuencia de ADN contiene la información que los seres vivos necesitan para sobrevivir y reproducirse. La determinación de esta secuencia es, por tanto, útil tanto para investigaciones destinadas a conocer cómo viven los organismos como para sujetos aplicados. En medicina , se puede utilizar para identificar, diagnosticar y potencialmente encontrar tratamientos para enfermedades genéticas y virología . En biología , el estudio de las secuencias de ADN se ha convertido en una herramienta importante para la clasificación de especies .
La secuenciación del ADN se inventó en la segunda mitad de la década de 1970. Dos métodos fueron desarrollados de forma independiente, uno por el equipo de Walter Gilbert en los Estados Unidos y el otro por el de Frederick Sanger (en 1977), en el Reino Unido . Estos dos métodos se basan en principios diametralmente opuestos: el método de Sanger es un método de síntesis enzimática selectiva, mientras que el de Maxam y Gilbert es un método de degradación química selectiva. Por este descubrimiento, Gilbert y Sanger recibieron el Premio Nobel de Química en 1980.
Inicialmente, el método de Sanger requería la disponibilidad de ADN monocatenario que sirviera como molde para la síntesis enzimática de la cadena complementaria. Por este motivo, el primer organismo biológico cuyo genoma se secuenció en 1977 es el virus del bacteriófago φX174 . Este virus tiene la propiedad de tener un genoma formado por ADN monocatenario que está encapsulado en la partícula viral.
Durante los últimos 25 años, el método Sanger se ha desarrollado ampliamente gracias a varios avances tecnológicos importantes:
El método de Maxam y Gilbert requiere reactivos químicos tóxicos y sigue siendo limitado en términos del tamaño de los fragmentos de ADN que puede analizar (<250 nucleótidos). Menos fácil de robotizar, su uso ahora se ha vuelto confidencial.
Este método se usa convencionalmente para realizar una secuenciación de puntos pequeños. Para secuenciar un genoma completo, se usa en su lugar la secuenciación de próxima generación. El principio de este método consiste en iniciar la polimerización del ADN utilizando un pequeño oligonucleótido (cebador) complementario a parte del fragmento de ADN a secuenciar. La extensión del cebador se realiza mediante el fragmento de Klenow (una ADN polimerasa I desprovista de actividad exonucleasa 5 '→ 3') y se mantiene mediante ADN polimerasas termoestables , las que se utilizan para PCR . Se añaden los cuatro desoxirribonucleótidos (dATP, dCTP, dGTP, dTTP), así como una baja concentración de uno de los cuatro didesoxirribonucleótidos (ddATP, ddCTP, ddGTP o ddTTP).
Estos didesoxirribonucleótidos actúan como "venenos" terminadores de cadena: una vez incorporados en la nueva hebra sintetizada, evitan una mayor elongación porque no tienen un extremo 3'-OH (solo un hidrógeno en lugar del hidroxilo). Esta terminación tiene lugar específicamente a nivel de los nucleótidos correspondientes al didesoxirribonucleótido incorporado en la reacción. Para la secuenciación completa del mismo fragmento de ADN, esta reacción se repite cuatro veces en paralelo, con los cuatro didesoxirribonucleótidos diferentes.
Por ejemplo, en la reacción en la que se ha añadido ddGTP, la síntesis se detiene al nivel de G. La mezcla de reacción que contiene tanto dGTP como un poco de ddGTP, la terminación se produce estadísticamente dependiendo de si la ADN polimerasa utiliza alguno de estos nucleótidos. Esto da como resultado una mezcla de fragmentos de ADN de tamaños crecientes, todos los cuales terminan en una de las G de la secuencia. A continuación, estos fragmentos se separan mediante electroforesis en gel de poliacrilamida , lo que permite identificar la posición de las G en la secuencia.
Los fragmentos así sintetizados se detectan incorporando un trazador en el ADN sintetizado. Inicialmente, este marcador era radiactivo; hoy en día, se utilizan trazadores fluorescentes, unidos al oligonucleótido o al didesoxirribonucleótido.
Este método se basa en una degradación química del ADN y utiliza las diferentes reactividades de las cuatro bases A, T, G y C, para lograr escisiones selectivas. Al reconstruir el orden de los cortes, podemos volver a la secuencia de nucleótidos del ADN correspondiente. Esta secuenciación química se puede dividir en seis pasos sucesivos:
El conocimiento de la estructura de un genoma en su totalidad puede pasar por su secuenciación. Sin embargo, dado que el tamaño de los genomas es de varios millones de bases (o megabases), es necesario acoplar los enfoques de la biología molecular con los de la informática para poder procesar una cantidad tan grande de datos.
Se utilizan dos principios fundamentales de la secuenciación del genoma completo. En ambos casos, el ADN genómico se fragmenta primero mediante métodos enzimáticos ( enzimas de restricción ) o físicos ( ultrasonido ):
La principal diferencia entre estos dos principios es que la secuenciación jerárquica intenta alinear un conjunto de clones grandes (~ 100 kb) mientras que en el método general el genoma completo se reduce en pequeños fragmentos que se secuencian y luego se alinean.
Después de la extracción, el ADN genómico se corta mediante sonicación en fragmentos de 50 a 200 kb y luego se clona en un vector adecuado, como cromosomas artificiales bacterianos o BAC. El número de clones debería permitir una cobertura de 5 a 10 veces la longitud total del genoma estudiado. El solapamiento y el ordenamiento de los clones se lleva a cabo por hibridación de sondas específicas, o por análisis de los perfiles de restricción , o más frecuentemente por un ordenamiento después de la secuenciación e hibridación de los extremos de los BAC. Después de ordenar los clones, se fragmentan y secuencian individualmente, luego se ensamblan por alineación bioinformática.
Las ventajas de este método son una mayor facilidad de ensamblaje de los fragmentos gracias a la superposición de los BAC, la posibilidad de comparar los fragmentos con las bases de datos disponibles, y la posibilidad de compartir el trabajo de secuenciación entre varios laboratorios, cada uno teniendo a su cargo un región cromosómica.
El mayor inconveniente es la dificultad de clonar fragmentos que contienen secuencias repetidas muy frecuentes en determinados genomas, como los de los mamíferos, lo que dificulta el análisis bioinformático final.
Es un método de secuenciación de ADN genómico inicialmente ideado en el laboratorio de Frederick Sanger en Cambridge a fines de la década de 1970 para secuenciar los primeros genomas de virus.
Este método fue popularizado por Craig Venter para la secuenciación de genomas grandes, en particular dentro de la empresa Celera Genomics . La primera aplicación fue la secuenciación de genomas bacterianos, luego del genoma de Drosophila y finalmente del genoma humano y murino . Para realizar la secuenciación completa del genoma utilizando esta técnica, se elaboran de dos a tres bibliotecas compuestas por fragmentos aleatorios de ADN genómico . Entre las bibliotecas, los fragmentos divergen tanto en tamaño como en localización en el genoma . A partir de estas bibliotecas, se secuencian y luego se ensamblan muchos clones. La secuencia total se obtiene procesando todas las bibliotecas utilizando herramientas bioinformáticas, alineando los fragmentos utilizando las secuencias superpuestas.
Las ventajas sobre la secuenciación por secuenciación jerárquica son la velocidad de la técnica y el menor costo. La desventaja es que el procesamiento informático no permite alinear fragmentos que comprenden grandes secuencias repetidas que están frecuentemente presentes en los genomas de mamíferos.
Este método se conoce comúnmente como escopeta (escopeta recortada) o escopeta de genoma completo (WGS). Esta metáfora ilustra la naturaleza aleatoria de la fragmentación inicial del ADN genómico: se rocía todo el genoma, un poco como se dispersan los perdigones de este tipo de arma de fuego.
La secuenciación por hibridación se basa en el uso de chips de ADN que contienen desde varios cientos (para los chips de primera generación) hasta varios miles de oligonucleótidos. El ADN a analizar se corta en múltiples fragmentos que luego se incuban en el chip donde se hibridarán con los oligonucleótidos a los que son complementarios. La lectura del chip (detección de oligonucleótidos hibridados) permite obtener el espectro de la secuencia de ADN , es decir su composición en subsecuencias de n nucleótidos, donde n es el tamaño de las sondas del chip utilizado. El procesamiento informático del espectro permite entonces reconstituir la secuencia completa.
una adaptación de la técnica de Sanger que utiliza fluorescencia en lugar de radiactividad . Los didesoxinucleótidos incorporados se marcan específicamente con moléculas fluorescentes o fluoróforos " fluorocrómicos " (ddATP-JOE, ddCTP-5-FAM, ddGTP-TAMRA y ddTTP-ROX).
La secuencia de reacción se lleva a cabo mediante PCR . La polimerasa Taq realiza un alargamiento a la incorporación de un didesoxinucleótido marcado con fluorescencia. Los fragmentos sintetizados se separan luego mediante electroforesis .
Un dispositivo automático toma la secuencia de reacción y la inyecta en un capilar que contiene un polímero de poliacrilamida . Durante la migración, un sistema óptico láser detecta la fluorescencia que pasa frente a la ventana del láser y que es emitida por el ddNTP que termina el fragmento bajo excitación (luz verde para JOE “ddATP”, azul para 5-FAM “ddCTP”, amarillo para TAMRA "ddGTP" y rojo para ROX "ddTTP".
Separando estas moléculas por electroforesis según su tamaño, se pueden leer las letras sucesivas que aparecen en forma de curvas en un electroferograma (o fluorograma ) cuya fluorescencia corresponde a la base de este ddNTP terminador. El software de análisis permite hacer la correspondencia entre las curvas de fluorescencia y el nucleótido incorporado.
La información se registra electrónicamente y la secuencia interpretada se almacena en la base de datos de la computadora. Se dice que este tipo de secuenciación es de alto rendimiento porque se pueden llevar a cabo muchas secuencias al mismo tiempo. En efecto, según los modelos de secuenciador, 1, 6, 12 o incluso 36 capilares pueden operar en paralelo, sabiendo que el autómata puede inyectar sucesivamente 96 reacciones de secuencias, contenidas en una placa, en cada uno de los capilares. La duración de la reproducción es de aproximadamente 1 kb por secuencia. El tiempo de ejecución de una secuencia es de unos 10 minutos. En una noche, con 12 capilares, el secuenciador puede obtener automáticamente la lectura de 1 Mb.
Comparación de métodos de secuenciación de próxima generaciónMétodo | Longitud de lectura | precisión | Leyendo por experiencia | tiempo de experiencia | costo por 1 millón de bases (en dólares estadounidenses $) | Ventajas | Desventajas |
---|---|---|---|---|---|---|---|
Secuenciación de una sola molécula en tiempo real (Pacific Biosciences) | De 10.000 pb a 15.000 pb en promedio (14.000 pb N50); longitud máxima de lectura> 40.000 bases | 87% | 50.000 por celda o 500–1000 megabases | 30 minutos a 4 horas | $ 0.13– $ 0.60 | lecturas largas. Rápido. Detecta 4mC, 5mC, 6mA | flujo moderado, el equipo puede ser muy caro |
Semiconductor de iones ( secuenciación de torrente de iones ) | hasta 400 pb | 98% | hasta 80 millones | 2 horas | $ 1 | el equipo más barato y rápido | errores de homopolímero |
Pirosecuenciación ( 454 ) | 700 pb | 99,9% | 1,000,000 | 24 horas | $ 10 | lecturas largas y rápidas | el experimento es caro, errores de homopolímero |
Secuenciación por síntesis (Illumina) | 50 a 300 pb | 99,9% | hasta 6 mil millones | 1 a 11 días | $ 0.05 a $ 0.15 | Potencial de alto rendimiento de secuencia, según el modelo de secuenciador y la aplicación deseada | El equipo puede resultar muy caro. Requiere altas concentraciones de ADN. |
Secuenciación de ligadura (secuenciación SOLiD) | 50 + 35 o 50 + 50 pb | 99,9% | N / A | 20 minutos a 3 horas | $ 2400 | lecturas largas. Útil para muchas aplicaciones. | Más caro e inconveniente para grandes proyectos de secuenciación. Este método también requiere tiempo para la clonación del plásmido o la etapa de PCR. |
apellido | Número de máquinas (en todo el mundo) |
---|---|
Illumina HiSeq 2000 | 5490 |
Analizador de genoma Illumina 2x | 411 |
Roca 454 | 382 |
ABI SOLiD | 326 |
Ion Torrent | 301 |
Illumina MiSeq | 299 |
Protón de iones | 104 |
Biociencias del Pacífico | 50 |
Oxford Nanopore MinION | 14 |
Illumina NextSeq | 3 |
La secuenciación de nanoporos es un método en desarrollo desde 1995 para la secuenciación de ADN.
Un nanoporo es simplemente un pequeño orificio con un diámetro interno del orden de 1 nanómetro. Algunas proteínas celulares transmembrana porosas actúan como nanocables; también se han creado nanoporos grabando un orificio un poco más grande (varias decenas de nanómetros) en una pieza de silicio.
La teoría detrás de la secuenciación de nanoporos es la siguiente: cuando un nanoporo se sumerge en un fluido conductor y se aplica un potencial (voltaje) a través de él, se puede observar una corriente eléctrica debido a la conducción de iones a través del nanoporo. La cantidad de corriente es muy sensible al tamaño y la forma del nanoporo. Si un solo nucleótido (bases), hebras de ADN u otras moléculas pasan a través o cerca del nanoporo, esto puede crear un cambio característico en la magnitud de la corriente a través del nanoporo.
Al principio de la segunda mitad del XX ° siglo, la relación entre la medicina humana se sigue dominado por la voluntad de entender y tratar la enfermedad y las diversas amenazas a la organización. Sin embargo, la comprensión de cómo funciona se ha profundizado mucho en las últimas décadas, en particular gracias a la mejora y la aparición de diferentes técnicas. El concepto mismo de salud, que significa entonces más bien una ausencia de patología, se redefinió naturalmente para que en adelante signifique más bien una sensación de bienestar general de un individuo, tanto físico como moral. Así, se han democratizado nuevas estrategias comerciales para ofrecer a cada individuo la posibilidad de cuidar su propia integridad física. (medicamentos sin prescripción médica, alimentación sana, etc.).
La secuenciación del ADN es una técnica en el corazón de esta redefinición de la concepción de la salud y de la relación con los “seres vivos” en general, ya que sugiere un tratamiento óptimo y personalizado para cada persona. El mercado de datos genéticos se ha desarrollado muy rápidamente y muchas inversiones desde su creación han permitido que los precios caigan bruscamente.
La primera secuenciación completa de un genoma humano se completó en 2003 y tomó cerca de diez años de trabajo, con una inversión total de $ 2.7 mil millones. En ese momento, el método Sanger todavía se usaba mucho para descifrar los aproximadamente 3 mil millones de pares de nucleótidos que componen nuestro ADN. Entonces aparecieron muchos proyectos (en particular 1000 Génomes , ENCODE …) y se desarrollaron nuevas máquinas (mencionadas anteriormente) con el objetivo de generar la secuencia completa de un genoma humano por menos de 1000 dólares. Con la mejora de los métodos de secuenciación, el precio de la secuenciación parcial de un genoma humano en alta calidad se estimó en $ 14 millones en 2006, relativamente menos costoso en comparación con el proyecto completado en 2003. A fines de 2015, el precio para generar una racha única fue de alrededor de $ 1,500.
Con la aparición de estos nuevos métodos, mucho más eficientes, agrupados bajo el acrónimo de NGS , más rápidos y menos costosos, el mercado de secuenciación de ADN se ha disparado y en la actualidad se encuentran disponibles muchas aplicaciones en diversos campos. Algunas empresas como Illumina ofrecen ahora un servicio de secuenciación de ADN, económicamente accesible para las personas.
La secuenciación de ADN se puede utilizar para determinar la secuencia de genes individuales, grandes regiones genéticas, cromosomas completos o genomas completos, de cualquier organismo. La secuenciación del ADN se ha convertido en una tecnología clave en muchos campos de la biología y otras ciencias como la medicina, la medicina forense o la antropología .
En biología molecular, la secuenciación del genoma permite el estudio de proteínas codificadas, los investigadores identifican cambios en los genes y los asocian con ciertas enfermedades para apuntar a fármacos potenciales.
La secuenciación ha permitido comprender el origen genético de ciertos cánceres que surgen por la acumulación de mutaciones en genes críticos que modifican los programas normales de proliferación, diferenciación y muerte celular. La quinasa RAS-RAF-MEK-ERK-MAP implica respuestas celulares a señales de crecimiento y en aproximadamente el 15% de los cánceres humanos, el gen RAS está mutado provocando una forma oncogénica.
Dado que el ADN es una macromolécula informativa en términos de transmisión de generación a generación, la secuenciación de ADN se utiliza en biología evolutiva para estudiar cómo se relacionan y evolucionaron diferentes organismos, basándose en estudios colaborativos entre paleogenéticos y antropólogos. El análisis del ADN de tejidos humanos, principalmente óseos y dentales, enterrados en necrópolis, permite definir haplogrupos y estimar su origen biogeográfico así como las rutas migratorias que podrían haber tomado hace cientos o miles de años, para comparar. sus características genéticas con las de las poblaciones actuales, o para establecer algunos de sus rasgos físicos. Debido a la caída en el precio de la secuenciación del genoma, las empresas ofrecen al público, como un servicio pago, rastrear los orígenes de una persona a partir de un simple kit para usar en casa.
Los genetistas médicos pueden secuenciar genes en pacientes para determinar si existe riesgo de enfermedades genéticas. Es un examen de las características genéticas de la persona. El diagnóstico suele ser pre o posnatal. Por ejemplo, el diagnóstico prenatal puede detectar una enfermedad hereditaria responsable de una discapacidad grave o trastornos psicológicos y del comportamiento y dar la opción a los padres cuyo hijo ha sido diagnosticado si continuar o no con el embarazo. La información sobre variaciones genéticas ( polimorfismos de un solo nucleótido ) también orienta el manejo terapéutico y permite el asesoramiento genético para los miembros de la familia.
Cada vez más, el examen de las características genéticas se realiza mediante secuenciación de ADN de alto rendimiento (NGS). En general, en la actualidad, más bien, solo se secuencian las partes codificantes de los genes, en las que se describen 2/3 de las mutaciones. Por lo tanto, la NGS permite secuenciar todas las partes codificantes de los genes de una persona a la vez, lo que se denomina exoma .
En el diagnóstico prenatal, la DPNI se está estableciendo como una técnica de detección temprana y segura para el síndrome de Down u otras anomalías cromosómicas, o incluso ciertas mutaciones puntuales. No es un diagnóstico, sino solo un cribado. Consiste en extraer sangre de la madre durante el embarazo. Esta sangre contiene naturalmente una pequeña cantidad de fragmentos de ADN del feto y los genetistas no pueden separarla de los fragmentos de ADN que pertenecen a la madre, que también se pueden encontrar en la sangre. Por lo tanto, DPNI es una secuenciación de alto rendimiento de todos los fragmentos de ADN que circulan en la sangre materna y luego un análisis informático de los resultados. DPNI son las siglas de Prenatal Screening by Non-Invasive Technique. Dependiendo de los resultados, está indicada la confirmación de la anomalía, que implica amniocentesis .
La medicina reproductiva es la rama de la medicina que estudia la fisiología de la reproducción así como su patología, la infertilidad. Este enfoque de la medicina tiene como objetivo mejorar la salud reproductiva.
La secuenciación del ADN, en particular de las células sexuales, ha permitido comprender las modificaciones genéticas que provocan un desequilibrio en la fertilidad. Se están considerando futuros tratamientos genéticos dirigidos a prevenir enfermedades hereditarias, por ejemplo la trisomía 21 se debe a la no expresión de un gen responsable de la inactivación del cromosoma X durante la fecundación. Sin embargo, surgen preguntas bioéticas sobre el procesamiento del ADN para la procreación.
La secuenciación de alto rendimiento también ha entrado en el campo de la microbiología médica. En bacteriología, por ejemplo, incluso si se puede encontrar la misma especie bacteriana (por ejemplo, Staphylococcus aureus ) en dos muestras de diferentes pacientes, esto no es necesariamente una transmisión directa de un paciente a otro. De hecho, bajo una misma especie bacteriana se agrupan muchas cepas muy diferentes y, por tanto, tienen genomas diferentes. La secuenciación del genoma completo permite, por ejemplo, determinar qué tan diferentes son estos genomas cuantificando el número de mutaciones ( SNP ) entre organismos. Durante la transmisión directa de una bacteria de un paciente a otro, el número de mutaciones de diferencia es, por tanto, muy bajo.
En general, la secuenciación de alto rendimiento de genomas bacterianos completos puede ser útil para:
El ADN de una persona puede transferirse por contacto con objetos o personas. Este ADN proviene de células de diferentes matrices, sangre, esperma, elementos capilares, células epiteliales. (La secuenciación de ADN se puede utilizar con métodos de elaboración de perfiles de ADN para la identificación forense y las pruebas de paternidad. Sin embargo, debe tenerse en cuenta que una prueba de paternidad no tiene valor legal en Francia. Solo si fue ordenada por un juez.