Descripción general y desafíos de la construcción de la biblioteca de secuenciación de próxima generación (1)
La secuenciación de alto rendimiento, también conocida como NGS, ha redefinido la investigación genómica. En los últimos años, la tecnología NGS se ha desarrollado de manera constante, acompañada de una caída de costos y aumentos exponenciales en las aplicaciones de secuenciación. En este artículo, examinamos los factores clave que influyen en la calidad de la biblioteca de secuenciación y los desafíos que existen durante la preparación de bibliotecas de fuentes de ADN y ARN. Estos factores incluyen las propiedades físicas y cuantitativas del material de ADN/ARN y las posibles aplicaciones (p. ej., secuenciación del genoma, secuenciación dirigida, RNA-seq, ChIP-seq, RIP-seq y metilación) al preparar bibliotecas de secuenciación de alta calidad. mencionarse en el contenido. Además, discutiremos métodos para preparar bibliotecas derivadas de células individuales.
En los últimos 5 años, la tecnología NGS ha sido ampliamente utilizada por investigadores en el campo de las ciencias de la vida. Al mismo tiempo, con el desarrollo y avance de la tecnología de secuenciación, se han derivado algunos métodos de extracción de ácidos nucleicos y preparación de bibliotecas. Por ejemplo, el ARN y el ADN de células individuales se han utilizado con éxito para la preparación de bibliotecas. La base de la preparación de bibliotecas NGS es transformar el ácido nucleico, ARN o ADN objetivo en una forma que pueda ser utilizada por el secuenciador (Fig. 1). Aquí, comparamos múltiples estrategias de preparación de bibliotecas y aplicaciones NGS, centrándonos en bibliotecas compatibles con la tecnología de secuenciación de Illumina. Sin embargo, es importante señalar que casi todos los principios analizados en este artículo se pueden aplicar con modificaciones menores a otras plataformas NGS, como Life Technologies, Roche y Pacific Biosciences.
En términos generales, los pasos centrales de la preparación de la biblioteca incluyen: 1) fragmentación y/o selección de fragmentos de una longitud específica, 2) convertirlos en una forma bicatenaria, 3) ligar los oligonucleótidos al extremo del fragmento y 4) cuantificación de la biblioteca; el tamaño del fragmento de ADN objetivo es un factor clave en la construcción de la biblioteca NGS. Los métodos para fragmentar ácidos nucleicos incluyen principalmente métodos físicos, de digestión enzimática y químicos. Los métodos físicos incluyen corte sónico (representante: Covaris) y ultrasonido (representante: BioRuptor), y los métodos de digestión enzimática incluyen endonucleasa no específica y fragmentación de transposasa en nuestro laboratorio, Covaris, Woburn, MA se utiliza principalmente para obtener 100 fragmentos de ADN; el rango de 5000 pb, mientras que los Covaris g-TUBE se utilizan principalmente para fragmentos de ADN en el rango de 6 a 20 kb necesarios para las bibliotecas de pares de parejas. Los métodos de digestión enzimática incluyen la digestión con DNasa I o fragmentasa, una mezcla de ambas enzimas (New England Biolabs, Ipswich MA). Ambos métodos funcionan bien. Sin embargo, las enzimas de fragmentación producen más indeles falsos que los métodos físicos. Otro método de digestión enzimática es Nextera de Illumina, que utiliza transposasa para realizar una fragmentación aleatoria e insertar la secuencia adaptadora en el ADN bicatenario. Este enfoque tiene varias ventajas, incluida la reducción del tiempo de preparación y manipulación de muestras.
El tamaño de la biblioteca está determinado por el tamaño de la inserción (refiriéndose a la parte de la biblioteca entre las secuencias del adaptador) porque la longitud de la secuencia del adaptador es constante. Por el contrario, la longitud óptima del inserto está determinada por el equipo NGS y la aplicación de secuenciación específica. Por ejemplo, en Illumina, el tamaño óptimo del fragmento se ve afectado por el proceso de generación de grupos, que incluye la preparación, dilución y distribución de la biblioteca en la superficie del chip para su amplificación. Aunque la amplificación de fragmentos cortos es más eficiente, las bibliotecas de fragmentos largos pueden generar grupos más grandes y más difusos. El tamaño máximo de la biblioteca que secuenciamos usando Illumina es 1500 pb.
El tamaño óptimo de la biblioteca también lo determina la aplicación de secuenciación. Para la secuenciación del exoma, más del 80% de los exones humanos tienen menos de 200 pb de longitud. Probamos PE100pb con un tamaño de biblioteca de exones de aproximadamente 250 pb, que coincide con el tamaño promedio de la mayoría de los exones sin pares de lectura superpuestos en los resultados. El tamaño de la biblioteca RNA-seq también lo determina la aplicación. Para el análisis de la expresión génica utilizamos la secuenciación SE100. Pero para la determinación de sitios alternativos de inicio y finalización de empalme o transcripción, elegimos la solución PE100. En la mayoría de las aplicaciones, el ARN se transcribe de forma inversa a ADNc antes de la fragmentación.
Normalmente, se utilizan iones metálicos divalentes (magnesio o zinc) para la digestión térmica controlada del ARN. El tamaño de los fragmentos de la biblioteca se puede controlar ajustando el tiempo de reacción de digestión y la reproducibilidad es muy buena.
En estudios recientes sobre siete métodos de preparación de bibliotecas RNA-seq, la mayoría de ellos primero fragmentaron el ARN y luego agregaron adaptadores. Hay dos métodos, sin utilizar cebadores aleatorios, o en el kit SMARTer Ultra Low RNA, para sintetizar secuencias de ADNc de longitud completa con secuencias fijas 3', 5'. Las bibliotecas de ADNc de longitud completa (promedio de 2 kb) se pueden amplificar mediante PCR de larga distancia (LD-PCR). Este ADNc bicatenario amplificado luego se corta a la longitud adecuada mediante sonicación y se utiliza en el proceso de preparación de la biblioteca estándar de Illumina (que incluye reparación y llenado de extremos, adición de A y ligadura de adaptador, y luego amplificación mediante PCR).
Otro paso posterior a la construcción de la biblioteca para la manipulación del tamaño de la biblioteca es la selección del chip y la eliminación de dímeros adaptadores u otros subproductos de la preparación de la biblioteca. Los dímeros del enlazador son el resultado de la autoligación del enlazador. Estos dímeros se agrupan de manera muy eficiente y consumen un valioso espacio en el chip sin producir ningún dato útil. Por lo tanto, solemos utilizar perlas magnéticas o corte de gel para recuperarnos. El método de las perlas magnéticas es adecuado para situaciones en las que los materiales de partida son suficientes. Si la entrada de muestra es limitada, se generarán más dímeros adaptadores. Nuestra experiencia es que los métodos basados en perlas magnéticas no son adecuados en este caso y se requiere un método que combine perlas magnéticas y recuperación en gel.
En el proceso de preparación de la biblioteca de microARN/ARN pequeño, el producto objetivo suele ser sólo 20-30 pb más largo que el dímero adaptador de 120 pb. Por lo tanto, se deben utilizar métodos de corte y recuperación de gel para obtener la mayor cantidad posible de secuencia objetivo. Esta precisión de separación no es aplicable a perlas magnéticas. Además, a menudo necesitamos crear bibliotecas de inserciones grandes (1 kb), combinadas con PE300 de lectura más larga y sin pasos de PCR, para el ensamblaje de novo de genomas bacterianos. Para obtener la mayor cantidad de datos posible para el ensamblaje, es necesario cortar y recuperar cuidadosamente las inserciones para obtener inserciones de tamaños consistentes.
Hay varias consideraciones en la construcción de bibliotecas utilizando muestras de ADN, incluida la cantidad de material de partida y si la biblioteca se utilizará para la resecuenciación (con secuencias de referencia disponibles para alineamiento) o la secuenciación de novo (que requiere Usar esto sin conexión). datos para ensamblar una nueva secuencia de referencia). La preparación de la biblioteca es propensa a sesgos, lo que se debe a la presencia de regiones de GC altas o bajas en el genoma. Se han desarrollado métodos para resolver estos problemas, incluida una selección cuidadosa de polimerasas, números de ciclos, condiciones y tampones utilizados para la amplificación.
La preparación de bibliotecas de muestras de ADN, ya sea que se utilicen para amplicones WGS, WES, ChIP-seq o PCR, generalmente sigue el mismo proceso. En general, para cualquier aplicación, el objetivo es hacer que la biblioteca sea lo más compleja posible.
Actualmente existen múltiples marcas de kits de construcción de bibliotecas de ADN. La competencia también hace que los precios bajen rápidamente y la calidad aumente. Estos kits pueden manejar cantidades de entrada de ADN que van desde ug hasta pg. Sin embargo, debemos tener en cuenta que grandes cantidades iniciales pueden reducir la cantidad de ciclos de amplificación y, por lo tanto, generar una mayor complejidad de la biblioteca. A excepción de Nextera, los pasos de preparación de la biblioteca generalmente incluyen: 1) fragmentación, 2) reparación de extremos, 3) fosforilación de 5 extremos, 4) adición de A a 3 extremos, 5) ligadura de adaptador, 6) varios ciclos de PCR para enriquecer y agregar El producto de la articulación. La principal diferencia en el flujo de trabajo de Ion Torrent es la ligadura de extremos romos de diferentes secuencias de adaptadores.
Una vez fragmentado el ADN inicial, se utiliza una mezcla de 3 enzimas (polinucleótido quinasa T4, ADN polimerasa T4 y fragmento grande de Klenow) para realizar el llenado de los extremos y la fosforilación de los 5 extremos. Agregue una cola A al extremo 3 usando la polimerasa Taq o el fragmento Klenow (exo-). Taq es más eficiente para agregar colas A, pero Klenow se puede usar cuando no se pueden usar métodos de calentamiento, como bibliotecas de pares de parejas. Durante la ligadura del adaptador, la relación óptima entre adaptador y fragmento es de aproximadamente 10:1 en moles. Demasiados adaptadores pueden formar dímeros que son difíciles de separar y pueden dominar la amplificación posterior. Después de la reparación final y la reacción de adición A, tanto los métodos de recuperación de perlas magnéticas como de gel son adecuados, pero después de la reacción de ligación, descubrimos que el método de perlas magnéticas puede eliminar de manera más efectiva el dímero enlazador.
Para facilitar la mezcla de múltiples muestras, se pueden utilizar conectores con diferentes códigos de barras para diferentes muestras. Además, también se puede agregar código de barras a través de cebadores con diferentes códigos de barras durante el proceso de amplificación por PCR. Varios proveedores ofrecen adaptadores de códigos de barras y cebadores de PCR de alta calidad. Actualmente, todos los componentes de la construcción de una biblioteca de ADN, desde los adaptadores hasta las enzimas, tienen instrucciones escritas detalladas y pueden ensamblarse en kits de preparación de bibliotecas caseros.
Otro método es el método Nextera, que utiliza la transposasa para interrumpir aleatoriamente el ADN y añadirle etiquetas (también llamadas tagmentación) en un solo tubo. La enzima diseñada tiene dos funciones: fragmentar el ADN y agregar conectores específicos a ambos extremos del ADN fragmentado. Estas secuencias adaptadoras se utilizan en el proceso de PCR posterior para amplificar el inserto. Se agregará un código de barras a la reacción de PCR. La ventaja de este proceso de preparación sobre los métodos tradicionales es que la fragmentación, la reparación terminal y la ligadura del adaptador se combinan en un solo paso. Este método es más sensible a la cantidad inicial de ADN que la fragmentación mecánica. Para lograr la fragmentación a la distancia adecuada, la proporción entre transposasa y muestra es fundamental. Debido a que el tamaño de los fragmentos depende de la eficiencia de la reacción, todos los parámetros de la reacción, como la temperatura y el tiempo de reacción, son críticos y deben controlarse estrictamente.
Algunos grupos de investigación han publicado resultados de secuenciación de genomas unicelulares. Las estrategias actuales emplean desplazamiento de múltiples hebras (MDA) para amplificar todo el genoma. MDA utiliza principalmente cebadores aleatorios y phi29, una polimerasa de desplazamiento de cadena altamente procesiva. Aunque esta tecnología puede producir cantidades suficientes para la construcción de bibliotecas de secuenciación, un problema es la gran cantidad de sesgo causado por la amplificación no lineal. Estudios recientes han sugerido que el sesgo se puede reducir agregando un paso de preamplificación semilineal. Fluidgm se basa en la separación de células individuales y la tecnología de microfluidos para la preparación de bibliotecas de células individuales y puede obtener hasta 96 células individuales por ejecución.
Para las bibliotecas de ARN, necesitamos examinar los planes de construcción de la biblioteca en función de los fines de secuenciación. Si el objetivo es descubrir eventos transcripcionales complejos y completos, la biblioteca debe cubrir todo el transcriptoma, incluidos los ARN codificantes, no codificantes, antisentido e intergénicos, y debe ser lo más completa posible. Sin embargo, en muchos casos, el propósito es únicamente estudiar transcripciones que codifican ARNm que pueden traducirse en proteínas. La otra situación afecta sólo a los ARN pequeños, principalmente miARN, pero también snoARN, piARN, snARN y tARN. Aunque nos gustaría profundizar en los principios de las bibliotecas de secuenciación de ARN, no podemos enumerarlos todos. Los lectores interesados pueden hacer su propia investigación.
Uno de los primeros ejemplos exitosos de aplicación de NGS a RNA-seq es el miRNA. Preparar una biblioteca de secuenciación de miARN es muy sencillo y suele ser una reacción de un solo paso. De hecho, los miARN tienen modificaciones de fosfato naturales en el extremo 5, lo que permite que las ligasas se dirijan selectivamente a los miARN.
En el primer paso del paso Illumina, el adaptador de ADN adenilado de 5 extremos bloqueado y 3 extremos se liga a la muestra de ARN mediante la ARN ligasa 2 de T4 truncada. Esta enzima ha sido modificada para adenilar sustratos enlazadores de 3 terminales. Como resultado, otros fragmentos de ARN no se unirán en esta reacción. Sólo los oligonucleótidos adenilados pueden ligarse al extremo 3' del ARN libre. Dado que el tercer extremo del conector está bloqueado, no se puede realizar la autoconexión. A continuación, se añade un adaptador de ARN de 5 terminales bajo la acción de ATP y ARN ligasa 1. Sólo las moléculas de ARN fosforiladas en el extremo 5 pueden servir como sustratos eficaces en reacciones de ligación. Después del segundo paso de la reacción de ligación, el cebador de transcripción inversa se hibrida con el adaptador de 3 terminales y comienza la amplificación por RT-PCR (generalmente 12 ciclos). Debido a sus tamaños de fragmentos pequeños y predecibles (secuencia adaptadora de 120 pb más inserto de miARN de 20-30 pb), las bibliotecas o múltiples conjuntos de códigos de barras a menudo se procesan juntos para la extracción en gel. Debido a la presencia de dímeros adaptadores y conexiones que no son miARN (ARNt y ARNsno), la recuperación del gel es muy importante.
Este método de preparación de la biblioteca da como resultado la secuenciación direccional de la biblioteca, siempre desde el quinto extremo hasta el tercer extremo del ARN original. El principio de secuenciación de miARN de Ion Torrent es similar. Ion Torrent utiliza dos adaptadores diferentes para conectarse a los extremos terminales 3 y 5 del miARN, seguido de RT-PCR. En general, el paso de construcción de la biblioteca puede convertir cualquier material de ARN en una biblioteca direccional de secuencia de ARN.
Una limitación importante de la biblioteca de miARN es que la cantidad inicial de ARN es baja (<200 ng de ARN total de dímeros de conector cortos compiten con el producto objetivo, el conector y el miARN en la reacción de RT-PCR). Cuando hay demasiados dímeros presentes, pueden inundar el gel durante la detección de fragmentos, contaminando las bandas del producto. Para evitar al máximo esta situación, muchos kits adoptan varios métodos para evitar la formación de dímeros.
Para las bibliotecas de secuenciación de ARNm, los métodos incluyen principalmente el uso de cebadores aleatorios o cebadores oligo-dT para la síntesis de ADNc o la adición de adaptadores a los fragmentos de ARNm y luego realizar alguna forma de amplificación. El ARNm puede iniciarse con cebadores aleatorios u oligo-dT para producir una cadena de ADNc. Si se utilizan cebadores aleatorios, primero se debe eliminar o reducir el ARNr. El ARNr se puede eliminar utilizando reactivos basados en sondas de oligonucleótidos como Ribo-Zero y RiboMinus. Además, el ARN poliA se puede rastrear utilizando perlas magnéticas oligo-dT.
Por lo general, se espera que la biblioteca pueda conservar la direccionalidad de la cadena del ARN objetivo original. Por ejemplo, el ARN antisentido producido mediante transcripción inversa desempeña un papel en la regulación de la expresión genética. De hecho, el análisis de lncRNA se basa en la secuenciación dirigida de ARN. Existen varios métodos para preparar bibliotecas de RNA-seq dirigidas. Lógicamente, se realiza una reacción de ADNc para eliminar selectivamente una de las dos cadenas y se añade dUTP durante la síntesis de la segunda cadena de ADNc. La cadena que contiene uracilo puede ser digerida por la enzima correspondiente o amplificada usando una polimerasa que no reconoce el uracilo. Además, agregar actinomicina D puede reducir la síntesis de cadenas de sentido falso durante la síntesis de ADNc de una sola cadena.
Otro método de hibridación utiliza secuencias enlazadoras de cebadores oligo-dT anclados o aleatorios para iniciar la síntesis de ADNc de primera cadena. A continuación, en un paso de cambio de plantilla, se añade una secuencia adaptadora de 3 terminales a la molécula de ADNc. La ventaja obvia de este método es que la molécula de ADNc de la primera cadena se puede amplificar directamente mediante PCR utilizando la etiqueta de secuencia única en el extremo 3 terminal sin la necesidad de una síntesis de la segunda cadena. La etiqueta de secuencia única de 5 terminales se introduce durante la síntesis de la primera cadena.
El diseño de cebadores para la síntesis de ADNc es muy importante para las bibliotecas de RNA-seq. Por ejemplo, las secuencias de ARNr se pueden eliminar diseñando cebadores que se dirijan al ARNr pero que no se utilicen para una amplificación adicional. NuGEN Ovation RNA-seq combina la tecnología de amplificación de ácidos nucleicos SPIA (amplificación isotérmica de cebador único) y cebadores para la síntesis de ADNc de primera cadena para inhibir la amplificación de ARNr. Otro enfoque utiliza 4096 hexámeros para suprimir secuencias de ARNr (identificar y eliminar coincidencias perfectas). Se retienen 749 hexámeros y se utilizan para iniciar la reacción de síntesis de ADNc de la primera cadena. Como resultado, las lecturas de ARNr cayeron del 78 % al 13 %. También existe un método llamado DP-seq, que utiliza 44 cebadores de 7 unidades para amplificar la mayoría de las transcripciones de ratón. Este diseño de cebador inhibe selectivamente la amplificación de transcritos altamente expresados, incluido el ARNr, y proporciona estimaciones de transcritos de baja abundancia en modelos de desarrollo embrionario.
Recientemente se han publicado algunos métodos para preparar bibliotecas de ARN unicelular. Un método utiliza la cola de polinucleótido del ADNc de la primera cadena en combinación con una reacción de cambio de molde. El resultado es un producto de ADNc de primera cadena que puede amplificarse con cebadores de PCR universales. Esto se muestra en la Figura 4B y se ha incorporado al kit. Otro método, llamado CEL-Seq, sintetiza la secuencia del promotor T7 en el extremo 5 del ADNc y luego realiza una amplificación fenomenológica durante la transcripción in vitro.
El ARN total de una sola célula es generalmente de 10 pg, pero el ARN poliA es de sólo 0,1 pg. Por lo tanto, estos métodos requieren hasta cierto punto la amplificación de la transcripción completa para generar suficiente información para la construcción de la biblioteca.
La desventaja de esta amplificación a gran escala es la generación de una gran cantidad de ruido técnico, algo que aún no se ha solucionado. (?)
Finalmente, la impronta de ribosomas puede reflejar la mezcla de transcripciones de ARNm celular en cualquier nodo de traducción. Este método implica lisar células con RNasa, dejando solo una región de 30 nucleótidos protegida por nucleosomas. Los nucleosomas se purifican mediante centrifugación de densidad en gradiente de sacarosa y luego se extrae el ARNm de los nucleosomas. Otra nueva aplicación de secuenciación de ARN es SHAPE-Seq, que utiliza reactivos de acilación para modificar sesgadamente bases no apareadas para explorar la estructura secundaria del ARN. Mediante la transcripción inversa de ARN modificado y control no modificado, se secuencian los fragmentos de ADNc resultantes y la comparación puede revelar información de emparejamiento de bases a nivel de nucleótidos.