Descripción detallada del filtrado de datos NGS
El filtrado de datos sin procesar de NGS es muy importante para el análisis posterior. Eliminar algunas secuencias inútiles también puede mejorar la precisión y eficiencia del análisis posterior. Trimmomatic es un potente software de filtrado de datos.
El artículo publicado por Trimmomatic ha sido citado 2810 veces hasta ahora y es una herramienta de filtrado de datos popular en la plataforma Illumina. Los datos de otras plataformas, como Iron Torrents y datos de secuenciación PGM, se pueden filtrar a través del kit de herramientas fastx_toolkit y NGSQC.
Trimmomatic admite subprocesos múltiples y tiene una rápida velocidad de procesamiento de datos. Se utiliza principalmente para eliminar enlazadores en la secuencia Fastq de la plataforma Illumina y recortar Fastq en función del valor de calidad de la matriz. El software tiene dos modos de filtrado, correspondientes a datos de secuenciación SE y PE respectivamente, y admite archivos comprimidos gzip y bzip2.
Además, también admite la conversión entre los formatos phred-33 y phred-64. Ahora la confusión entre el formato phred-33 y phred-64 es causada por Illumina (¡Daminyou, Illumina!), pero ahora la mayoría de los datos de salida de la plataforma Illumina también se convierten al formato phred-33.
Los pasos que sigue Trimmomatic para filtrar datos están relacionados con el orden de los parámetros de filtrado en la línea de comando. Los pasos de filtrado habituales son los siguientes:
Debido a que los pasos de filtrado de datos de Trimmomatic están relacionados con el orden de los parámetros de filtrado en la línea de comando, si es necesario, se recomienda ir al conector en el primer paso. De lo contrario, la secuencia del conector será utilizada por otros. Con los parámetros del filtro cortados, es más difícil hacer coincidir y eliminar secuencias del conector.
En el modo SE, solo hay un archivo de entrada y un archivo de salida filtrado:
El parámetro -trimlog especifica el nombre del archivo del registro de filtro, que contiene las siguientes cuatro columnas:
p>
Dado que el archivo trimlog generado contiene los registros de procesamiento de cada lectura, el tamaño del archivo es enorme (nivel GB). Si ya no utiliza Trimlog en el futuro, se recomienda no utilizar el parámetro de recorte.
En el modo PE, hay dos archivos de entrada, la secuencia de clasificación directa y la secuencia de clasificación inversa, pero hay cuatro archivos de salida después del filtrado. Después del filtrado, las dos secuencias finales permanecen emparejadas, mientras que si una secuencia final se descarta después del filtrado, la otra secuencia final permanece no emparejada.
Entre ellos, los parámetros -phred33 y -phred64 especifican el formato de codificación de calidad de fastq. Si este parámetro no está configurado, el software determinará automáticamente el formato del archivo de entrada (compatible con versiones posteriores a v0.32). Aunque el parámetro predeterminado del software es phred64, no es necesario configurar este parámetro si no está seguro de la calidad del formato de codificación de la secuencia.
Dos archivos de entrada para el modo PE: muestra _ r 1 . fastq muestra _ fastq y cuatro archivos de salida: muestra _ emparejada _ r 1 . par_muestra. ed _ r 1 . fastq sample _ unpaired _ r 1 clean
Por lo general, los nombres de los dos archivos de secuenciación PE R1 y R2 son similares. el nombre del archivo de R1, el software inferirá el nombre del archivo de R2, pero esta función no es fácil de usar, porque el software solo puede identificar e inferir automáticamente -basein:
Se recomienda especificar. dos nombres de archivo (R1 y R2) como entrada y no utilizar el parámetro -basein.
Hay cuatro archivos de salida.
Por supuesto, puede especificar cuatro nombres de archivo como se indica arriba, pero los parámetros son demasiado largos, lo cual es un poco problemático. Existe una manera sin preocupaciones. Utilice el parámetro -baseout para especificar el nombre base del archivo de salida y el software nombrará automáticamente los cuatro archivos de salida. Por ejemplo, base mySampleFiltered.fq.gz, agregue un sufijo . gz después del nombre del archivo y el software usará automáticamente gzip para comprimir el resultado de salida. Los cuatro archivos de salida recibirán nombres automáticamente:
Además, si especifica los nombres de los archivos de entrada y salida directamente, agregar un sufijo .gz después del nombre del archivo le indicará al software que el archivo de entrada es un .gz. El archivo comprimido y el archivo de salida requieren compresión gzip.
Si se requieren varios parámetros para cada paso del filtrado, generalmente se utilizan dos puntos para separar los parámetros. Por supuesto, se requiere el orden de los parámetros.
Como su nombre indica, este paso consiste en retirar el conector de Illumina. En realidad, este software está diseñado para datos de la plataforma Illumina.
Para comprender mejor por qué hay secuencias de cebadores y adaptadores en las lecturas de secuenciación, dibujé un diagrama esquemático de la estructura de la biblioteca después de agregar adaptadores y marqué aproximadamente los sitios de unión de los cebadores:
Después de comprender la estructura esquemática de esta biblioteca, es fácil comprender el proceso de secuenciación.
Eliminar las secuencias de adaptadores y cebadores parece sencillo, pero requiere un equilibrio entre sensibilidad (para garantizar que los adaptadores y los cebadores se eliminen limpiamente) y especificidad (para garantizar que otras secuencias además de los adaptadores y los cebadores no se eliminen accidentalmente) . La sencilla operación de retirar adaptadores se complica por posibles errores aleatorios en la secuenciación.
Aunque en teoría, las secuencias de adaptadores y cebadores pueden aparecer en cualquier lugar de la lectura, de hecho, en la mayoría de los casos, los adaptadores y los cebadores aparecen en la secuencia porque los fragmentos insertados en la biblioteca son más grandes que los fragmentos de lectura de secuenciación. corto. En este caso, hay una secuencia disponible al comienzo de la lectura y el final contiene toda o parte de la secuencia del adaptador. Si el final contiene sólo una parte de la secuencia enlazadora, no es fácil eliminar esta secuencia enlazadora incompleta.
Sin embargo, en el modo de secuenciación PE, si el fragmento de inserción de la biblioteca es más corto que la lectura de secuenciación, entonces la parte no enlazadora en lectura1 y lectura2 será completamente complementaria inversa, y Trimmomatic tiene un "palíndromo". "modo, que El patrón utilizará esta función para eliminar secuencias de adaptador.
Los cuatro casos A, B, C y D en la siguiente figura son los cuatro modos de eliminación de recortes de adaptadores y cebadores:
Modo A: las lecturas de secuenciación se incluyen desde el principio. posición Una secuencia de adaptador completa, por lo que, de acuerdo con los principios de secuenciación de Illumina, es poco probable que la lectura completa contenga secuencias útiles y se descarta.
Modo B: Es el más común. Debido a que la inserción en la biblioteca es más corta que la lectura de secuencia, contendrá alguna secuencia de adaptador al final de la lectura. Si la secuencia del enlazador es lo suficientemente larga, se puede identificar y eliminar, pero si la secuencia del enlazador es demasiado corta, más corta que la longitud mínima establecida por el parámetro de coincidencia del enlazador, no se puede eliminar. Sin embargo, en el caso de la secuenciación PE, las secuencias adaptadoras cortas al final de la lectura se pueden eliminar según el patrón D.
modo c: Esto puede suceder con la secuenciación PE. Algunas secuencias directas e inversas son completamente complementarias, pero la biblioteca descargada y los dos adaptadores están directamente interconectados. Dichas lecturas no contienen ninguna secuencia útil y se descartan las lecturas de secuenciación directa e inversa.
Modo d: Este es el modo en el que Trimmomatic utiliza la secuenciación PE para eliminar secuencias cortas de adaptadores. Si el fragmento insertado en la biblioteca es más corto que la lectura de secuenciación, puede aprovechar el hecho de que una base en las lecturas de secuenciación directa e inversa puede ser completamente complementaria para comparar las dos secuencias adaptadoras con la lectura y también comparar las dos. se lee entre sí, de modo que incluso la secuencia del adaptador del extremo 3' de 1 pb se puede eliminar con precisión, lo cual es más completo que en el modo B.
Trimmomatic utiliza una estrategia de dos pasos similar al software de alineación de secuencias (como el software de alineación ultrarrápido Isaac aligner) para buscar posibles secuencias de articulaciones. En primer lugar, se compara una secuencia semilla (longitud de semilla no superior a 16 pb) en la secuencia adaptadora con las lecturas de secuenciación.
Si la secuencia de semillas se compara bien en las lecturas de secuenciación (determinadas por los parámetros de discrepancia de semillas), comienza el segundo paso de comparación de la longitud del adaptador con las lecturas. El primer paso de la búsqueda de semillas es muy rápido y filtra las lecturas sin contaminar las articulaciones. Este método de búsqueda de dos pasos hace que la búsqueda de secuencias conjuntas sea muy eficiente.
En el segundo paso, al comparar la longitud total de la secuencia del adaptador y las lecturas de secuenciación, la estrategia de penalización considera el valor de calidad Q de las bases secuenciadas, que es 0,6 para cada base en la comparación y 0,6 por cada descalce la base es Q/10. Tener en cuenta el valor de calidad de la base puede reducir el impacto de las bases de baja calidad que no coinciden (alta tasa de error de secuenciación) en la puntuación de comparación general. Según esta regla, los fragmentos de la secuencia adaptadora de 12 pb están completamente alineados con la lectura y la puntuación es 7,2, y los fragmentos de la secuencia adaptadora de 25 pb están completamente alineados con la lectura y la puntuación es 15. Por lo tanto, se recomienda que el valor del umbral de recorte simple en el parámetro ILLUMINACLIP esté entre 7 y 15 (es decir, el umbral de puntuación de comparación del modo de comparación A/B en la figura anterior).
Para la alineación en modo palíndromo (modo D en la figura anterior), la longitud de la secuencia que se puede comparar será más larga y el umbral de la puntuación de alineación será mayor para garantizar la precisión de la identificación de la secuencia del adaptador. . Por ejemplo, hay secuencias de 50 pb en R1 y R2 que pueden coincidir a la inversa y la puntuación es 30. En este modo, Trimmomatic puede identificar y eliminar secuencias de adaptadores muy cortas de las lecturas.
Descripción del parámetro ILLUMINACLIP: Los parámetros de ILLUMINACLIP se enumeran a continuación en el orden especificado (separados por dos puntos entre cada parámetro. Preste atención al último parámetro al ordenar PE). Es posible que los dos últimos parámetros de la secuencia SE no se puedan configurar.
FastaWithAdaptersEtc: Especifica la ruta al archivo fasta que contiene las secuencias del enlazador y del cebador (todas las secuencias se consideran contaminación). Trimmomatic viene con su propio archivo fasta, que contiene las secuencias del enlazador y del cebador de la plataforma Illumina y se puede utilizar directamente.
SeedMismatches: Especifica el número de bases no coincidentes permitidas en el primer paso de la búsqueda de semillas, por ejemplo 2.
Umbral de recorte de palíndromo: especifique cuántas puntuaciones de comparación de R1 y R2 (modo D en la figura anterior) necesita el PE en el modo de recorte de palíndromo, por ejemplo, 30.
Umbral de recorte simple: especifica la puntuación de comparación mínima para la secuencia articular resecada (modo A/B en la imagen de arriba), generalmente entre 7 y 15.
MinAdapterLength: Esto solo es válido para el modo de clip palindrómico de secuenciación PE. Especifica la longitud más corta de la secuencia del adaptador que se puede eliminar en el modo palindrómico. Por razones históricas, el valor predeterminado es 8, pero de hecho el modo palíndromo puede cortar la contaminación del enlazador en tan solo 1 pb, por lo que se puede establecer en 1.
KeepBothReads: Sólo válido en el modo de recorte palíndromo de la secuenciación PE. Este parámetro es muy importante. En el patrón D de la figura anterior, después de eliminar la secuencia del conector, las partes restantes de R1 y R2 son completamente complementarias. El parámetro predeterminado es falso, lo que significa que R2, que es completamente complementario a R1, se elimina por completo. Elimínelos como duplicados, pero en algunos casos, como lecturas emparejadas para el proceso bowtie2, debe cambiar este parámetro a verdadero; de lo contrario, perderá algunas lecturas emparejadas.
Al observar una prueba de datos de PE150, sabrá la importancia del parámetro keepBothReads:
Corte de ventana deslizante, contando el valor de calidad promedio de todas las bases en la ventana deslizante, si es inferior al valor establecido. Si se alcanza un cierto umbral, la ventana se cortará.
Los parámetros de la ventana deslizante son los siguientes:
WidowSize: Establece el tamaño de la ventana.
RequiredQuality: Establece el umbral de calidad base promedio en la ventana.
Contiene un filtro que se ajusta automáticamente y logra un equilibrio entre retener la secuencia durante el mayor tiempo posible y mantener la tasa de error de secuenciación base lo más baja posible, para maximizar la retención de la secuencia después del recorte. . valor.
Para diferentes escenarios de aplicación, el valor de la secuencia de lectura está determinado por los siguientes tres factores:
MAXINFO tiene dos parámetros.
La primera longitud de lectura objetivo controla el primer factor anterior, que es la longitud de lectura más corta permitida. El segundo parámetro, la rigurosidad, controla el equilibrio entre los factores 2 y 3, es decir, si se retienen tantas bases como sea posible o se garantiza la tasa de error de secuenciación más baja bajo la condición de cumplir con la longitud de lectura más corta.
El filtrado MAXINFO comienza desde el extremo 3' de la lectura y cuenta las puntuaciones de información (tales como valores de lectura limpios) de todos los modos de recorte posibles teniendo en cuenta los tres factores anteriores. Estos tres factores se basan en diferentes. Los valores afectan la puntuación de la información de lectura final:
La puntuación INFO se calcula para cualquier modo de escisión de lectura posible, y la longitud final de la lectura y las bases a escindir están determinadas por el valor máximo de INFO. De hecho, estos tres factores que influyen funcionan de diferentes maneras:
Descripción del parámetro:
TargetLength: la longitud más corta que permite asignar una lectura a una posición única en la secuencia de referencia.
Estricto: un número decimal entre 0 y 1 que determina cómo equilibrar la maximización de la longitud de lectura o la minimización de la probabilidad de error de lectura. Cuando la configuración del parámetro es inferior a 0,2, tiende a maximizar la longitud de lectura, y cuando la configuración del parámetro es superior a 0,8, tiende a minimizar la probabilidad de error de secuencia en la lectura.
Desde el inicio de la lectura, las bases con valores de calidad inferiores al umbral establecido se eliminan hasta que el valor de calidad alcanza el umbral.
Calidad: Establece el umbral del valor de calidad básico, por debajo del cual se cortará.
A partir del final de la lectura, las bases con valores de calidad inferiores al umbral establecido se eliminan hasta que una base alcance el umbral. Algunas bases de baja calidad en la plataforma Illumina están marcadas como 2, por lo que configurarlo en 3 puede filtrar estas bases de baja calidad. Se recomienda oficialmente utilizar ventana deslizante o MaxInfo en lugar de LEADING y TAILING.
Calidad: Establece el umbral del valor de calidad básico, por debajo del cual se cortará.
Independientemente de la calidad de la base, se conserva una longitud de base establecida desde el inicio de la lectura y todas las demás se eliminan. Corta todas las lecturas a la misma longitud.
Longitud: la longitud de la secuencia retenida por las lecturas después de dividirla desde el final.
Independientemente de la calidad de la base, algunas bases se eliminan directamente desde el inicio de la lectura.
Longitud: Número de bases eliminadas desde el inicio de la lectura.
Establece la longitud mínima de lectura. Al filtrar lecturas anteriores, si la duración de retención cae por debajo de este umbral, se descartará toda la lectura. La cantidad de lecturas descartadas se contará para la cantidad de lecturas descartadas en el registro de Trimmomatic.
Longitud: La longitud de lectura más corta que se puede retener.
Esta opción puede convertir las filas de valores de calidad en el archivo Fastq filtrado al formato phred-33.
Esta opción puede convertir los valores de la línea de calidad en el archivo Fastq filtrado al formato phred-64.
Trimmomatic también puede crear su propio archivo fasta, incluidas las secuencias de enlace y cebador. El formato puede hacer referencia al formato de la carpeta de adaptadores que viene con el software.
La carpeta de adaptadores contiene secuencias de cebador y adaptador universal Illumina SEquencing TruSeq2 y TruSeq3 para se y PE.