GTF y GFF
1. Introducción al formato
(1) archivo gtf. GTF es la abreviatura de General Transfer Format, que es similar al formato GFF2. Creo que cuando realiza un análisis del transcriptoma, a menudo verá que el software Cufflinks o Stringtie genera un archivo gtf al cuantificar y ensamblar el transcriptoma. La información que contiene es la siguiente:
El significado de cada columna. La información es la siguiente:
seqname ?-El ID de la secuencia, que puede ser el ID del cromosoma o el ID de Scaffold o Contig.
fuente ?-El software que genera este archivo Por ejemplo, si Stringtie lo genera, será Stringtie, si CUfflinks lo genera, será Cufflinks. Si no lo sabe, use el punto “. .” para indicarlo.
característica ?-La característica representada por la región entre el inicio y el final. Si esta región es un gen, es gen, si es un exón, es exón, si es una transcripción, es. Transcripción, si es un ARN no codificante, es lncRNA, si es una secuencia repetida, es TE, etc., que indican principalmente las características de esta región.
start?-La posición inicial de la característica anterior en la secuencia.
end ?- La posición final de la característica anterior en la secuencia.
puntuación?- Un valor de punto flotante, que también puede ser un punto ".". Cuando tiene un valor, representa la confiabilidad de la característica anterior
. Debido a que tanto los genes como el ARNm se generan basándose en una predicción deficiente, debe haber un valor para medir la precisión de la predicción.
cadena ?- (adelante) o - (reversa), que indica si la característica anterior está ubicada en la hebra positiva o negativa.
cuadro ?- Subfase inherente, que sólo puede ser '0', '1' o '2', o el punto ".". '0' representa la base inicial de la característica como la primera base del codón triplete, '1' representa la segunda base del codón triplete y 2 representa la tercera base.
atributo ?-Columna de comentarios. Principalmente comenta alguna información sobre la característica. Las más comunes son información de identificación, como gen o transcripción, y la información de comentarios múltiples generalmente está separada por punto y coma.
(2) formato gff. Es la abreviatura de formato de características generales. Actualmente se utiliza la versión 3, que es lo que solemos llamar archivo gff3. Este archivo se usa comúnmente para anotar genomas, indicando las posiciones de genes, exones, CDS, UTR, etc. en el genoma. Muchos software de predicción de genes como Glean, EVM, AUGUSTUS, etc. generarán archivos en este formato.
La diferencia con el archivo gtf está solo en la columna 9. El formato de esta columna es "etiqueta = valor" (etiqueta = valor), use "=" entre etiquetas y valores, y use ";" para separar diferentes etiquetas. Una etiqueta puede tener múltiples valores y use "," para diferentes. valores "segmentación".
2. Convierta gtf y gff y filtre archivos GFF.
El software más utilizado es gffread, un programa que viene con Cufflinks. No sólo puede convertir GTF y GFF, sino también filtrar archivos GFF.
La siguiente es la información de ayuda de gffread:
Uso:
gffread lt; input_gffgt; fsizegt; ]?
?[-o lt;outfile.gffgt;] [-t lt;tnamegt;] [-r [[lt;strandgt;]lt;chrgt;:]lt;startgt; .. lt;endgt; [-R]]
?[-CTVNJMKQAFGUBHZWTOLE] [-w lt;exons.fagt;] [-x lt;cds.fagt;] [-y lt;tr_cds. fagt; ]
?[-i lt;maxintrongt;]?
lt;input_gffmatchgt; es un archivo GFF/GTF, un archivo obligatorio
Parámetros comunes Introducción:
?-g ?Archivo de secuencia, es decir, el archivo de secuencia correspondiente al ID en la primera columna del archivo GFF/GTF.
?-i ?Descartar transcripciones (ARNm/transcripción) con intrones más grandes
?-r ?Posiciones inicial y final, complete el ejemplo 100.10000 es la salida y 100 Todos los grupos de transcripción con superposición de hasta 10000 también se puede limitar a ID de secuencia y cadenas. Complete el ejemplo: Chr1: 100..10000.
?-R ?Descarta este rango de transcripciones, lo opuesto a -r.
?-U ?Descartar transcripciones de un solo exón
?-C ?Descartar transcripciones sin CDS.
?-V ?Descartar transcripciones que contengan mutaciones por desplazamiento de marco.
?-H ?Si se usa -V, vuelva a verificar y ajuste la fase del intrón para evitar la generación de mutaciones de desplazamiento del marco debido a una selección de posición incorrecta del sitio de inicio de la traducción.
?-B Si se usa -V, para genes de un solo exón, vuelva a verificar la cadena opuesta para detectar mutaciones por cambio de marco.
?-N ?Descartar los sitios de empalme de genes multiexón que no sean secuencias comunes de GT-AG, GC-AG o AT-AC.
?-J ?Deseche las transcripciones sin codones de inicio o codones de parada, y conserve únicamente las transcripciones con marcos de codificación completos.
?--no-pseudo: filtra la información de anotaciones que contiene 'pseudo'
?-M/--merge: fusiona transcripciones que son idénticas o que tienen una relación de inclusión.
-d: use -M para enviar la información de combinación a un archivo
?--cluster-only: similar a --merge pero no combina transcripciones
-K ?Para la opción -M: también contrae transcripciones más cortas y completamente contenidas
? con menos intrones que el contenedor
-Q?Para la opción -M: elimina el relación de inclusión Restricciones en las transcripciones: las transcripciones de múltiples exones se fusionarán si las posiciones de sus intrones son exactamente las mismas, las transcripciones de un solo exón solo necesitan ser 80 idénticas para fusionarse.
?--force-exons: ?Establece el nivel mínimo de exón de características de GFF
?-E Advierte sobre ID duplicados u ?GFF/GTF otra información potencial sobre problemas de formato.
-Z ? Fusionar dos exones adyacentes cuyo intrón tenga menos de 4 pb en uno.
?-w ?Emite la secuencia de exones de cada transcripción
?-x ?Emite la secuencia CDS
?-W ?Para -w y -x opción, genera las coordenadas de la posición del exón en el ID de la secuencia FASTA
?-y ?Secuencia de proteína de salida
?-L ?Convierte la conversión de Ensembl GTF a GFF3 (implica -F; debería usarse con -m)
?-o ? Genera el archivo GFF "filtrado".
El parámetro -T ?-o generará formato GTF.
Comando de muestra:
1. Convertir GFF a GTF
gffread input.gff3 -T -o out.gtf'
2 Conversión de GTF GFF3
gffread input.gtf -o out.gff3
3. Extraer proteína, CDS y secuencia de exones según el gen GFF o GTF
gffread. .gff3 -g genome.fa -x cds.fa -y pep.fa -w cdna.fa
3. Comparación de archivos GFF
Utilice principalmente gffcompare (/gpertea/gffcompare) , que tiene principalmente tres funciones: 1) Evaluar la precisión del software de ensamblaje de transcripciones como Cufflinks/Stringtie; 2) Fusionar partes superpuestas de múltiples GFF/GTF (fusión de múltiples resultados de ensamblaje de muestras) 3) Puede comparar una o las anotaciones de múltiples Los archivos GTF/GFF se clasifican en relación con el archivo GTF/GFF de referencia (con "códigos de clase" asignados a las transcripciones según su relación con la transcripción de referencia coincidente/superpuesta), como comparar el GTF previsto de Pacbio con el GFF de referencia, resultados de anotaciones para revisión y evaluación de referencias.
Uso:
gffcompare [-r lt; reference_mrna.gtfgt; [-R]] [-G] [-T] [-V] [-s lt; ]
[-o lt;outprefixgt;] [-p lt;cprefixgt;]?
{-i lt;input_gtf_listgt; .gtfgt; .. lt; inputN.gtfgt;]}
Introducción a los parámetros comunes:
-i ? El archivo está escrito en un archivo y se puede pasar a través de esta opción.
-r hace referencia a archivos GTF/GFF
-R ? Para el parámetro -r, solo se consideran las referencias que se superponen con cualquier archivo de anotación de entrada.
-Q apunta al parámetro -r y solo considera archivos de anotaciones de entrada que se superponen con cualquier referencia.
(Advertencia, esto descartará todos los sitios de anotación nuevos)
-M descarta (ignora) transcripciones de un solo exón en el archivo de anotación de entrada y el archivo de anotación de referencia
-N descarta (ignora ) transcripciones de un solo exón en el archivo de anotación de referencia
-s archivo de secuencia del genoma
-e Al evaluar la precisión del exón, distancia desde el extremo de referencia La distancia más lejana entre exones (predeterminado 100)
-d La distancia máxima entre los sitios de inicio al agrupar transcripciones (predeterminado 100)
-C ?En .combined El archivo .gtf contiene transcripciones de tipo "contenido"
-F Si solo el extremo 3' es diferente, la información de anotación de transcripción redundante contenida en la referencia en el archivo GTF de entrada no se descartará.
-G no descarta la información de anotación de transcripción redundante contenida en las referencias en el archivo GTF de entrada, principalmente debido al empalme alternativo.
-T no genera archivos .tmap y .refmap para cada archivo de entrada
-V muestra un mensaje de advertencia durante el análisis de GFF
Comando de referencia: < / p>
gffcompare ?-r refChr.gff3 ?-R -G -o combine input.gtf
Los resultados de salida incluyen los siguientes archivos:
combine.combined .gtf
combine.loci
combine.stats
combine.tracking
Hay un class_code en combine.combined.gtf Representa la similitud información entre el archivo de anotación de entrada y el archivo de anotación de referencia, de la siguiente manera:
Códigos de clase #Transfrag
PriorityCodeDescription
1=Coincidencia completa de la cadena de intrones
p>2cContenido
3jIsoforma (fragmento) potencialmente novedosa: al menos una unión de empalme se comparte con una transcripción de referencia
4eTransfragmento de exón único que se superpone a un exón de referencia y al menos 10 pb de un intrón de referencia, lo que indica un posible fragmento de pre-ARNm.
5iUn transfragmento que cae completamente dentro de un intrón de referencia
6oSuperposición exónica genérica con una transcripción de referencia
7pPosible fragmento continuo de polimerasa (dentro de 2 Kbases de una transcripción de referencia)
8rRepetir actualmente determinado observando la secuencia de referencia enmascarada suavemente y aplicada a transcripciones donde al menos 50 de las bases están en minúsculas p>
9uTranscripción intergénica desconocida
10xSuperposición exónica con referencia en la hebra opuesta
11sUn intrón del transfrag se superpone a un intrón de referencia en la hebra opuesta (probablemente debido a la lectura errores de mapeo)
12.(Solo archivo de seguimiento, indica clasificaciones múltiples)
Dado que el archivo de salida es casi el mismo que cuffcompar
El formato es casi el mismo.
Consulte pare/ para obtener una introducción más detallada a la salida.
Reimpreso de: /wuliuxinwen/2/33709819.htm