La Red de Conocimientos Pedagógicos - Currículum vitae - ayuda con comando+explosión

ayuda con comando+explosión

La forma en que opera Blast es usar primero la secuencia de destino para construir una base de datos (esta base de datos se llama base de datos y cada secuencia en ella se llama asunto) y luego usar la secuencia de consulta (consulta). para buscar en la base de datos se debe comparar una consulta con cada tema en la base de datos para obtener todos los resultados de la comparación.

Blast es un paquete de programas heredado Al llamar a diferentes módulos de alineación, blast realiza posibles métodos de alineación de secuencias de especies:

blastp: compara secuencias de proteínas con bibliotecas de proteínas.

blastx: Compara la secuencia de ácido nucleico con la biblioteca de proteínas Primero, la secuencia de ácido nucleico se traduce en una secuencia de proteínas (se puede traducir en 6 posibles secuencias de proteínas según la fase) y luego se compara. con la biblioteca de proteínas.

blastn: Comparación de secuencias de ácidos nucleicos frente a bibliotecas computacionales.

tblastn: Comparación de secuencias de proteínas con bibliotecas computacionales Las secuencias de ácidos nucleicos de la biblioteca se traducen en secuencias de proteínas y luego se comparan.

tblastx: Calcula secuencias de ácidos nucleicos para comparar bibliotecas a nivel de proteínas. Traduce tanto la biblioteca como la secuencia que se va a buscar en secuencias de proteínas y luego compara las secuencias de proteínas.

Blast proporciona todos los métodos de comparación posibles entre secuencias de ácidos nucleicos y proteínas, y tiene una velocidad de comparación rápida y una alta precisión de comparación, por lo que se utiliza más en análisis de comparación de secuencias dobles de rutina. Extenso, no es exagerado decirlo. esa explosión es una herramienta de comparación que debe dominarse para la genómica comparada e incluso para toda la investigación bioinformática.

Uso:

La operación de explosión se divide en dos pasos: primero, establecer una base de datos de secuencias objetivo; segundo, realizar una comparación de explosiones.

1. Ejecute el programa de creación de biblioteca formatdb:

El proyecto de creación de biblioteca consiste en crear el archivo de índice de la secuencia de destino, por lo que el programa es formatdb. El formato de entrada permitido por el programa es el formato FASTA o ASN.1. Normalmente utilizamos secuencias en formato FASTA como entrada. La secuencia FAST utilizada para construir la biblioteca es db.seq. El comando básico de formatdb es:

formatdb –i db.seq [-options]

Parámetros comunes:

-p (T/F): El significado del parámetro -p es seleccionar el tipo de construcción de la biblioteca. "T" significa biblioteca de proteínas, "F" significa biblioteca de contabilidad y el valor predeterminado es "T".

-o(T/F): El significado del parámetro -o es determinar si se analiza el nombre de la secuencia y establece un índice de nombre de secuencia. "T" significa crear un índice de nombre de secuencia, "F" significa no crear un índice de secuencia. El valor predeterminado es "F".

Salida del programa:

Si se crea la biblioteca de contabilidad, la salida es db.seq.nhr, db.seq.nin, db.seq.nsq, tres archivos si. seleccione Si se especifica "-o T", se generarán cuatro archivos, db.seq.nsd, db.seq.nsi, db.seq.nni y db.seq.nnd, al mismo tiempo, de uno a siete.

La salida de la biblioteca de proteínas y la biblioteca de contabilidad son similares. Los archivos de salida correspondientes son: db.seq.nhr, db.seq.nin, db.seq.nsq y db.seq.nsd. db.seq.nsi, db.seq.nni, db.seq.nnd siete archivos.

Además de este resultado, el programa también generará un archivo LOG (el valor predeterminado es formatdb.log), que registra información como el tiempo de ejecución, el número de versión, el número de secuencia, etc.

Algunos problemas que necesitan atención:

1) Una vez creada la base de datos, el archivo de entrada para la comparación de explosiones es el archivo db.seq.n** o db obtenido de la base de datos. construyendo .seq.p** en lugar de la secuencia FASTA original, es decir, el archivo de secuencia original se puede eliminar una vez creada la biblioteca.

2) Si se selecciona "-o T" en la línea de comando y el número GI del amigo en la secuencia objetivo tiene un nombre de secuencia repetido, el programa dejará de construir la biblioteca e informará un error.

Es decir, las secuencias repetidas no pueden aparecer en el archivo de la biblioteca (el símbolo es el número de serie, que no tiene nada que ver con la secuencia específica).

3) Si la secuencia de entrada no se ajusta al formato FASTA o ASN.1, el programa saldrá automáticamente e informará un error.

[formatdb] ERROR: No se pudo abrir la base de datos.

4) Las secuencias de ácidos nucleicos se pueden usar para crear bibliotecas de contabilidad y bibliotecas de proteínas, pero las secuencias de proteínas no se pueden usar para crear bibliotecas de contabilidad. . ¡Esto es obvio, es un problema de codones!

Introducción a otros parámetros:

-l: "-l nombre de archivo" se utiliza para cambiar el nombre del archivo LOG

-n: "- n nombre de archivo" Puede personalizar el nombre del archivo de biblioteca generado

-a: el archivo de entrada está en formato ASN.1

2. Ejecute el programa de comparación blastall:

Principal de Blast El programa es blastall. El archivo de entrada del programa es la secuencia de consulta (parámetro -i) y el archivo de biblioteca (parámetro -d), la selección del tipo de alineación (parámetro -p) y el archivo de salida (parámetro -o) los especifica el usuario. . El parámetro "-p" tiene 5 valores:

-p blastp: compara la secuencia de proteínas con la biblioteca de proteínas.

-p blastx: Alineamiento de secuencias de ácidos nucleicos frente a bibliotecas de proteínas.

-p blastn: comparación de secuencias de ácidos nucleicos frente a bibliotecas de ácidos nucleicos.

-p tblastn: Alineamiento de secuencias de proteínas frente a bibliotecas de ácidos nucleicos.

-p tblastx: Comparación de secuencias de ácidos nucleicos frente a bibliotecas de ácidos nucleicos a nivel de proteínas.

Estos elementos constituyen el comando básico de ejecución de blast (tomando blastn como ejemplo):

blastall -i query.fa -d base de datos -o blast.out -p blastn

p>

Si el parámetro "-o" está predeterminado, el modo de salida del resultado es la salida en pantalla.

Parámetros:

Simplemente ejecute el comando de ejecución básico de explosión y los resultados obtenidos a menudo no pueden representar de manera clara y precisa información útil. El mayor problema es que hay demasiada redundancia y aparecerán muchas comparaciones breves en los resultados de salida, lo que dará como resultado resultados confusos. Para manejar resultados de comparación confusos y satisfacer diversas necesidades de comparación, Blast establece muchos parámetros para limitar el alcance de la comparación y la forma de salida. La mayoría de los resultados a continuación se basan en la distancia de voladura. A menos que se especifique lo contrario, estos parámetros son adecuados para todos los métodos de comparación.

Parámetro -e

El parámetro -e (valor) se utiliza para filtrar resultados de comparación deficientes. Utilice el parámetro "-e" para especificar un número real y blast lo filtrará. el valor esperado. El resultado de la comparación es mayor que este número (es decir, cuanto menor sea el valor, mejor será el resultado de la comparación).

blastall -i query.fa -d base de datos -o blast.out -p blastn -e 1e-10

Normalmente, para comparaciones entre diferentes especies, el valor esperado Simplemente configúrelo a alrededor de 1e-5; para especies con mayor homología o comparaciones de la misma especie, puede ajustar moderadamente el valor esperado para filtrar resultados basura. Para alinear el ADNc y los cromosomas de la misma especie, los parámetros pueden ser 1e-10 o superiores.

Parámetro -F

El parámetro -F (T/F) se utiliza para bloquear repeticiones simples y secuencias de baja complejidad. Si se selecciona "T", el programa descartará repeticiones simples y secuencias de baja complejidad en la consulta durante el proceso de comparación; si se selecciona "F", no se filtrará. El valor predeterminado es "T".

Al comparar los dos resultados, podemos ver que el resultado de la comparación utilizando los parámetros predeterminados ha perdido parte de la información, y los resultados estadísticos obtenidos también están

distorsionados, y ni el esperado ni el valor ni la identidad se reflejan en la situación real. A veces, las repeticiones más largas pueden incluso provocar que finalicen las alineaciones. Agregar "-F F" garantiza la integridad de los resultados de la comparación. Por lo general, en comparaciones a gran escala y de baja precisión, se utilizan a menudo parámetros predeterminados, lo que puede evitar que el programa pierda demasiado tiempo en repeticiones simples sin sentido y mejorar la velocidad de ejecución, mientras que en comparaciones a pequeña escala y de alta precisión, el parámetro "; Es necesario agregar -F F" para garantizar la precisión y exhaustividad de la comparación.

Parámetro -m:

El parámetro "-e" puede filtrar los resultados de comparación apropiados, pero aun así, los resultados de salida de la explosión siguen siendo muy grandes y difíciles de procesar. Para optimizar la salida, ahorrar espacio de almacenamiento, implementar más funciones y hacer que los resultados sean más fáciles de procesar, Blast proporciona el parámetro "-m (entero)" para configurar el formato de salida. Los valores disponibles son números enteros entre 0 y 11. La provincia es 0. A continuación se analizarán las funciones de salida que se pueden lograr con el parámetro "-m" una por una a través de ejemplos.

-m 8: Comparación de resultados en formato de lista. El significado de separación de ser una guía es: nombre de la consulta/nombre del sujeto/identificar/longitud de la comparación/número de discrepancias/número de espacios/coordenadas iniciales de la comparación de consultas/coordenadas finales de la comparación de consultas/coordenadas iniciales de la comparación de sujetos/proporción del sujeto Para coordenadas finales/ valores esperados/puntuaciones de alineación

En el formato m8, la dirección de alineación de la secuencia se puede determinar mediante las posiciones inicial y final de alineación del sujeto. El método de juicio es: si las coordenadas inicial y final de la consulta y el asunto aumentan o disminuyen constantemente.