La Red de Conocimientos Pedagógicos - Conocimientos secundarios - Cómo comprobar la fiabilidad de los resultados de la anotación del genoma

Cómo comprobar la fiabilidad de los resultados de la anotación del genoma

La anotación del genoma incluye principalmente cuatro direcciones de investigación: identificación de secuencias repetidas; predicción de ARN no codificante de la estructura genética y anotación de la función genética; Desarrollaremos estos cuatro aspectos por separado.

1: Identificación de secuencias repetitivas.

Los antecedentes de la investigación y la importancia de las secuencias repetidas: las secuencias repetidas se pueden dividir en dos categorías: secuencias repetidas en tándem y secuencias repetidas intercaladas. Entre ellas, las secuencias repetidas en tándem incluyen secuencias de microsatélites, secuencias de microsatélites, etc.; las secuencias repetidas dispersas, también conocidas como elementos transposónicos, incluyen transposones de ADN y retrotransposones de transposición de ADN-ADN. Los retrotransposones comunes incluyen LTR, LINE y SINE.

El estado de desarrollo de la identificación de secuencias repetidas: actualmente existen dos métodos para identificar secuencias y transposones repetidos: alineación de secuencias y predicción de novo. Los métodos de alineación de secuencias suelen utilizar el software Repeatmasker para identificar y clasificar secuencias que son similares a secuencias repetidas conocidas. La base de datos de secuencias repetidas Repbase de uso común. El método de predicción de novo utiliza la secuencia o las características estructurales de secuencias o transposones repetidos para construir algoritmos o software de predicción de novo para identificar secuencias. La ventaja del método de predicción de novo es que se puede predecir en función de las características estructurales de los elementos de transposón, y se pueden descubrir elementos de transposón desconocidos sin depender de la base de datos de transposones existente. Los métodos comunes de predicción de novo incluyen Recon, Piler, Repeatscout, LTR-finder, ReAS, etc.

Contenido de la investigación de la identificación de secuencias repetidas: después de obtener la secuencia del genoma ensamblado, primero predecimos las secuencias repetidas y los elementos transponibles en el genoma. Por un lado, utilizamos software de predicción de novo como RepeatScout, LTR-finder, Tendem Repeat Finder, Repeatmoderler y Piler para predecir secuencias repetidas. Para obtener la información de clase de las secuencias repetidas obtenidas mediante el método de predicción de novo, comparamos estas secuencias con la base de datos Repbase y clasificamos las secuencias repetidas clasificables. Por otro lado, utilizamos Repeatmasker para identificar secuencias repetidas o secuencias de proteínas similares a secuencias repetidas conocidas. Al construir secuencias repetitivas a nivel de ADN y de proteína en la base de datos Repbase, Repeatmasker puede identificar secuencias repetitivas a nivel de ADN y de proteína respectivamente, mejorando la tasa de reconocimiento.

Dificultades técnicas clave en la identificación de secuencias repetitivas;

1): La tecnología de secuenciación de segunda generación es rápida y de bajo costo. Sin embargo, debido al corto tiempo de lectura generado. Dado que la secuencia del genoma se ensambla utilizando el algoritmo kmer, se pueden comprimir secuencias repetidas muy similares, lo que afectará la identificación de secuencias repetidas posteriores.

2): Algunas secuencias muy repetitivas son difíciles de ensamblar utilizando los métodos de ensamblaje existentes y se convierten en lecturas sin ensamblar. Es necesario analizar lecturas no ensambladas simultáneamente para obtener una imagen más completa de la distribución de secuencias repetidas. Anteriormente, BGI desarrolló el software ReAS específicamente para identificar secuencias repetidas en lecturas no ensambladas. Sin embargo, actualmente el software solo puede manejar lecturas de fragmentos largos generados por tecnologías de secuenciación tradicionales (como la secuenciación Sanger) y necesita mejoras adicionales antes de que pueda usarse para analizar lecturas generadas por tecnologías de secuenciación de segunda generación. Al mismo tiempo, las lecturas cortas no ensambladas son muy repetitivas, lo que dificulta identificar sus regiones repetidas.

Dirección de la investigación de identificación de secuencias repetidas;

1): integrar métodos de predicción de secuencias repetidas existentes y analizar la secuencia del genoma ensamblado.

2) Considerar y combinar estrategias de ensamblaje de secuencias cortas para corregir los resultados de la identificación de secuencias repetidas.

3): Desarrollar algoritmos y procesos para identificar repeticiones de lectura no ensambladas y construir secuencias de consenso.

2. Predicción de secuencias de ARN no codificantes.

Antecedentes de la investigación e importancia de la predicción del ARN no codificante: el ARN no codificante se refiere al ARN que no se traduce en proteínas, como ARNt, ARNr, etc. Estos ARN no se traducen en proteínas, pero tienen importantes funciones biológicas.

El miARN se une a la secuencia de ARNm de su gen diana, degrada el ARNm o inhibe su traducción en proteína y tiene la función de silenciar genes. El ARNt (ARN de transferencia) transporta aminoácidos a los ribosomas y sintetiza proteínas bajo la guía del ARNm. El ARN (ARN ribosómico) se combina con proteínas para formar ribosomas, que sirven como andamios para el ARNm y proporcionan un lugar para la traducción del ARNm en proteínas. El ARNn (ARN nuclear pequeño) participa principalmente en el procesamiento de los precursores del ARN y es el componente principal del corte del ARN.

El estado de desarrollo de la predicción de ARN no codificante: debido a la amplia variedad de ncRNA con diferentes características y a la falta de características típicas de los genes codificantes de proteínas, el software de predicción de NCRNA existente generalmente se centra en la búsqueda de un solo tipo. de ARN NC, como tRNAScan-SE para ARNt, snoScan para snoRNA de caja C/D, SnoGps para snoRNA de caja H/ACA, mirScan para microARN, etc. El laboratorio Sanger desarrolló el software Infernal, estableció más de 1.600 familias de ARN y estableció modelos de covarianza y estructura secundaria consistentes para cada familia, formando la base de datos Rfam. Utilizando el modelo de covarianza de cada ARN en la base de datos Rfam, combinado con el software Infernal, se pueden predecir nuevos miembros de familias de ARN existentes. El método Rfam/Infernal se usa ampliamente para predecir varios miembros de la familia de ARN, pero su especificidad es pobre. Recomendamos: Si existe un mejor software para predecir un determinado tipo de ARN no codificante, utilice este software para predecirlo; de lo contrario, utilice el proceso Rfam/Infernal;

Contenido de investigación de predicción de ARN no codificante: Utilice el modelo de covarianza de la familia Rfam y utilice el software Infernal propio de Rfam para predecir las secuencias de miARN y snARN. Debido a la naturaleza altamente conservada del ARNr, utilizamos la comparación de secuencias para identificar secuencias de ARNr en el genoma. La herramienta tRNAscan-SE integra varios programas de identificación y análisis. Al analizar patrones de secuencia conservados de elementos promotores, estructuras secundarias de ARNt, elementos de control transcripcional y un proceso de detección que elimina la mayoría de los falsos positivos, se dice que se pueden identificar 99 genes de ARNt verdaderos.

Dificultades técnicas clave que deben resolverse en la predicción del ARN no codificante:

Identificación de pseudogenes de ARN no codificante: muchas secuencias del genoma se copian de genes de ARN no codificante , y están relacionados con el ARN no codificante, tiene secuencias genéticas similares pero no tiene las funciones del ARN no codificante. Los métodos de predicción actuales para secuencias de ARN no codificantes se basan en la alineación de secuencias y la predicción de estructuras, y no pueden eliminar de manera efectiva los pseudogenes de este tipo de ARN no codificante. Para resolver este problema, consideramos la detección combinando información de expresión de ARN, como datos de RNA-seq.

Dirección de la investigación de la predicción de ARN no codificante;

1): El método de detección de secuencias pequeñas de ARN se ha utilizado ampliamente. Es importante para nosotros utilizar datos de secuencias pequeñas de ARN. predecir ARN no codificantes. Dirección de investigación.

2) El proceso de predicción del desarrollo de genes dirigidos a miARN: El proceso mediante el cual el miARN controla las actividades vitales regulando la estabilidad del ARNm o la traducción de sus genes diana. Predecir los genes diana de miARN puede proporcionarnos pistas para estudiar la función de los miARN. Dado que los mecanismos reguladores de los miARN en genes diana en animales y plantas son bastante diferentes, recomendamos establecer procesos de predicción de genes específicos para animales y plantas, respectivamente, para mejorar la precisión de la predicción.

3. Predicción de la estructura genética.

Antecedentes de la investigación e importancia de la predicción de la estructura genética: a través de la predicción de la estructura genética, podemos obtener información detallada sobre la distribución de genes y la estructura del genoma, que también proporcionará importantes materias primas para la anotación funcional y el análisis evolutivo. La predicción de la estructura genética incluye loci genéticos, marcos de lectura abiertos (ORF), sitios de inicio y finalización de la traducción, regiones de intrones y exones, promotores, sitios de empalme alternativos y secuencias codificantes de proteínas, etc.

El estado de desarrollo de la predicción de la estructura genética: varios sitios de señal (como los sitios de señal promotores y terminadores) de genes procarióticos son altamente específicos y fáciles de identificar, por lo que los métodos de predicción de genes correspondientes están básicamente maduros. Glimmer es el software de predicción de la estructura de genes procarióticos más utilizado con alta precisión. Sin embargo, la dificultad de la predicción genética en eucariotas ha aumentado considerablemente. En primer lugar, los sitios de señal como promotores y terminadores en eucariotas son más complejos y difíciles de identificar. En segundo lugar, el empalme alternativo es omnipresente en los eucariotas, lo que dificulta el mapeo de exones e intrones. Por tanto, se necesitan algoritmos más complejos para predecir la estructura genética de los eucariotas, como los modelos ocultos de Markov. El software de uso común incluye Genscan, SNAP, GeneMark, Twinscan, etc.

Contenido de la investigación de la predicción de la estructura genética: la predicción de la estructura genética se realiza principalmente mediante la alineación de secuencias combinada con la predicción de novo. Los métodos de alineación de secuencias utilizan blat y pasa para comparar secuencias genómicas con datos externos para encontrar posible información de ubicación de genes. Los datos comúnmente utilizados incluyen secuencias de proteínas, secuencias EST, secuencias de ADNc de longitud completa, secuencias de un solo gen, etc. Este método depende en gran medida de los datos, y la relación genética y la distancia evolutiva entre especies deben considerarse plenamente al seleccionar los datos. Los métodos de predicción de genes de novo se realizan mediante la búsqueda de sitios de señalización importantes en el genoma. El software de uso común incluye Genscan, SNAP, Augustus, Glimmer, GlimmerHMM, etc. El uso de múltiples métodos para predecir genes simultáneamente producirá muchos resultados, y los resultados deben integrarse para obtener una secuencia genética consistente. El software de uso común incluye Gleaner, EVM, etc.

Dificultades técnicas clave que deben resolverse en la predicción de la estructura genética;

Todavía hay mucho margen de mejora en los métodos actuales de predicción de las estructuras genéticas eucariotas, y se enfrentan principalmente las siguientes dificultades técnicas.

1): Cómo utilizar datos y algoritmos existentes para identificar mejor sitios de empalme alternativos de genes.

2): Con el progreso del trabajo de secuenciación, muchas especies que actualmente están menos estudiadas también se incluirán en la agenda de secuenciación. La mayoría de los algoritmos de predicción de novo para la estructura genética requieren un entrenamiento previo de los parámetros de predicción. Será difícil obtener parámetros predictivos para especies para las cuales los recursos y datos existentes son escasos.

3): Superar el impacto de los errores de ensamblaje en la predicción de resultados genéticos.

4): Establecer un sistema de evaluación para la predicción de la estructura genética.

Es difícil predecir ubicaciones de recorte variables. Cómo combinar datos de RNA-seq para la predicción de empalme alternativo será una dirección de trabajo importante y una dificultad.

Dirección de la investigación de la predicción de la estructura genética;

1): Utilice RNA-seq, EST y otros datos para corregir los resultados de la predicción de la estructura genética e identificar sitios de empalme alternativos.

2): Para especies menos estudiadas, se recomienda utilizar datos de genes homólogos de especies relacionadas para entrenar el software de predicción de la estructura genética.

3): Utilizar información lineal entre genomas homólogos para ayudar a la predicción de la estructura genética.

4. Comentarios sobre las funciones de los genes.

Antecedentes de la investigación e importancia de la anotación de la función genética: después de obtener información sobre la estructura genética, esperamos obtener más información sobre la función genética. La dirección de la anotación funcional de genes incluye la predicción de motivos y dominios en genes, funciones de proteínas y sus vías biológicas.

El estado de desarrollo de la anotación funcional genética: la secuenciación del genoma completo generará una gran cantidad de datos, pero los métodos experimentales son costosos y no son adecuados para el análisis funcional posterior de la secuenciación del genoma completo. Por lo tanto, actualmente se utiliza ampliamente para anotar funciones genéticas para la secuenciación del genoma completo. KEGG y Gene Ontology son las bases de datos funcionales más utilizadas en proteínas, que anotan las vías biológicas y funciones de las proteínas, respectivamente. Interpro clasifica las proteínas según las características de su secuencia o estructura mediante la integración de múltiples bases de datos que registran las características de las proteínas.

Contenido de la investigación de la anotación de la función genética: actualmente utilizamos cuatro bases de datos de uso común para la anotación de la función genética. Las bases de datos utilizadas incluyen la base de datos de secuencias de proteínas Uniprot, la base de datos de vías biológicas KEGG, la base de datos de la familia de proteínas Interpro y la base de datos de anotaciones de funciones genéticas de Gene Ontology.

1): Comparar con la base de datos de secuencias de proteínas de Uniprot para obtener información preliminar de la secuencia.

2): Comparar con la base de datos KEGG para predecir información sobre posibles rutas biológicas de las proteínas.

3): Comparando con la base de datos de Interpro se obtendrán las secuencias, motivos y dominios conservados de la proteína.

4): Predice la función de las proteínas. Interpro estableció además un sistema interactivo con Gene Ontology: Interpro2GO. Este sistema registra la correspondencia entre cada familia de proteínas y los nodos funcionales en ontología genética. A través de este sistema podemos predecir las funciones biológicas que realizan las proteínas.

Dificultades técnicas clave que deben resolverse en la anotación de funciones genéticas;

Nuestro trabajo actual de anotación de funciones se basa en la comparación, lo que generará dos problemas importantes. En primer lugar, este método depende en gran medida de datos externos y es muy restrictivo para algunas especies menos estudiadas. En segundo lugar, la similitud de secuencia no significa una similitud real de la función biológica. Se deben considerar métodos distintos del alineamiento de secuencia para mejorar aún más la anotación de las funciones genéticas.

Dirección de la investigación de la anotación de la función genética: considere introducir datos distintos de la alineación de secuencias (como redes de interacción de proteínas, perfiles de expresión genética, etc.) y utilice algoritmos de modelos probabilísticos para integrar y mejorar la anotación de la función genética.