Varios métodos para inferir proteínas codificadas por ADNc
Resumen de Wang Diping de la revisión de Tong
(Sección de Enseñanza e Investigación de Bioquímica y Biología Molecular, Facultad de Medicina de la Universidad de Pekín, Beijing 100083)
Se espera que el Proyecto Genoma Humano esté completo dentro de dos o tres años y obtendremos muchos ADNc con secuencias conocidas pero funciones desconocidas. Este artículo presenta brevemente los métodos y herramientas comunes para utilizar recursos de información en Internet para analizar secuencias de ADNc y predecir la estructura y función de las proteínas que codifican.
Internet, ADNc, proteínas, predicción de estructuras y funciones.
Productos proteicos del ADNc: predicción de su estructura y función mediante Internet
Wang Erping, ONG Second Army
(Centro de Ciencias de la Salud de la Universidad de Pekín, China, Beijing 100083)
El proyecto de genética humana se completará dentro de dos o tres años y los biólogos obtendrán muchas secuencias de ADNc con funciones desconocidas. Este artículo presenta algunos métodos y herramientas en Internet mediante los cuales podemos analizar secuencias de ADNc y predecir la estructura y función de las proteínas que codifican.
Palabras clave Internet, ADNc, proteínas, predicción de estructuras y funciones
El Proyecto Genoma Humano (PGH) avanza rápidamente. El 11 de junio de 1999 se secuenció el cromosoma humano número 22, que fue el primer cromosoma secuenciado por completo [1]. En mayo de 2000, se anunciaron los resultados de la secuenciación del cromosoma 21 humano [2]. A finales de 1999, se habían detectado aproximadamente secuencias del genoma 1P3. Actualmente se estima, de forma conservadora, que estará terminado a finales de 2003, y la humanidad está a punto de entrar en la era posgenómica. (Nota del editor: HG P se completó cuando se publicó este artículo). Sin embargo, HG P es sólo un estudio de genómica estructural basado en secuenciación, y la tarea una vez finalizado este proyecto será aún más ardua. Esclarecer las funciones de los genes a lo largo del genoma puede ser una tarea central para toda la comunidad biológica en el siglo XXI. Para explicar las funciones de nuevos genes, los científicos han propuesto los conceptos de genómica funcional, transcriptómica y proteómica. Sin embargo, debido a diversas limitaciones técnicas, su velocidad no puede seguir el ritmo de la avalancha de nuevos genes que surgen. En los últimos años, la clonación y secuenciación del ADNc también han avanzado rápidamente. Por un lado, han surgido grandes cantidades de fragmentos de secuencia corta (EST) en las bases de datos; por otro, se han clonado y secuenciado cada vez más ADNc de longitud completa y se han construido muchas nuevas bibliotecas de ADNc en grandes cantidades; ha ampliado enormemente las aplicaciones de las bibliotecas de ADNc. De este modo, los biólogos moleculares suelen encontrarse con un problema: tras obtener una secuencia parcial o completa, cómo determinar si un ADNc pertenece a un gen conocido o a un gen desconocido, y cómo conocer la estructura y función de la proteína que codifica. . Con el rápido desarrollo de la tecnología de redes informáticas y la bioinformática, el uso de recursos bioinformáticos en Internet para analizar y predecir la estructura y función de secuencias de ADNc y sus productos proteicos se ha convertido en un método rápido, simple y factible. 1 Base de datos de secuencia común
G enBank es creado y administrado por NC BI (Centro de Biotecnología de los Institutos Nacionales de Salud). Es una de las bases de datos más importantes de NC BI y puede proporcionar más de 55.000 organismos diferentes. secuencias conocidas de ácidos nucleicos y proteínas, literatura relevante y anotaciones biológicas [3]. Se trata de las tres bases de datos de secuencias de proteínas y ADN más importantes, vinculadas con la base de datos EMBL de EMBLPEBI (Laboratorio Europeo de Biología Molecular e Instituto Europeo de Bioinformática) y la base de datos DDBJ del Instituto Nacional de Genética de Japón. Recopilan información de secuencias en sus respectivas regiones, intercambian registros recién creados en sus respectivas bases de datos todos los días y realizan una actualización completa de la información de la base de datos cada dos o tres meses, garantizando así que se incluyan casi todas las secuencias conocidas de ácidos nucleicos y proteínas. La base de datos dbEST es parte de G enBank y contiene datos de secuencia de fragmentos de ADNc o EST y otra información relacionada.
Para gestionar datos EST repetidos y facilitar la extracción de información, NC BI estableció el sistema Unigene, que puede analizar automática y sistemáticamente secuencias de ADN que contienen secuencias EST en GenBank para formar grupos de secuencias no repetitivas de la misma fuente de genes, donde cada grupo representa un gene. NC BI tiene tres bibliotecas de un solo gen: humana, rata y ratón. A finales de 1999, había aproximadamente 83.000 grupos de secuencias formados por más de 15.000 tecnologías ecológicamente racionales en bibliotecas de genes individuales humanos [4]. G S DB (Genome Sequence Database) es una base de datos genómica creada y administrada por NCG R (Centro Nacional de Recursos Genómicos). A partir del otoño de 1999, G S DB ya no acepta datos presentados por laboratorios individuales y la propiedad de la base de datos se transfiere a G enBank. En la actualidad, G S DB también puede proporcionar el Proyecto Clave 3. de la Fundación Nacional de Ciencias Naturales de China (Proyecto No. 39930170) y el Plan Nacional Clave de Investigación y Desarrollo Básico (Proyecto No. G2000057001).
Siete
Cuatro
1
Comunicación Biotecnológica
LETRAS DE NO LOGÍA BIOTECNOLÓGICA Vol 12N. NO 2 de mayo de 2006 54 38 0
1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. Todos los derechos reservados.
Servicios de análisis y consulta de secuencias. ¿G DB (base de datos de genes G) es John? La base de datos del genoma humano de la Facultad de Medicina de la Universidad Johns Hopkins incluye todos los aspectos del genoma humano, como genes, clones, puntos de interrupción, marcadores citogenéticos, sitios frágiles, tecnologías ecológicamente racionales, repeticiones y contigs, así como el mapa del genoma humano, mutaciones genómicas, y más información como datos morfológicos y de frecuencia de alelos.
Se incluyen PIR (Protein Information Resource) y SWISS 2PROT.
Es la base de datos integral de información de secuencias de proteínas más utilizada debido a su descripción detallada, baja tasa de duplicación y amplias conexiones con bases de datos relacionadas. Swiss2proto se fundó en 1987 y actualmente está gestionado conjuntamente por E M BL y SI B (Instituto Suizo de Bioinformática). En octubre de 1999, 165438, Swiss2proto tenía aproximadamente 81.000 secuencias. Cada entrada de secuencia en SWISS 2PROT tiene referencias, datos de clasificación e información de anotaciones relacionadas, que incluye principalmente funciones de proteínas, modificaciones postraduccionales, dominios y sitios, estructuras secundarias y cuaternarias, y homología con otras proteínas, enfermedades relacionadas y variaciones de secuencia. Debido al crecimiento explosivo de las secuencias de ácidos nucleicos y la velocidad de anotación limitada de las bases de datos, EM BL y E MB L.
En 1996, SI B introdujo una base de datos complementaria a Swiss2proto, T REBM L, una base de datos generada por computadora en la que se escribió SWISS 2 proto.
Todas las secuencias de codificación (C DS), excepto las secuencias existentes, se traducen y anotan, por lo que la precisión de la anotación es inferior a la de SWISS 2PROT.
[5]
Actualmente existen en Internet muchos tipos de bases de datos de información biológica, que pueden calificarse de diversas. Además de las bases de datos integrales a gran escala mencionadas anteriormente, también existen muchas bases de datos en direcciones profesionales específicas, como ARN, enzimas, vectores, factores de transcripción, señales de traducción y bases de datos de varias especies. Debido al rápido aumento de las bases de datos bioinformáticas, han surgido bases de datos que recopilan catálogos de bases de datos bioinformáticas. Dbcat (bines alg o 2
Un algoritmo de predicción de todo el genoma para la función de las proteínas. Nature, 1999, 402: 83
13 Enright A J, Illopoulos I, K yrpides NC et al. Mapa de interacciones de proteínas
Un genoma completo basado en eventos de fusión genética.
Nature, 1999, 402: 86
14 Attwo ood TK, Croning M DR, Flower DR, etc. Print2S: Base de datos
Anteriormente conocida como printmaking. Nucleic Acids Research, 2000, 28: 22515 Contenido LC, Ailey B, Hubbard T JP, et al. SCOP: una base de datos de proteínas de clasificación estructural 2. Investigación de ácidos nucleicos, 2000, 28: 257
Henryk Thornton JM. PQS: Servidor de archivos de estructura cuaternaria de proteínas.
Trends Biochemistry, Science Citation Index, 1998, 23: 358
17 Guex N, Diemand A, Peitsch MC. Modelos de proteínas para todos los humanos. Tendencias
Biochemical Sciences, 1999, 24: 364
18 Bouck J, Wei Yu, G ibbs R et al. Base de datos del índice genético 2
Sí. de. Trends Genetics, 1999, 15: 159
(2000209225 recibido)
051? Biotechnology Communication Letter, Biotecnología No.: logy vol. 12n o 2 mayo 2006 5438
¥
5.9
La oferta VIP por tiempo limitado de Baidu Wenku ya está abierta, disfrute de 600 millones de contenido VIP.
Consíguelo ahora
Utiliza Internet para predecir la estructura y función de los productos proteicos de ADNc.
Uso de Internet 3 para predecir la estructura y función de productos proteicos de ADNc
Resumen de Wang Diping de la revisión de Tong
(Sección de Enseñanza e Investigación de Bioquímica y Biología Molecular , Centro de Ciencias de la Salud de la Universidad de Pekín, Beijing 100083)
Se espera que el Proyecto Genoma Humano esté completo dentro de dos o tres años y obtendremos muchos ADNc con secuencias conocidas pero funciones desconocidas. Este artículo presenta brevemente los métodos y herramientas comunes para utilizar recursos de información en Internet para analizar secuencias de ADNc y predecir la estructura y función de las proteínas que codifican.
Internet, ADNc, proteínas, predicción de estructuras y funciones.
Página 1
Productos proteicos del ADNc: predicción de su estructura y función mediante Internet
Wang Erping, ONG Erjun
(Pekín University Health Science Center, Beijing 100083, China)
La ingeniería genética humana se completará dentro de dos o tres años y los biólogos obtendrán muchas secuencias de ADNc con funciones desconocidas. Este artículo presenta algunos métodos y herramientas en Internet para analizar secuencias de ADNc y predecir la estructura y función de las proteínas que codifican.
Ampliar texto completo