La Red de Conocimientos Pedagógicos - Currículum vitae - Contenido de análisis básico de GWAS

Contenido de análisis básico de GWAS

Antes les di una breve introducción a GWAS en el análisis de cartas de estudiantes clínicos, incluidos algunos conceptos, principios y precauciones básicos (vaya a la izquierda ->; Análisis de GWAS en bioinformática clínica. Esta vez hablaré sobre GWAS básico). análisis de contenido e interpretación de resultados (estas son también mis notas de estudio personales en Biomark Cloud Classroom. Aquellos que estén interesados ​​en aprender pueden adquirir el curso "Curso de formación en bioinformática Bimax GWAS").

Además, los materiales de referencia y dibujos provienen de

Contenido de análisis básico de GWAS

1) Filtrar por porcentaje de entrada.

Generalmente, se excluyen los sitios con una tasa de eliminación de más de 20. Si la cantidad de datos es relativamente grande, se puede reducir a 50.

2) Filtrar por frecuencia de alelo

Si la frecuencia del segundo alelo es menor que 5, se puede relajar a 1 si la cantidad de datos es grande.

3) Filtrar múltiples alelos

Dependiendo de las necesidades del software, algunos programas no admiten múltiples alelos.

4) Filtrado del equilibrio de Hardy Weinberg

En los casos/controles humanos, los sitios que no cumplen con el equilibrio de Hardy Weinberg generalmente se filtran, los animales y las plantas no utilizan este filtro.

5) Eliminar fenotipos extremos

Cantidad mínima de marcadores saturados = tamaño del genoma/distancia de desintegración de LD

Cuanto mayor sea la densidad, mejor: la probabilidad de detectar funciones sitios Agregados; los sitios en el mismo bloque se autentican entre sí.

Los rangos ascendentes y descendentes de genes candidatos se pueden determinar en función de la distancia de desintegración de LD.

1) Propósito: Evaluar la estructura poblacional y las relaciones genéticas para determinar el modelo estadístico utilizado y obtener la matriz correspondiente.

2) Contenido de la evaluación (si la diferencia genética es demasiado grande, se debe eliminar y se debe conservar la que tenga alta similitud)

Estructura de la población: construir un árbol evolutivo (necesario )

La construcción del árbol de Nueva Jersey (mega) tiene pequeñas diferencias de secuencia dentro de la misma especie, pero grandes diferencias de secuencia. Diferentes especies construyen árboles ML y árboles bayesianos.

Análisis de estructura de grupo de biblioteca de modelos

Análisis de componentes principales

Relación: mapa de calor de coeficiente de similitud, distancia genética

3) Estructura de la población y las relaciones genéticas son los dos factores principales que conducen a resultados de asociación falsos positivos (en el curso, Xie Kun usó ejemplos para ilustrar el enorme impacto de la estructura de la población y las relaciones genéticas en los resultados, como el gen enano del maíz. Acerca de la asociación estructurada de Dwarf8 Lecciones de las ventajas y desventajas del mapeo)

1) Elegir el método estadístico correcto:

? Número de fracciones pequeñas: ¿prueba t simple o análisis de varianza

? Rasgos de calidad de casos/controles: prueba de chi-cuadrado, prueba OR, regresión logística.

? Rasgos cuantitativos: generalmente, se utilizan varios modelos (GLM/MLM/Amax/Fast-LMM) para el análisis simultáneo.

2) ¿Determinar el umbral de significancia

? Corrección de Bonferroni

3) Interpretación de resultados

Visualización: mapa de Manhattan

? Gráfico cuantil (si la comparación de la P predicha aleatoriamente y la P calculada real es anormal)

4) Si el resultado no es significativo:

Posibles razones y soluciones:

Encuesta de rasgos inexactos: proporciona fenotipos precisos

Los personajes se ven muy afectados por el entorno, repetido durante muchos años

Los rasgos están controlados por múltiples loci de efectos pequeños: aumente el tamaño de la muestra

La capacidad de prueba del modelo no es suficiente: cambie a un modelo adecuado

La densidad de marcadores no es suficiente: la cantidad de marcadores es mayor

Si realmente es así no es factible, ignórelo Umbral, seleccione áreas con picos obvios para verificación.

Después de obtener sitios importantes:

1) Realice un análisis de bloques LD para determinar el rango de intervalos candidatos.

2) Genes con anotación funcional (nr, GO, KEGG, etc.).

3) Si el sitio significativo está ubicado en la región codificante y si se trata de una mutación no sinónima.

4) Análisis de homología, combinado con las funciones de genes homólogos correspondientes en otras especies, para adivinar la función de genes candidatos.

RT-PCR, expresión de proteínas, verificación funcional de transgenes, ARN de interferencia.

Ejemplo de artículo con puntuación alta: OSS PL 13 Control del tamaño de grano en arroz cultivado.