El principio de MACS
La distribución de Poisson es una de las distribuciones discretas importantes en estadística y probabilidad. La distribución de Poisson representa el número de eventos que ocurren en un determinado tiempo o espacio, como el número de eventos que una determinada instalación de servicio. recibe en un período de tiempo determinado, el número de solicitudes de servicio, el número de mutaciones en las secuencias de ADN, el número de personas que esperan en las paradas de autobús. Según el artículo de MACS, la distribución de lectura de todo el genoma en el experimento Chip-Seq se ajusta a la distribución de Poisson.
La distribución de probabilidad de la distribución de Poisson es
donde e representa una constante natural y ? es la tasa de ocurrencia promedio de eventos aleatorios por unidad de tiempo (o unidad de área), como por ejemplo. en un determinado El número de solicitudes recibidas por una determinada instalación de servicio durante el período es 5.
Además, la distribución de Poisson en realidad tiene un solo parámetro, a saber, ?, y su varianza y expectativa también son ?. Al mismo tiempo, a medida que ? aumenta, la distribución de la imagen tenderá a ser simétrica.
Materiales de referencia
La relación entre distribución binomial, distribución de Poisson y distribución normal
Distribución de Poisson y distribución exponencial: tutorial de 10 minutos
wiki_Distribución de Poisson
El proceso principal de Chip-Seq es: entrecruzamiento - fragmentación ultrasónica - identificación específica - secuenciación. Entonces, los fragmentos que secuenciamos son los fragmentos que rodean nuestros sitios de unión de factores de transcripción. Una cosa a tener en cuenta es que el software MACS apareció en 2008. En ese momento, la longitud de lectura de la secuenciación era muy corta, alrededor de 50 pb, y se trataba principalmente de una secuenciación de un solo extremo, que no reflejaba realmente la longitud de la proteína del ADN. fragmento de unión. Por lo tanto, si utilizamos los 50 pb medidos para acumular el número de lecturas, inevitablemente habrá una cierta desviación de la verdadera posición de enlace. De hecho, las lecturas cortas secuenciadas formarán picos dobles en ambos lados de la posición de unión verdadera, como se muestra en la Figura A a continuación. Esta es también la base teórica para la construcción del modelo bimodal MACS.
Cabe mencionar que los sitios de unión de proteínas como factores de transcripción y ADN son relativamente estrechos, por lo que la construcción del modelo bimodal es más razonable. Pero como se muestra en la Figura B, algunas proteínas y ADN producirán un área de unión más amplia (como algunas modificaciones de histonas), y el doble pico no es tan obvio en este momento.
Para medir el tamaño real del fragmento de secuenciación, d, MACS utilizará aproximadamente 2 veces la longitud del fragmento de sonicación como ventana para identificar la región de enriquecimiento preliminar. Para evitar la influencia de regiones repetidas o regiones extremadamente enriquecidas causadas por PCR, MACS seleccionará aleatoriamente 1000 regiones como regiones de construcción de picos modelo. El enriquecimiento de lectura de estas regiones es de 10 a 30 veces mayor que el fondo genómico. Para el pico del modelo en cada región, MACS separará las lecturas que se comparan con las cadenas positivas y negativas y luego calculará las posiciones de estas lecturas respectivamente. Por lo tanto, los picos del modelo en las cadenas positivas y negativas en esta área se construyen respectivamente, y la distancia entre los vértices de los picos del modelo en las cadenas positivas y negativas se registra como d. Una vez determinada d, todas las lecturas se desplazarán una distancia de d/2 en la dirección 3' para simular mejor el sitio de unión proteína-ADN.
Basándose en las lecturas ajustadas previamente, MACS buscará regiones significativamente enriquecidas en una ventana de longitud 2D en todo el genoma. Las ventanas superpuestas se fusionarán en un área candidata. Debido a que hay muchos factores que afectan el grado de enriquecimiento de lectura en diferentes rangos, MACS utiliza un parámetro dinámico para modelar la distribución de Poisson del enriquecimiento del número de lecturas. Es decir, MACS no utiliza una ?, sino una ? que cambia en diferentes áreas. El valor del parámetro dinámico se define como
? proviene del cálculo de todo el genoma, ? proviene de la región correspondiente en el control y el ? restante proviene del control, centrado en la región candidata obtenida. 1k, 5k, cálculo de área dentro del rango de 10k.
Vea la imagen a continuación.
Si el control no está presente, el valor local solo se calcula en la muestra de Chip, y la región y los valores 1k también se descartarán. Al mismo tiempo, si las profundidades de secuenciación de Chip-Seq y las muestras de control son diferentes, MACS escalará las muestras con una profundidad de secuenciación más profunda de forma predeterminada.
Basándonos en el modelo de distribución de Poisson, podemos calcular el valor p con una prueba de una cola. MACS tiene por defecto p=1 x 10-5 como umbral.
No entendí el reemplazo del Chip y el control utilizado por MACS aquí para verificar el valor FDR. Sin embargo, MACS2 ya utiliza el método Benjamini-Hochberg, que es relativamente fácil de entender.
Referencias:
Evaluación del rendimiento del algoritmo en la detección de picos de ChIP-Seq
Análisis basado en modelos de ChIP-Seq (MACS)
Identificación del enriquecimiento de ChIP-seq usando MACS
Curso-de-análisis-de-datos-NGS-en-profundidad
-f/--formato FORMATO
Aceptable Varios formatos parámetros, AUTO se utiliza de forma predeterminada para detectar el formato. Sin embargo, no puede detectar el formato "BAMPE" o "BEDPE", que es el formato de secuenciación de extremos emparejados. Por lo tanto, cuando sus datos son datos de secuenciación de extremos emparejados, debe utilizar los parámetros BAMPE o BEDPE. Cuando lo configura en un parámetro de doble extremo, MACS2 omitirá el paso de modelar y calcular d y, en su lugar, utilizará directamente el tamaño de inserción del fragmento para construir la pila.
--extsize
Si usa este parámetro, MACS usará el valor que establezca para completar las lecturas de 5'-3' hasta el valor que especifique. Este parámetro solo se puede usar cuando el parámetro --nomodel está configurado o el modelado MACS falla y --fix-bimodal está activado.
--shift
El parámetro shift se ejecutará antes que el parámetro extsize. Si el valor que establece es positivo, las lecturas se compensarán de 5'-3', y si el valor es negativo, las lecturas se compensarán de 3'-5'. Cuando el formato es BAMPE o BEDPE, no se pueden configurar los parámetros.
--broad
relajará el umbral de corte y luego combinará áreas adyacentes para formar un área de pico más amplia. Junto con el parámetro de corte amplio, el parámetro de corte amplio tiene por defecto el parámetro de valor q, que es 0,1.
Curiosamente, si el valor después del cambio es positivo, las lecturas de las cadenas positivas y negativas se desplazarán hacia el centro. Si el valor después del cambio es negativo, las lecturas de las cadenas positivas y negativas se moverán. lejos del centro respectivamente, es decir, las lecturas positivas de los hilos van hacia la izquierda, las lecturas negativas van hacia la derecha.
Dé un ejemplo:
Materiales de referencia:
MACS_github
google_group
Cómo usar MACS para picos llamando