Algoritmo de corte de variables de celda única basado en el marco bayesiano
El empalme alternativo significa que un gen produce diferentes transcripciones debido a diferentes métodos de empalme. El ARN precursor para la expresión génica normal requiere una serie de pasos, como la eliminación de intrones y el empalme de exones, para finalmente formar ARNm. Los exones del mismo gen se empalman selectivamente, lo que da como resultado transcripciones diferentes.
Precisamente debido a la existencia de splicing alternativo, un mismo gen expresa diferentes transcritos, lo que también es una razón importante para la diversidad funcional de las proteínas. Por lo tanto, diferentes transcripciones del mismo gen conducen directamente a diferentes proteínas traducidas y diferentes funciones. Conduce indirectamente a una variedad de rasgos biológicos, evolucionando así además de la diversidad biológica.
Por otro lado, algunos genes de una misma especie tienen diferentes patrones de empalme alternativos entre machos y hembras. En estudios de especies cuyos sexos son difíciles de distinguir por su apariencia, el sexo puede determinarse mediante la esquila diferencial de genes entre machos y hembras.
Para diferentes secuenciaciones, existen diferentes software para reconocer empalmes alternativos. En lotes RNA-seq, el software comúnmente utilizado para identificar empalmes alternativos es: MISO, rMAT, MAT, etc.
En secuenciación de ARN unicelular, el software comúnmente utilizado para identificar empalmes alternativos incluye BRIE, estabilizadores, etc. La mayoría del software actual para identificar el corte variable se basa en el marco del modelo bayesiano (los detalles de diferentes software pueden variar). Entonces, veamos los principios generales del marco bayesiano.
El factor Bayes se interpreta como qué parámetro es más probable que se utilice para el mismo conjunto de observaciones (datos).
Como se mencionó anteriormente, la mayor parte del software para detectar eventos de empalme alternativos (incluidas celdas individuales) se basa en un marco bayesiano.
Se divide principalmente en los siguientes pasos:
A continuación, lo veremos paso a paso:
El nivel de inclusión del exón es el mismo que el Nivel de inclusión de exones. Una medida de la proporción de isotipos con respecto al total de tipos ISO (incluidas las isoformas inclusivas y saltantes).
Suponiendo que las lecturas de secuenciación siguen una distribución de Bernoulli, la estimación de máxima probabilidad de los niveles de inclusión de exones se puede expresar mediante la siguiente fórmula:
Comparación de patrones de empalme alternativos entre dos muestras Para la diferencia, definimos el nivel de inclusión de exón de la muestra 1 como ψ1 y el nivel de inclusión de exón de la muestra 2 como ψ2.
Así que supongamos la hipótesis nula H0: |ψ1-ψ2|≤c; la hipótesis alternativa es h1: |ψ1-ψ2|, donde c es el umbral que establecemos.
De acuerdo con la sección anterior, se construye una distribución uniforme previa multivariada utilizando todos los niveles de inclusión de exones empalmados alternativamente, que satisface la siguiente figura:
Por lo tanto, la distribución multivariada obtenida La anterior la distribución uniforme satisface la siguiente relación:
Para la distribución P (D | ψ1-ψ2), el software cree que se cumple la distribución de Bernoulli y la probabilidad de la distribución de Bernoulli es ψ.
Se puede entender que para un determinado gen A, el software obtendrá un valor de ψ después del cálculo. Supongamos que hay 100 lecturas que coinciden con el gen A. Cada lectura tiene dos posibilidades, una es una isoforma que contiene un exón y la otra es una isoforma saltadora, con probabilidad ψ. Satisface exactamente el experimento de Bernoulli, es decir, haciendo 100 experimentos repetidos, hay dos posibilidades, una de las cuales tiene probabilidad ψ. Por lo tanto, puede verse como una distribución de probabilidad de Bernoulli de isómeros que contienen exones o isómeros que se saltan con una probabilidad conocida de ψ.
Entonces Ii1 | ψi1 representa el valor ψi1 de un gen dado, y una de las lecturas es el valor de probabilidad del exón que contiene la isoforma Ii2 | , una de las lecturas es el valor de probabilidad de la isoforma que contiene el exón.
Por lo tanto, la probabilidad a priori se expresa como P(ψ), que es universal. Entonces, si doy un conjunto arbitrario de datos (denominado D), aquí,
datos, D es un conjunto de eventos de corte variables:
Porque P(D | ψ1 ) y P(D |ψ2) no pueden calcular bien P (D |ψ1-9682), y P (D |ψ1-9682) no puede juzgar algo directamente.
La distribución de probabilidad posterior P (ψ1-ψ2 | D) puede determinar mejor si un gen tiene corte de variable diferencial. Por lo tanto, de acuerdo con la teoría bayesiana, es necesario encontrar la distribución de probabilidad posterior P (ψ1-ψ2 | D).
Para un determinado gen, nuestro propósito es calcular la expectativa (media) de P(ψ | D) y la ψ media correspondiente a través de la distribución previa y la función de probabilidad del gen:
A continuación, para facilitar el cálculo y el juicio, necesitamos calcular la probabilidad posterior P (ψ1 | D) y la expectativa de P (ψ2 | D) para calcular P (ψ1-ψ2 | D) para el juicio. Entonces la siguiente pregunta es cómo calcular P(ψ1 | D) y P(ψ2 | D).
Luego necesito calcular la expectativa de la probabilidad posterior, es decir, la expectativa de P(ψ1 | D) y P(ψ2 | D), para poder determinar si existe una cizalla variable. evento en este conjunto de datos. Entonces, en general, nos resulta difícil resolver las expectativas de P(ψ1|D) y P(ψ2|D):
Algoritmo Mcmc-MH (interrupción):
Por fórmula:
La distribución P(ψ) puede ajustarse a los valores ψ de todos los genes.
Entonces ψ obedece a la distribución de P(D | ψ), la muestra está en P(D | ψ)P(ψ), y el parámetro ψ de los dos estados de muestreo debe satisfacer la siguiente fórmula:
Entonces, la clave para encontrar la distribución de probabilidad posterior P(ψ | D) es encontrar el parámetro ψ. De acuerdo con la relación proporcional mencionada anteriormente, podemos:
Tomando DNMT3B como ejemplo, los resultados del muestreo son los siguientes:
Por lo tanto, a través de estas dos distribuciones de probabilidad y las propiedades operativas de la distribución de probabilidad, podemos calcular las expectativas de las dos distribuciones de probabilidad posteriores P (ψ1 | D) y P (ψ2 | D) en las mismas condiciones. Por lo tanto, dado el umbral c correspondiente, podemos calcular la probabilidad de que |ψ1-ψ2| ≤ c de un gen en función del valor de probabilidad posterior, dado el valor de conteo de I y el valor de conteo de S., determinando así si un gen tiene una variable diferencial de corte.
Vuelva a la imagen siguiente:
Para un gen determinado, la D aquí se refiere a un gen determinado (o en el caso de una isoforma empalmada alternativamente de un gen determinado) . Compare las siguientes dimensiones:
Por ejemplo, si el software realiza un cálculo de corte variable en 50.000 genes, habrá 50.000 ψ1-ψ2. El software determina el umbral c haciendo un histograma de ψ 1-9682; Primero, el software cree que la mayoría de los genes no tienen una variable diferencial de corte, por lo que solo una pequeña parte de los genes tiene una variable diferencial de corte, por lo que ψ1-ψ2 correspondiente a esa pequeña parte en el histograma de distribución de frecuencia es el umbral c.
La parte sombreada de la figura es la pequeña parte del gen de empalme diferencialmente variable, y la línea de puntos representa el umbral c.
Decimos que el ψ de P(gen | ψ) sólo puede considerarse como una muestra del ψ total, y no es necesariamente el ψ óptimo. Y se desconoce la distribución ψ de la población, por lo que se utiliza MCMC para estimar el valor ψ de la población (ψ óptimo), obteniendo así P (ψ | gen). Esta idea puede entenderse por analogía con una función binaria, en la que una variable es fija y la otra variable se discute. Cuando se da ψ, la distribución de genes será diferente de ψ, por lo que BRIE es un software de análisis de corte variable unicelular basado en modelos bayesianos. El objetivo principal es determinar los eventos de corte diferenciales entre las dos poblaciones de células. El software de uso común es BRIE, su uso básico:
Materiales de referencia:
[1]. Análisis cuantitativo del empalme del transcriptoma unicelular [J]. , 2017, 18(1).
[2]. Wang Ailing, Wang Aiting, et al. Análisis y diseño de experimentos de secuenciación de ARN [J Nature Methods, 2010, 7(12): 1009.
[3].[2] Shi Hao, Wang Pingjie, Chen Jianhua, et al. Un marco bayesiano para la detección flexible de empalme alternativo diferencial en datos de RNA-Seq [J]. (8): e61.
[4]. Yuanhua H, Guido S. Modelo estadístico de dinámica de empalme de isoformas en datos de series temporales de RNA-seq [J].
[5].Trapnell C, Williams B A, Pertea G, et al. El ensamblaje de transcripciones y la cuantificación mediante RNA-Seq revelan transcripciones sin anotaciones y cambio de isoformas durante la diferenciación celular [J]. (5): 511-515.
[6]. Inferencia bayesiana: muestreo de Gibbs
[7]. Inferencia bayesiana: muestreo de Metropolis-Hastings
[8].Métodos computacionales para análisis de datos celulares
[9]. Análisis de secuencia de ARN mejorado con aprendizaje profundo del empalme de transcripciones
[10].MCMC y estimación bayesiana