La Red de Conocimientos Pedagógicos - Conocimientos universitarios - Resumen de los métodos de análisis conjunto para el transcriptoma espacial 10X y datos de células individuales 10X

Resumen de los métodos de análisis conjunto para el transcriptoma espacial 10X y datos de células individuales 10X

Esta es una función del kit de reparación. He compartido el uso específico antes. El artículo aquí utiliza la función de puntuación AddModuleScore del paquete Seurat. Puedes echar un vistazo. El artículo que utiliza este método para el análisis conjunto de células individuales y espacio es el artículo "Análisis multimodal de la composición y estructura espacial del carcinoma de células escamosas humanas" publicado en Cell. En el análisis multimodal de la composición y estructura espacial del carcinoma de células escamosas humano (transcriptoma espacial y células individuales), resumamos brevemente las ideas de la unión de la literatura.

Los datos del transcriptoma espacial se agrupan y los puntos con expresión similar se agruparán en una categoría.

Este método se utiliza en la literatura sobre análisis espaciotemporal del desarrollo intencional humano con resolución unicelular, publicada en Cell. El artículo estudia principalmente el desarrollo intestinal. Al utilizar este enfoque de análisis combinado, observamos principalmente los cambios en los tipos de células durante el desarrollo intestinal.

Este método fue publicado en un artículo en Nature Biotechnology.

Esto requiere una sólida formación, especialmente para muestras irregulares, y una sólida formación biológica como soporte para la clasificación, y el primer paso es difícil.

No diré mucho sobre el algoritmo aquí. Puedes consultar los artículos que compartí antes. Este método se utilizará con menos frecuencia.

He compartido este método antes. El artículo está en Cell 2Location, un método de análisis conjunto de celdas individuales y espacio a 10X. Este enfoque es similar a los métodos anteriores de deconvolución del transcriptoma general, y este artículo mapea de manera integral la estructura celular del tejido mediante la integración de transcriptomas unicelulares y espaciales. Echemos un vistazo breve al proceso:

Cell2location mapea la distribución espacial de los tipos de células mediante la integración de RNAseq unicelular (scRNA-seq) y datos transcriptómicos espaciales multicelulares de un tejido determinado.

Desde el esquema, se utiliza una sola unidad como referencia para la posición espacial del tipo de unidad coincidente, y esta orientación no se puede cambiar.

Primero, el primer paso es utilizar el modelo para estimar la firma de expresión del tipo de celda a partir de datos de una sola celda. Por ejemplo, utilizando agrupamiento convencional para identificar tipos de células y subpoblaciones, y luego estimando el perfil de expresión génica agrupado promedio (como se muestra en la figura siguiente).

Necesita análisis paso a paso. Cell2location implementa este paso de estimación basándose en una regresión binomial negativa, por lo que los datos se pueden combinar de manera confiable entre tecnologías y lotes. (Matemáticas otra vez).

Paso 2: Las ubicaciones de la celda 2 utilizan señales de referencia para contar los ARNm en los datos transcriptómicos espaciales para estimar la abundancia relativa y absoluta de cada tipo de célula en cada ubicación espacial. (datos descompuestos).

Cell2location se implementa como un modelo bayesiano jerárquico interpretable, que (1) proporciona una forma basada en principios para resolver la incertidumbre del modelo, (2) resuelve la dependencia lineal de la abundancia del tipo de célula, (3) simula diferencias de sensibilidad de medición entre diferentes técnicas, y (4) tener en cuenta la variación inexplicable/residual mediante el empleo de modelos de error flexibles basados ​​en el recuento. Finalmente, el posicionamiento de la unidad 2 es computacionalmente eficiente debido a la inferencia variacional aproximada y la aceleración de la GPU. (Compartiremos y analizaremos estos métodos en el próximo artículo).

Para validar la ubicación de la celda 2, inicialmente utilizamos datos simulados para reflejar diferentes abundancias de células y patrones espaciales. (Los autores simularon datos transcriptómicos espaciales).

Lo que hay que tener en cuenta aquí es la divergencia de Jensen-Shannon, que es la divergencia J-S. El contenido matemático se explica a continuación.

En resumen, simulamos un conjunto de datos transcriptómicos espaciales con 2000 posiciones basadas en anotaciones de tipos de células de referencia obtenidas de un conjunto de datos de referencia snRNA-seq de cerebro de ratón que incluye 46 tipos de células; se obtienen perfiles de expresión génica multicelular para cada ubicación. combinando células extraídas de diferentes tipos de células de referencia, utilizando uno de los cuatro patrones de abundancia de células con densidad variable y distribución dispersa para simular los patrones observados en datos reales. Luego use cell2location para analizar y obtener los resultados en la imagen. Básicamente existe una alta correlación, pero aquí hay un problema, que es que los datos del transcriptoma espacial simulado se fusionan a partir de datos unicelulares.

Una vez que los datos reales del transcriptoma espacial contienen algunos tipos de células que no existen en células individuales (como barreras técnicas, los resultados de la captura de neutrófilos de células individuales 10 veces son deficientes), es probable que los resultados predichos sean incorrectos. Vea si el autor menciona este tema más adelante.

A continuación, comparamos la localización de la célula 2 con métodos alternativos propuestos recientemente para inferir la abundancia relativa del tipo de célula a partir de transcriptomas espaciales. Según los resultados de la misma literatura, mi propio software funcionó mejor. Y el modelo también produce estimaciones más precisas de la abundancia relativa de tipos de células.

A lo que hay que prestar atención aquí es a la curva PR. Estos problemas matemáticos se explican a continuación.

cell2location proporciona una estimación no sólo de las fracciones relativas de tipos de células, sino también de la abundancia absoluta de tipos de células, que puede interpretarse como el número de células que expresan un marcador de tipo de célula de referencia en una ubicación determinada, que es También es muy consistente con la situación real de la simulación (esto también es muy importante).

En resumen, los resultados respaldan que la localización de la celda 2 puede estimar con precisión la base celular de diferentes tipos de células.

Luego, el artículo utiliza dos ejemplos para resolver el problema del análisis conjunto utilizando esta idea suave. No hablaré aquí de casos específicos. Necesitamos saber más sobre los principios del algoritmo.

Primero resuelve la divergencia J-S y la curva PR.

La divergencia KL también se denomina entropía relativa, divergencia de información y ganancia de información. La divergencia KL es una medida de la asimetría en la diferencia entre dos distribuciones de probabilidad P y Q. Se requiere la divergencia KL para codificar la media de muestras de P utilizando codificación basada en Q. Una medida del número de bits adicionales. Por lo general, p representa la distribución real de los datos y q representa la distribución teórica, distribución modelo o distribución aproximada de los datos.

La definición es la siguiente:

Debido a que la función logarítmica es convexa, el valor de la divergencia KL no es negativo.

Puedes obtener más información comparando la curva PR y la curva ROC. Puede consultar mi explicación de las curvas ROC para obtener más información sobre el papel de R-bag AUcell en el análisis de células individuales.

Y curva PR

Una breve introducción al modelo

Para obtener la derivación completa del modelo cell2location, consulte los Métodos de cálculo complementarios. En pocas palabras, ¿cell2location es un modelo bayesiano que estima la densidad celular absoluta de un tipo de célula descomponiendo los recuentos de ARNm? s, g para cada gen? = {1, .. , ?}¿Lugar? = {1, .. ,?Para datos de 10X Visium, la matriz puede ser compatible directamente con el software 10X space ranger e importarse al formato de datos utilizado en el popular paquete de Python scanpy (scanpy se puede utilizar para leer datos de análisis 10X y Suerat también se puede utilizar para análisis). d,s,G debe filtrarse en un conjunto de genes expresados ​​en la referencia de célula única G,f. El tratamiento aquí es que cuando una sola célula se asigna a un transcriptoma espacial, los genes expresados ​​son los mismos. El modelo gráfico de cell2location es el siguiente:

Supongamos que G = {g f, g}, que representa la matriz F×G de las características del tipo de celda de referencia, que consta de F = {1,...,F } perfil de expresión génica G f,: para g = {1,...,G} genes, representa la expresión promedio de cada gen en cada tipo de célula en el espacio de recuento de ARNm lineal (espacio no logarítmico). Esta matriz es necesaria para proporcionar la ubicación de la celda 2 y puede estimarse a partir de perfiles de scRNA-seq. Aquí podemos ver que la expresión genética para cada tipo de célula se promedia para representar ese tipo de célula. La celda 2 posiciona los elementos de d como una distribución binomial negativa. Aquí hablaremos un poco sobre la distribución binomial negativa.

La distribución binomial negativa es una distribución de probabilidad discreta en estadística. Una distribución binomial negativa satisface las siguientes condiciones: el experimento contiene una serie de experimentos independientes, cada experimento tiene dos resultados, éxito y fracaso, la probabilidad de éxito es constante, el experimento continúa r veces sin éxito y r es un entero positivo . Puede consultar la distribución binomial negativa en la Enciclopedia Baidu, pero de ahora en adelante es solo un trasfondo e implica matemáticas muy profundas. No sé matemáticas, pero no estoy orgulloso de ellas, así que espero que algunos expertos en matemáticas puedan compartir el contenido.

Finalmente se muestran los resultados del análisis.

Este enfoque se encuentra actualmente en sus primeras etapas y requiere más validación.

Este método también es un método de solución integral de volumen no negativo y es un paquete R. Actualmente no se han citado los artículos con puntuaciones más altas, pero el método no es malo. Para el algoritmo de foco, puede ver foco y foco_github. El algoritmo no se presentará aquí, como se muestra en la figura:

Por ejemplo, no presentaremos el método de análisis conjunto de scanpy I. Espero que sea de ayuda para todos.

Nueva York está tres horas por delante de California, pero eso no significa que California sea más lenta

Camerún está seis horas por delante de Nueva York, pero eso no significa que Nueva York esté Más lento.

Algunas personas se graduaron de la universidad a los 22 años, pero esperaron cinco años para encontrar un trabajo.

Alguien se convirtió en director ejecutivo a los 25 años y murió a los 50.

Alguien se convirtió en director ejecutivo a los 50 años, pero vivió hasta los 90.

Una persona sigue soltera,

mientras que otra está casada y tiene hijos.

Por supuesto, cada uno en este mundo trabaja según su propia zona horaria.

Las personas que te rodean pueden parecer más avanzadas que tú.

Eso está totalmente bien. Algunos están detrás de ti.

Cada uno corre su propia carrera en su propia zona horaria.

No les envidies ni te rías de ellos.

Ellos están en su zona horaria, tú estás en la tuya.

La vida se trata de esperar el momento adecuado para reaccionar.

Así que relájate.

No llegas tarde

No llegas temprano

Llegas a tiempo y dentro de tu zona horaria.

Cada uno tiene un examen diferente, que representa diferentes preguntas.

Cada uno tiene diferentes tareas, lo que significa diferentes objetivos en la vida.

Así que concéntrate en tu propio trabajo, tus tareas y tu propósito.

No copie y pegue ni robe respuestas o fallará.

Tus sueños y alucinaciones son válidos. Tómate tu tiempo y haz lo mejor que puedas.

Como un colibrí. Incluso cuando los poderosos leones y tigres lo subestiman, él sigue haciendo lo que puede, donde está, tal como es, con lo poco que tiene.

Estás bien tal como eres. Los pequeños trabajos que haces hoy pueden parecer insignificantes, pero apuesto a que algún día verás el panorama general.

¡No llegas tarde! No llegaste temprano.