La Red de Conocimientos Pedagógicos - Conocimientos históricos - ¿Qué es el análisis de conglomerados?

¿Qué es el análisis de conglomerados?

Las clases funcionan colocando los datos de destino en un pequeño número de grupos o "clústeres" relativamente homólogos. Para analizar los datos de expresión, (1) estandarice la variación de un conjunto de genes que se van a probar mediante una serie de pruebas y luego compare las covarianzas lineales por pares. (2) Agrupar muestras colocando genes con los espectros más estrechamente relacionados, por ejemplo, utilizando un método de agrupación jerárquico simple. Esta agrupación también se puede extender a cada muestra experimental, utilizando la correlación lineal total de un grupo de genes para la agrupación. (3) El análisis de escala multidimensional (MDS) es un método que muestra el grado aproximado de correlación entre muestras experimentales en una "distancia" euclidiana bidimensional. (4) Agrupación de métodos K-means, un método que minimiza la dispersión dentro de una "clase" mediante la redistribución repetida de los miembros de la clase.

Los métodos de agrupación tienen dos limitaciones importantes: en primer lugar, para que los resultados de la agrupación sean claros, se requieren datos bien separados. Casi todos los algoritmos existentes generan los mismos grupos a partir de clases de datos distintas y que no se superponen. Sin embargo, si las clases son difusas y se interpenetran, entonces los resultados de cada algoritmo serán algo diferentes. Como resultado, los límites de cada algoritmo no están claros, cada algoritmo de agrupamiento logra sus propios resultados óptimos y cada parte de los datos producirá una única pieza de información. Para explicar los diferentes resultados producidos por diferentes algoritmos sobre los mismos datos, se debe prestar atención a las diferentes formas de juzgar. Es difícil para los genetistas interpretar correctamente los resultados reales del contenido del grupo de cualquiera de los algoritmos (especialmente los límites). En última instancia, se necesitará credibilidad empírica para guiar la interpretación de los grupos a través de comparaciones de secuencias.

La segunda limitación surge de la correlación lineal. Todos los métodos de agrupación anteriores analizan únicamente relaciones simples uno a uno. Debido a que es solo una comparación lineal por pares, la cantidad de cálculo requerida para descubrir relaciones de tipos de expresión se reduce considerablemente, pero se ignoran las características multifactoriales y no lineales de los sistemas biológicos.

Desde un punto de vista estadístico, el análisis de conglomerados es un método de simplificación de datos mediante el modelado de datos. Los métodos tradicionales de análisis de agrupamiento estadístico incluyen agrupamiento sistemático, descomposición, unión, agrupamiento dinámico, agrupamiento de muestras ordenadas, agrupamiento superpuesto y agrupamiento difuso, etc. Se han agregado herramientas de análisis de conglomerados que utilizan k-means, k-medoid y otros algoritmos a muchos paquetes de software de análisis estadístico conocidos, como SPSS, SAS, etc.

Desde la perspectiva del aprendizaje automático, los clústeres equivalen a patrones ocultos. La agrupación en clústeres es un proceso de aprendizaje no supervisado que busca clústeres. A diferencia de la clasificación, el aprendizaje no supervisado no se basa en clases predefinidas o instancias de entrenamiento etiquetadas con clases, y requiere la determinación automática de etiquetas mediante el algoritmo de aprendizaje de agrupamiento, mientras que las instancias u objetos de datos del aprendizaje de clasificación tienen etiquetas de clase. La agrupación es un aprendizaje por observación, no un aprendizaje basado en ejemplos.

Desde la perspectiva de la aplicación práctica, el análisis de conglomerados es una de las principales tareas de la minería de datos. En lo que respecta a la función de minería de datos, la agrupación se puede utilizar como una herramienta independiente para obtener la distribución de datos, observar las características de cada grupo de datos y centrarse en un análisis más detallado de grupos específicos.

El análisis de conglomerados también se puede utilizar como paso de preprocesamiento para otras tareas de minería de datos (como clasificación, reglas de asociación).

El campo de la minería de datos estudia principalmente algoritmos de análisis de clústeres eficientes y prácticos para grandes bases de datos y almacenes de datos.

El análisis de clusters es un campo de investigación muy activo en la minería de datos y se han propuesto muchos algoritmos de clustering.

Estos algoritmos se pueden dividir en métodos de partición, métodos jerárquicos, métodos basados ​​en densidad, métodos basados ​​en cuadrículas y

métodos basados ​​en modelos.

1 Método de partición (PAM: método de partición) Primero cree k divisiones, k es el número de divisiones que se crearán y luego use un bucle

Tecnología de posicionamiento para dividir el objeto de uno; Muévase a otra partición para ayudar a mejorar la calidad de la partición.

Los métodos de partición típicos incluyen:

k-means, k-medoids, CLARA (Aplicación de agrupación GRANDE),

CLARANS (Aplicación de agrupación grande basada en búsqueda aleatoria). p>FCM

2 Método jerárquico Crea una jerarquía para descomponer un conjunto de datos determinado. Este método se puede dividir en dos modos de operación: de arriba hacia abajo (descomposición) y de abajo hacia arriba (fusión). Para compensar las deficiencias de la descomposición y la fusión, la fusión jerárquica a menudo se combina con otros métodos de agrupación, como el posicionamiento en bucle. Los métodos típicos de este tipo incluyen:

El primero es el método BIRCH (Reducción y agrupación iterativa equilibrada mediante jerarquías), que primero utiliza la estructura de árbol para dividir el conjunto de objetos y luego

;

Optimice estos clústeres utilizando otros métodos de agrupación.

El segundo es el método CURE (Clustering Usando REprisentatives), que utiliza un número fijo de objetos representativos para representar los grupos correspondientes y luego, a cada grupo se le asigna una cantidad específica

(; al centro de agrupamiento) para reducirse.

El tercero es el método ROCK, que utiliza las conexiones entre clústeres para fusionarlos.

El último CHEMALOEN construye un modelo dinámico durante la agrupación jerárquica.

3 Basado en el método de densidad, la agrupación de objetos se completa en función de la densidad. Crece continuamente grupos en función de la densidad alrededor de los objetos (como

DBSCAN). Los métodos típicos basados ​​en densidad incluyen:

DBSCAN (Agrupación espacial de aplicaciones con ruido basada en densidad): este algoritmo realiza la agrupación mediante el crecimiento continuo de regiones de densidad suficientemente alta que puede descubrir agrupaciones de formas arbitrarias a partir de bases de datos espaciales ruidosas; . Este método define un clúster

como un conjunto de conjuntos de puntos "conectados por densidad".

ÓPTICA (Puntos de ordenación para identificar la estructura de agrupación): no genera explícitamente un grupo

, pero calcula un orden de agrupación mejorado para el análisis de conglomerados interactivo automático. .

4 Según el método de cuadrícula, el espacio del objeto primero se divide en un número limitado de unidades para formar una estructura de cuadrícula y luego

la estructura de cuadrícula se utiliza para completar la agrupación.

STING (STatistical INformation Grid) es un método que utiliza la información estadística guardada en las celdas de la cuadrícula para realizar agrupaciones basadas en cuadrículas

.

CLIQUE (Clustering In QUEst) y Wave-Cluster son métodos que combinan métodos basados ​​en cuadrículas y basados ​​en densidad.

5 Enfoque basado en modelos, que asume un modelo para cada clúster y descubre datos que se ajustan al modelo correspondiente. Los métodos típicos

basados ​​en modelos incluyen:

Método estadístico COBWEB: es un método de agrupación de conceptos incremental simple y de uso común. Su objeto de entrada se describe utilizando pares de cantidades simbólicas (atributo-valor). Utilice la forma de un árbol de clasificación para crear

una agrupación jerárquica.

CLASSIT es otra versión de COBWEB. Puede realizar agrupaciones incrementales en atributos valorados continuamente

.

Guarda la distribución normal continua correspondiente (media y varianza) para cada atributo en cada nodo y utiliza un método de descripción de capacidad de clasificación mejorado, es decir, no calcula atributos discretos como COBWEB (Valor)

Suma; en cambio integra propiedades continuas. Sin embargo, el método CLASSIT también tiene problemas similares a COBWEB.

Por lo tanto, no son adecuados para agrupar bases de datos grandes.