La Red de Conocimientos Pedagógicos - Aprendizaje de redacción de artículos/tesis - ¿Qué es un árbol de decisión?

¿Qué es un árbol de decisión?

Registro de notas de Xiaobai sobre su viaje de autoestudio. . .

Referencia:

Árbol de decisión (árbol de clasificación, árbol de regresión)

Árbol de decisión: Las imágenes de este blog son realmente hermosas y fáciles de entender. Jaja

Explicación detallada del árbol de decisión

El árbol de decisión es un algoritmo de aprendizaje supervisado comúnmente utilizado para clasificación y regresión. Este artículo solo analiza cuestiones de clasificación.

El modelo de árbol de decisión es una estructura de árbol utilizada para clasificación y regresión. Un árbol de decisión consta de nodos y aristas dirigidas. Generalmente, un árbol de decisión contiene un nodo raíz, varios nodos internos y varios nodos hoja. El proceso de toma de decisiones del árbol de decisión debe comenzar desde el nodo raíz del árbol de decisión. Los datos que se van a probar se comparan con los nodos de características en el árbol de decisión y se selecciona la siguiente rama de comparación de acuerdo con los resultados de la comparación. el nodo hoja se utiliza como resultado de la decisión final.

En resumen, un árbol de decisión es un modelo de clasificación múltiple que utiliza un modelo de árbol para tomar decisiones.

Para encontrar las características de partición óptimas, primero debemos comprender cierta información. teoría:

Pureza:

Puede entender el proceso de construcción del árbol de decisión como el proceso de encontrar particiones puras. Matemáticamente, podemos usar la pureza para expresarla. Otra forma de explicar la pureza es minimizar la divergencia de la variable objetivo

Entropía de la información: representa la incertidumbre de la información

En teoría de la información, existe incertidumbre en la probabilidad de ocurrencia de eventos discretos aleatorios. Para medir la incertidumbre de esta información, Shannon, el padre de la informática, introdujo el concepto de entropía de la información.

Cuando la incertidumbre es mayor, mayor es la cantidad de información que contiene, y la entropía de la información es mayor. más alto es.

Cuanto mayor es la entropía de la información, menor es la pureza. Cuando todas las muestras del conjunto se mezclan uniformemente, la entropía de la información es la mayor y la pureza la más baja

Hay tres indicadores clásicos de "impureza", a saber, ganancia de información (algoritmo ID3) y tasa de ganancia de información. (algoritmo C4.5) e índice Gini (algoritmo Cart)

Ganancia de información:

La ganancia de información significa que la partición puede provocar un aumento en la pureza y una disminución en la entropía de la información. Su fórmula de cálculo es la entropía de información del nodo principal menos la entropía de información de todos los nodos secundarios.

Tasa de ganancia de información

Tasa de ganancia de información = ganancia de información/entropía de atributo

Índice de Gini

Índice de Gini (impureza de Gini): indica la probabilidad de que una muestra seleccionada al azar en el conjunto de muestras esté clasificada incorrectamente.

Es decir, índice de Gini (impureza de Gini) = probabilidad de que se seleccione una muestra * probabilidad de que una muestra se clasifique erróneamente

Las propiedades del coeficiente de Gini son las mismas que las de la entropía de la información: medir la incertidumbre de las variables aleatorias El tamaño del grado;

Cuanto mayor G, mayor es la incertidumbre de los datos;

Cuanto menor G, menor es la incertidumbre de los datos;

G = 0, todas las muestras del conjunto de datos son de la misma categoría

Referencia detallada: Aprendizaje automático - Índice de Gini

El algoritmo ID3 se basa en Navaja de Occam (use menos, también puede hacer las cosas bien): cuanto más pequeño sea el árbol de decisión, mejor será que el árbol de decisión más grande

El núcleo del algoritmo ID3 es seleccionar y dividir cada nodo del árbol de decisión basado en las características obtenidas de información y luego construir recursivamente un árbol de decisión. El algoritmo utiliza una búsqueda codiciosa de arriba hacia abajo para atravesar el espacio de posibles árboles de decisión.

Métodos específicos:

Limitaciones de ID3:

C4.5 es similar a ID3, pero su característica más importante es que supera el énfasis de ID3 en el número de Características Desventaja: La tasa de ganancia de información se introduce como criterio de clasificación.

La implementación de C4.5 se basa en la mejora de ID3:

La tasa de ganancia de información tiene preferencia por características con menos valores posibles (cuanto menor sea el denominador, mayor mayor que el total), por lo que C4 .5 En lugar de dividir directamente por las características con la mayor tasa de ganancia, se utiliza un método heurístico: primero encuentre características con una ganancia de información mayor que el promedio entre las características de división candidatas, y luego seleccione la que tiene la tasa de ganancia más alta.

Limitaciones de C4.5:

Las ramas y escalas del árbol de decisión generadas por ID3 y C4.5 son relativamente grandes. La dicotomía del algoritmo CART puede simplificar la escala de la decisión. árbol y mejorar la eficiencia de generación de los árboles de decisión.

CART (classificationandregressiontree), algoritmo de árbol de clasificación y regresión, se puede utilizar tanto para clasificación como para regresión. En esta parte, primero nos centraremos en la generación de su árbol de clasificación. A diferencia de ID3 y C4.5, CART supone que el árbol de decisión es un árbol binario. Los valores de las características del nodo interno son "sí" y "no". la rama derecha es el valor "no". Un árbol de decisión de este tipo equivale a dividir recursivamente cada característica y dividir el espacio de entrada (es decir, el espacio de características) en un número finito de unidades.

El árbol de clasificación de CART utiliza el índice de Gini para seleccionar el punto de división óptimo de la característica óptima. El proceso específico es el siguiente.

La poda es adelgazar el árbol de decisión. Este paso es, sin demasiado juicio, también puede obtener buenos resultados. El motivo de esto es evitar que se produzca un "sobreajuste".

Sobreajuste: se refiere a que los resultados del entrenamiento del modelo son "demasiado buenos", por lo que en el proceso de aplicación real habrá situaciones "rígidas" que provocarán errores de clasificación.

Subadaptación: se refiere a resultados de entrenamiento insatisfactorios del modelo.

Método de poda:

Referencia: Árbol de decisión de aprendizaje automático (Parte 1) - —ID3, C4.5, CART (muy detallado)

Continuamente se actualizan más modelos. . . .