Algoritmo del árbol de decisión: tasa de ganancia de información y coeficiente GINI
Tomemos un ejemplo: hay una columna de ID de característica muy escasa en el conjunto de datos A. Sabemos que la ID es única y no se repite, por lo que la diversidad, naturalmente, será muy grande.
En este momento, si usamos ID para dividir el conjunto de datos, al final de la división, cada muestra se asignará a un nodo de apariencia separado y los datos de cada nodo de apariencia serán únicos y lo mismo. La incertidumbre es 0 y la entropía es 0.
Entonces, ¿significa esto que las propiedades del ID de nombre son muy buenas? ¿Se pueden predecir las etiquetas en función del ID? Por supuesto que no. De hecho, la identificación no tiene sentido.
Xiaoyu, tomar la identificación como ejemplo aquí es solo un ejemplo extremo. Pero esto es suficiente para mostrar que para características como ID, que tienen una amplia variedad de datos y están muy dispersamente distribuidas, el algoritmo del árbol de decisión ID3 no es suficiente para seleccionar características de nodos mediante la obtención de información.
Para resolver los problemas del algoritmo del árbol de decisión ID3, introdujimos la tasa de ganancia de información y consideramos la autoentropía de la distribución de características al calcular la ganancia de información.
El algoritmo del árbol de decisión C4.5 utiliza la tasa de ganancia de información para medir la capacidad de clasificación de los nodos de características. La llamada tasa de ganancia de información se calcula dividiendo la ganancia de información por la entropía de la característica misma.
¿Por qué deberíamos dividirlo por la entropía de la característica misma? Por ejemplo: solo el atributo ID. El valor de entropía de la característica de ID después de la segmentación de datos es 0, el valor de entropía del conjunto de datos original es G y el valor de entropía de la ID de característica es -n *(1/n)* log(1/n)=- log(1/n), donde n es el número de muestras en el conjunto de datos. Por lo tanto, la entropía G2 del ID de característica es un valor muy grande.
Después de segmentar el conjunto de datos utilizando nodos de identificación, la ganancia de información es G-0 = G, que es muy grande y el efecto de clasificación es perfecto. Pero si se mide por la tasa de ganancia de información, es: (G-0)/G2, donde G2 debe ser mucho mayor que G, porque obviamente el grado de confusión de la etiqueta es mucho menor que el de la columna ID.
Entonces, la tasa de ganancia de información que obtenemos es un valor muy pequeño. En este momento, podemos encontrar que el efecto de clasificación de la identificación es muy pobre. Por lo tanto, el algoritmo C4.5 resuelve las deficiencias del algoritmo ID3 en la medición de características dispersas.
El coeficiente GINI es similar a la entropía, pero su método de cálculo es diferente. La fórmula del coeficiente GINI es:
Cuando la probabilidad p es 0 o 1, no hay incertidumbre en este momento. Cuando la probabilidad es 1, el coeficiente GINI es 0, y cuando la probabilidad es 0, el coeficiente GINI también es 0.