La Red de Conocimientos Pedagógicos - Aprendizaje de redacción de artículos/tesis - Algoritmo de árbol de decisión

Algoritmo de árbol de decisión

El algoritmo C4.5 hereda las ventajas del algoritmo ID3 y mejora el algoritmo ID3 en los siguientes aspectos:

1) El uso de la tasa de ganancia de información para seleccionar atributos supera el problema de usar la ganancia de información para seleccionar atributos al seleccionar Desventajas de más atributos.

2) Poda durante el proceso de construcción del árbol;

3) Puede completar la discretización de atributos continuos

4) Puede manejar datos incompletos;

El algoritmo C4.5 tiene las siguientes ventajas: las reglas de clasificación generadas son fáciles de entender y tienen una alta precisión. La desventaja es que en el proceso de construcción del árbol, el conjunto de datos debe escanearse y ordenarse varias veces, lo que resulta en una baja eficiencia del algoritmo. Además, C4.5 solo funciona con conjuntos de datos que pueden residir en la memoria y el programa no puede ejecutarse cuando el conjunto de entrenamiento es demasiado grande para caber en la memoria.

Los pasos específicos del algoritmo son los siguientes:

1 Crear el nodo n

2 Si el conjunto de entrenamiento está vacío, devuelve el nodo n y márcalo como fallido.

3 Si todos los registros del conjunto de entrenamiento pertenecen a la misma categoría, etiquete el nodo N con esta categoría.

4 Si el atributo candidato está vacío, devuelve N como un nodo hoja y márquelo como la clase más común en el conjunto de entrenamiento.

5 Para cada atributo candidato lista_atributo

6 Si los atributos candidatos son continuos, entonces.

7Discretiza este atributo.

8 Seleccione el atributo D con la tasa de ganancia de información más alta de la lista de atributos candidatos.

9 Marcar el nodo n como atributo d

10 Valor consistente d para cada atributo

11 La rama con condición D=d comienza a crecer desde el nodo n.

12 Sea S el conjunto de muestras de entrenamiento en el conjunto de entrenamiento D = D.

13Si s está vacío.

Agrega una hoja a 14 y márcala como la clase más común en el conjunto de entrenamiento.

15 más antecedentes con puntos adicionales con retornos C4.5 (R-{D}, C, s):

Cart (árbol de regresión de clasificación) es un sistema no paramétrico muy interesante y eficiente. Métodos de clasificación y regresión. Logra el propósito de predicción mediante la construcción de un árbol binario.

El modelo CART de árboles de clasificación y regresión fue propuesto por primera vez por Breiman et al. y ha sido ampliamente utilizado en estadística y tecnología de minería de datos. Utiliza un enfoque completamente diferente para construir criterios de predicción que las estadísticas tradicionales. Dado en forma de árbol binario, es fácil de entender, usar e interpretar. En muchos casos, el árbol de predicción construido por el modelo CART es más preciso que los criterios de predicción algebraicos construidos por métodos estadísticos comúnmente utilizados, y cuanto más complejos sean los datos y más variables, más obvia será la superioridad del algoritmo. La clave del modelo es la construcción y precisión de los criterios de predicción.

Definición:

La regresión de clasificación primero utiliza datos multivariados conocidos para construir criterios de predicción y luego predice una variable en función de los valores de otras variables. En la clasificación, las personas suelen medir primero un objeto y luego utilizar ciertos estándares de clasificación para determinar a qué categoría pertenece el objeto. Por ejemplo, dadas las características de identificación de un fósil, predecir a qué familia, género o incluso especie pertenece el fósil. Otro ejemplo es comprender la información geológica y geofísica de un área determinada y predecir si hay minerales en esa área. La regresión se diferencia de la clasificación en que se utiliza para predecir un determinado valor de un objeto en lugar de la clasificación del objeto. Por ejemplo, dadas las características de los recursos minerales en un área determinada, prediga la cantidad de recursos en el área.