La Red de Conocimientos Pedagógicos - Aprendizaje de japonés - ¿Qué hermano o hermana divino puede ayudarme a traducir el texto completo de los árboles de regresión y clasificación en matlab7.0, adjunto?

¿Qué hermano o hermana divino puede ayudarme a traducir el texto completo de los árboles de regresión y clasificación en matlab7.0, adjunto?

En mínimos cuadrados no lineales, se supone que conoce la forma de la relación entre la respuesta y los valores predichos. Suponga que no conoce la relación y no está dispuesto a asumir que la relación puede aproximarse bien mediante un modelo lineal. Necesita un tipo de método de ajuste de regresión más no paramétrico. Uno de esos métodos se basa en el método de mínimos cuadrados no lineales del "árbol", que supone que se conoce la relación entre las variables independientes y dependientes. Si no conoce la relación, no asuma que se puede estimar utilizando un modelo lineal. Necesita un método de ajuste de regresión no paramétrico. Uno de esos enfoques se basa en "árboles".

Un árbol de regresión es una serie de preguntas que se pueden responder sí o no, además de un conjunto de valores de respuesta adecuados. Cada pregunta pregunta si el valor predicho cumple una condición determinada. Los predictores pueden ser continuos o discretos. Según la respuesta a una pregunta, puede pasar a otra pregunta o derivar un valor de respuesta apropiado.

Un árbol de regresión es una serie de preguntas con o sin respuesta, más un conjunto de valores de variables dependientes ajustados. Cada pregunta pregunta si el valor de la variable independiente satisface una determinada condición. Los valores de las variables independientes pueden ser continuos o discretos. Dependiendo de la respuesta a la pregunta, puede pasar a la siguiente pregunta u obtener el valor de la variable dependiente ajustada.

Este ejemplo utiliza árboles de regresión para ajustar variables en el conjunto de datos carsmall. Este ejemplo utiliza las mismas variables que el ejemplo de análisis de covarianza (consulte la demostración de aoctool), por lo que hay un predictor continuo (peso del automóvil) y un predictor discreto (año del modelo).

El siguiente ejemplo ajusta los datos de carsmall en un árbol de regresión. Este es un ejemplo utilizado en el análisis de varianza (mostrado por aoctool). Hay variables independientes continuas (peso del vehículo) y variables independientes discretas (año).

El propósito de este ejemplo es modelar el kilometraje (MPG) en función del peso del automóvil y el año del modelo. Primero cargue los datos y cree una matriz de valores predichos x y un vector de variables de respuesta y. Luego utilícelo como un árbol de regresión, especificando la columna del año del modelo como una variable categórica. En este conjunto de datos, hay automóviles de tres años de modelo diferentes: 1970, 1976 y 1982.

El propósito del siguiente ejemplo es simular el consumo de combustible de un automóvil en función del peso y el año del vehículo. Primero, cargue los datos para crear una matriz X de variable independiente y un vector Y de variable dependiente. Luego, ajuste un árbol de regresión y defina el año como una variable categórica. En los datos, el año puede tomar uno de tres valores: 1970, 1976 y 1982.

Cargar un automóvil

x = [peso, modelo_año];

y = MPG

t = treefit(x, y, ' catidx ', 2);

treedisp(t, ' name ', { ' Wt '' Yr ' });

Ahora, desea utilizar este modelo para determinar el pronóstico. kilometraje para un automóvil modelo 1982 que pesa 3,000 libras. Comience con el nodo superior. El peso es menor que el valor de corte 3085,5, por lo que se elige la rama izquierda. El año del modelo no es 1970 ni 1976, por lo que está tomando el camino correcto. Continúe bajando por el árbol hasta llegar al nodo terminal que proporciona el valor previsto. En este caso, la predicción es 38 millas por galón. Puede utilizar la función treeval para encontrar los valores ajustados para cualquier conjunto de valores predichos.

Ahora quiero encontrar el consumo de combustible de un automóvil de 3000 libras con un peso de 1982. Comenzando desde el nodo superior, el peso del automóvil es menor que el umbral 3085,5, y se bifurca hacia la izquierda, el El año del modelo no es 1970 o 1976, y luego baja por la rama derecha hasta llegar al nodo que da el valor previsto. En este ejemplo, terminé obteniendo 38 millas por galón. Utilice árbolval.

treeval(t, [3000 82])

ans =

38

Un árbol como este tiene muchas ramas, con A El peligro es que funciona bien para el conjunto de datos actual, pero no hará un buen trabajo al predecir nuevos valores.

Algunas de sus ramas inferiores pueden verse fuertemente afectadas por valores atípicos y otros artefactos en el conjunto de datos actual. Si es posible, elegiría un árbol simple para evitar este problema de sobreajuste.

El riesgo de un árbol así, con muchas ramas, es que puede ajustarse bien a los datos existentes, pero será inexacto a la hora de predecir datos nuevos. Algunas ramas inferiores pueden verse fuertemente afectadas por valores atípicos. Si es posible, deberíamos elegir un árbol simple para evitar un ajuste excesivo.

Puedes estimar el tamaño óptimo del árbol mediante validación cruzada. Primero, se calculan estimaciones alternativas de la varianza del error para este árbol y una serie de árboles más simples y se representan como la línea inferior (azul) del gráfico. Esta estimación puede subestimar la verdadera varianza del error. Luego se calcula y representa el mismo número de estimaciones con validación cruzada como la línea superior (roja). El proceso de validación cruzada también proporciona una estimación del mejor nivel de poda necesario para lograr el tamaño óptimo del árbol.

Puedes utilizar la validación cruzada para evaluar el mejor árbol. Primero calcule la dispersión del error de este árbol y una serie de árboles simplificados y luego sustituya el valor estimado, que se representa en la línea azul a continuación. Esta estimación puede subestimar la dispersión del error real. Luego, trace la estimación de validación cruzada para el mismo valor que la línea roja. La validación cruzada también proporciona el grado de poda necesaria para lograr el tamaño óptimo del árbol.

[c,s,ntn] = treetest(t,' resub');

[c2,s2,n2,best] = treetest(t,' cross ',x , y);

plot(ntn, c, ' b-', n2, c2, ' r- ', n2 (mejor 1), c2 (mejor 1), ' mo '); p>

xlabel("Número de nodos terminales")

ylabel("Varianza residual")

Legend('Restablecer error', 'Validación cruzada

Error', 'Tamaño de árbol óptimo estimado')

Mejor

Mejor=

10

La dispersión restante del mejor árbol no supera una desviación estándar por encima del valor mínimo en la línea de validación cruzada. En este caso es un poco más de 14. El mejor valor de salida comienza desde 0 (que representa que no hay poda), por lo que se debe agregar 1 cuando se usa como argumento de índice de otras declaraciones.

c2(best 1)

ans =

14.3440

Utilice el mejor resultado para crear un árbol más pequeño que se recorte al óptimo estimado tamaño.

La mejor forma de utilizar la salida es podando el árbol para construir uno más pequeño.

t0 = treeprune(t,'nivel',mejor);

treedisp(t0,'nombre',{'Wt' 'Año'})

Ahora trace los datos originales y superponga los valores ajustados que obtuvo con este árbol. Tenga en cuenta que el árbol no diferencia entre automóviles de 654 38 0970 o 1976, por lo que se crea un vector yold que contiene los valores ajustados para 1976 y otro vector ynew que contiene los valores ajustados para 1982. Los valores de equipamiento para el modelo de 1970 son los mismos que los del modelo de 1976.

Ahora traza los datos originales y los valores ajustados obtenidos de este árbol. Tenga en cuenta que este árbol no puede distinguir entre automóviles de 1970 y 1976, y establece el vector yold para 1976 y el vector ynew para 1982. Los valores de equipamiento de los coches son 1970 y 1976.

xx = (1500:20:5000)';

ynew = treeval(t0, [xx 82 * unos(tamaño(xx))]); p>yold = treeval(t0, [xx 76 * ones(size(xx))]);

gscatter(weight, MPG, Model_Year, 'rgb', 'OS x');

Espera; plot(xx, yold, 'b:', xx, ynew, 'r-'); funciones de árbol (treedisp, treefit, treeprune, treetest y treeval) también. Puede aceptar variables de respuesta categóricas. En este caso, para el rango de valores predichos que se encuentran dentro de un nodo determinado, el valor ajustado del árbol es la clase con la probabilidad predicha más alta. En la sección Análisis multivariado de la demostración de Statistical Toolbox, la clasificación de demostración muestra cómo utilizar árboles de decisión para la clasificación.

Las funciones de árbol (treedisp, treefit, treeprune, treetest, treeeval) también pueden aceptar variables dependientes categóricas. En este caso, cuando la variable independiente cae en un nodo, el valor ajustado dado por el árbol es la variable dependiente con mayor probabilidad. La sección Análisis multivariado de Statistical Toolbox muestra cómo utilizar árboles de decisión para la clasificación.