La Red de Conocimientos Pedagógicos - Conocimientos históricos - ¿Cuál es el error entre el valor predicho de la muestra y el valor real del modelo computacional utilizado para evaluar la red neuronal?

¿Cuál es el error entre el valor predicho de la muestra y el valor real del modelo computacional utilizado para evaluar la red neuronal?

(Función de pérdida) se utiliza para evaluar el error entre el valor predicho de la muestra y el valor real del modelo de cálculo de la red neuronal.

Cuáles son los principales métodos de preprocesamiento de datos:

1. El método de reducción basado en la teoría de conjuntos aproximados (RoughSet) es un método para estudiar la imprecisión y la incertidumbre. para escritura de conocimientos cat. En la actualidad, ha recibido una amplia atención por parte de KDD. El uso de la teoría de conjuntos aproximados para procesar datos es un método muy eficaz para simplificar la dimensionalidad de los datos.

Los datos que tratamos generalmente tienen problemas de ambigüedad informativa (Vaguedad). Hay tres tipos de ambigüedad: ambigüedad en la terminología, como la altura; incertidumbre en los datos, como la causada por el ruido en el conocimiento mismo, como la dependencia entre las reglas de pre y post procesamiento no es completamente confiable.

En KDD, el procesamiento de datos inciertos y de interferencias de ruido se basa en el método de conjunto aproximado.

2. Método de concentración de datos basado en árbol de conceptos. En la base de datos, se pueden utilizar muchos atributos para la clasificación de datos. Cada valor de atributo y concepto puede formar una estructura jerárquica según los diferentes niveles de abstracción. de conceptos La estructura a menudo se denomina árbol de conceptos.

Los árboles de conceptos generalmente los proporcionan expertos en el campo, que organizan los conceptos en cada nivel de lo general a lo específico.

3. El pensamiento de la teoría de la información y el descubrimiento de conocimiento generalizado. El conocimiento de características y el conocimiento de clasificación son las dos formas principales de conocimiento generalizado. Sus algoritmos se pueden dividir básicamente en dos categorías: método de cubo de datos y método de inducción orientado a atributos. .

Los métodos de inducción ordinarios orientados a atributos tienen un cierto grado de ceguera en la selección de atributos inductivos. Durante el proceso de inducción, cuando hay múltiples atributos inducibles para la selección, generalmente se selecciona uno al azar para la inducción.

De hecho, el conocimiento resultante obtenido mediante diferentes órdenes de inducción de atributos puede ser diferente. Según el concepto de máxima entropía en la teoría de la información, se debe seleccionar un orden de inducción con una mínima pérdida de información.

4. Método de selección de atributos basado en análisis estadístico. Podemos utilizar algunos algoritmos en el análisis estadístico para seleccionar atributos de características, como análisis de componentes principales, análisis de regresión por pasos, análisis de modelos de factores comunes, etc.

La característica común de estos métodos es que utilizan una pequeña cantidad de tuplas de características para describir la base de conocimiento original de alta dimensión.

Qué es el preprocesamiento y qué dos métodos se incluyen:

Análisis básico de la base de datos por qué se requiere el preprocesamiento de datos es muy importante para realizar el preprocesamiento de datos, pero parece cómo hacerlo. Ser algo más difícil.

Las bases de datos del mundo real actuales son extremadamente susceptibles al ruido, a los datos faltantes y a los datos inconsistentes porque son muy grandes (a menudo de varios gigabytes o más) y a menudo provienen de múltiples bases de datos con estructuras heterogéneas.

Los datos de baja calidad conducirán a resultados mineros de baja calidad. "¿Cómo se preprocesan los datos para mejorar la calidad de los datos y, por lo tanto, mejorar la calidad de los resultados de la minería? ¿Cómo se preprocesan los datos para que el proceso de minería sea más eficiente y más fácil?"

La limpieza de datos se puede utilizar para eliminar el ruido de los datos y corregir inconsistencias. La integración de datos combina datos de múltiples fuentes en un almacén de datos consistente, como un almacén de datos. También se pueden utilizar transformaciones de datos como la normalización. Por ejemplo, la normalización puede mejorar la precisión y eficacia de los algoritmos de minería que involucran medidas de distancia.