La Red de Conocimientos Pedagógicos - Conocimientos para el examen de postgrado - Introducción a la espectroscopia de infrarrojo medio (MIR)

Introducción a la espectroscopia de infrarrojo medio (MIR)

Este libro surge del resumen de mi tesis de maestría.

Cuando FT-MIR detecta una sustancia específica, generará ondas características pertenecientes a la sustancia en función de sus enlaces funcionales y grupos funcionales. Las investigaciones muestran que en el proceso de utilizar múltiples variables independientes para construir un modelo para predecir una sustancia, seleccionar la onda característica de la sustancia como variable independiente no solo puede mejorar la precisión de la predicción del modelo, sino también mejorar la estabilidad del modelo ( Leardi et al 2002, Zou et al 2010, Vohland et al 2014). John et al. propusieron que la selección de características se puede dividir en dos categorías. La primera categoría son los métodos de filtrado, que son algoritmos de selección de características que son independientes de las variables predictivas y miden la importancia de cada variable independiente individualmente para filtrar características que son casi inútiles en el análisis de datos. El segundo es el método de encapsulación, que agrega o elimina todas las variables independientes una por una y las aplica a un determinado tipo de algoritmo, y encuentra la mejor combinación de variables independientes según los resultados del modelo (John et al 1994). Ambos tienen pros y contras. El método de filtrado es rápido, pero no puede analizar las variables independientes en función de los resultados de la construcción del modelo, mientras que el método de encapsulación puede seleccionar variables en función de los resultados de la construcción del modelo con precisión, pero su cantidad de cálculo es mayor que la del filtrado. método, y existe el riesgo de sobreajuste (Saeys et al 2007). Pero luego apareció un tercer método de incrustación, que agregó la selección de ondas propias a la estructura del algoritmo. Es similar al método de encapsulación, pero no se puede usar para otros algoritmos (solo puede ser un algoritmo para filtrar ondas propias). La cantidad de cálculo es menor que la del método de reducción de encapsulación (Saeys et al 2007). Por lo tanto, un método más razonable para detectar ondas características espectrales es primero reducir el rango mediante filtrado y luego filtrar las ondas características finales mediante encapsulación o incrustación.

El análisis discriminante cualitativo consiste en establecer un modelo discriminante en un conjunto de entrenamiento con características y categorías conocidas, y luego utilizar el modelo discriminante para clasificar y predecir nuevos datos con características conocidas y categorías desconocidas.

El análisis discriminante cualitativo se puede dividir en discriminación de Fisher, discriminación de distancia y discriminación de Bayes según los criterios de discriminación. La discriminación de Fisher consiste en proyectar datos multidimensionales en una determinada dimensión para separar varios grupos de personas al máximo y luego seleccionar reglas de discriminación apropiadas para clasificar y discriminar nuevas muestras. La discriminación de distancia consiste en calcular primero el centro de gravedad de cada categoría de la clasificación conocida y luego calcular la distancia desde el centro de gravedad de cada categoría hasta los datos de la categoría desconocida. El centro de gravedad más cercano pertenece a esa categoría. La discriminación bayesiana consiste en calcular la probabilidad posterior a partir de la probabilidad anterior y luego hacer inferencias estadísticas sobre los nuevos datos en función de la distribución de probabilidad posterior.

El análisis cuantitativo es un método de regresión que utiliza un determinado algoritmo para permitir que la variable independiente prediga con precisión la variable dependiente. La variable dependiente es generalmente datos continuos y generalmente se divide en lineal, lineal generalizada y no lineal. Incluye principalmente: método de mínimos cuadrados parciales, PLS), análisis de componentes principales-análisis discriminante lineal (PCA-LDA), árbol de decisión, DT), red neuronal artificial (ANN), máquina de vectores de soporte, SVM), K vecino más cercano, KNN) , Regresión logística, LR), bosque aleatorio, RF). Para conocer las partes teóricas de estos 8 algoritmos, consulte las partes 11 y 12 de aprendizaje automático.

La matriz de confusión se puede utilizar para evaluar el modelo discriminante cualitativo. La matriz de confusión y sus parámetros relacionados son uno de los indicadores de evaluación más simples e intuitivos. Tomando la clasificación binaria como ejemplo, la matriz de confusión se muestra en la Tabla 1-3. Con base en la matriz de confusión, se puede calcular el índice de evaluación del modelo discriminante.

Los parámetros derivados son:

Los indicadores de evaluación del modelo de análisis cuantitativo incluyen principalmente el coeficiente de determinación (R2) y la raíz del error cuadrático medio (RMSE). Cuanto mayor sea el valor de R2, mejor será el modelo (0≤R2≤1), y cuanto menor sea el valor de RMSE, mejor será el modelo (RMSE≥0).

La fórmula de cálculo es la siguiente:

En diferentes conjuntos de datos, los parámetros R2 y RMSE correspondientes se pueden calcular respectivamente.

En el conjunto de entrenamiento, n = número de muestras - número de componentes principales - 1 en la fórmula (2), y los parámetros de todos los modelos de datos se expresan como R2C (coeficiente de determinación de calibración) y RMsec (error cuadrático medio de calibración); cuando n = fórmula (2): el número de muestras restantes durante la validación cruzada, los parámetros de modelado se expresan como R2CV cruzado (coeficiente de determinación de la calibración cruzada) y RMSECV cruzado (error cuadrático medio de la calibración cruzada) en el conjunto de prueba, cuando n = fórmula Cuando el número de muestras en (2) es el número de muestras en (2), los parámetros obtenidos de los resultados de la verificación son la verificación R2V (coeficiente de determinación de verificación) y la verificación RMSEp (verificación). error cuadrático medio, RMSEP).