La Red de Conocimientos Pedagógicos - Currículum vitae - Estándares AIC y BIC

Estándares AIC y BIC

En muchos problemas de estimación de parámetros, la función de verosimilitud se utiliza como función objetivo. Cuando hay suficientes datos de entrenamiento, la precisión del modelo se puede mejorar continuamente, pero a costa de aumentar la complejidad del modelo, también genera un problema muy común en el aprendizaje automático: el sobreajuste.

Así, el problema de selección de modelo busca el equilibrio óptimo entre la complejidad del modelo y la capacidad del modelo para describir el conjunto de datos (es decir, la función de verosimilitud).

Se han propuesto muchos criterios de información para evitar el sobreajuste aumentando el término de penalización de la complejidad del modelo. Aquí presentamos dos métodos de selección de modelos comúnmente utilizados:

1 Criterio de información de Akaike (AIC)

AIC es un estándar para medir la bondad de ajuste de modelos estadísticos, desarrollado por Japan Statistics The El estudioso Koji Akauchi lo propuso en 1974. Se basa en el concepto de entropía y proporciona una medida de la complejidad del modelo estimado y de qué tan bien se ajusta a los datos.

En términos generales, AIC se define como:

donde k es el número de parámetros del modelo y l es la función de verosimilitud. Al seleccionar el mejor modelo de un conjunto de modelos disponibles, generalmente se elige el modelo con el AIC más pequeño.

Cuando los dos modelos difieren mucho, la diferencia se refleja principalmente en los términos de la función de verosimilitud. Cuando la diferencia en las funciones de probabilidad no es significativa, entra en juego el primer término de la fórmula anterior, la complejidad del modelo, por lo que un modelo con menos parámetros es una mejor opción.

En términos generales, cuando la complejidad del modelo aumenta (k aumenta), la función de probabilidad L también aumentará, lo que hará que el AIC sea más pequeño. Sin embargo, cuando k es demasiado grande, la tasa de crecimiento de la función de probabilidad se ralentizará, lo que dará como resultado un aumento en el AIC. Si el modelo es demasiado complejo, es fácil que se produzca un sobreajuste.

El objetivo es seleccionar el modelo con el AIC más pequeño. AIC no solo mejora el grado de ajuste del modelo (máxima probabilidad), sino que también introduce un término de penalización para que los parámetros del modelo sean lo menos posibles, lo que ayuda a reducir la posibilidad de sobreajuste.

2 Criterio de información bayesiano (BIC)

BIC (Criterio de información bayesiano) El criterio de información bayesiano es similar al AIC y se utiliza para la selección de modelos. Fue propuesto por Schwartz en 1978. Al entrenar un modelo, aumentar el número de parámetros, es decir, aumentar la complejidad del modelo, aumentará la función de probabilidad, pero también puede provocar un sobreajuste. Para resolver este problema, tanto AIC como BIC introducen un término de penalización relacionado con el número de parámetros del modelo, que es mayor que AIC. Teniendo en cuenta la cantidad de muestras, cuando la cantidad de muestras es demasiado grande, puede evitar efectivamente que el modelo sea demasiado complejo.

Donde k es el número de parámetros del modelo, n es el número de muestras y l es la función de verosimilitud. El término de penalización Kln (n) puede evitar eficazmente el desastre de la dimensionalidad cuando la dimensión es demasiado grande y los datos de la muestra de entrenamiento son relativamente pequeños.

3 Comparación de AIC y BIC

En las fórmulas de AIC y BIC, la primera mitad es la misma y la segunda mitad es el término de penalización. Cuando n≥8n≥8, kln(n)≥2kkln(n)≥2k. Por lo tanto, cuando la cantidad de datos es grande, BIC penaliza los parámetros del modelo más severamente que AIC, lo que hace que BIC seleccione un modelo simple con menos parámetros.

Enlace:/p /p/058422cccc8d

Fuente: