La Red de Conocimientos Pedagógicos - Currículum vitae - ConfusionMatrix en sklearn

ConfusionMatrix en sklearn

Resultados de la matriz de evaluación por sklearn

Resultados de salida

Análisis de resultados

Resultados de salida

Referencia: Basado en Indicadores de evaluación de Matriz de confusión

La Matriz de confusión es un indicador utilizado para evaluar la calidad del algoritmo en tareas de reconocimiento. La siguiente figura es una matriz de confusión para un problema de dos clasificaciones:

Términos relacionados:

AccuracyRate (tasa de precisión): (TP+TN)/(TP+TN+FN+ FP)

ErrorRate (tasa de error): (FN+FP)/(TP+TN+FN+FP)

Recuperación (tasa de recuperación, tasa de recuperación, probabilidad de acierto): TP /(TP+FN), cuántas de todas las muestras positivas de GroundTruth se reconocen como muestras positivas;

Precisión (tasa de precisión): TP/(TP+FP), cuántas de todas las muestras se reconocen como muestras positivas ¿Cuántas de ellas son muestras verdaderamente positivas?

TPR (TruePositive Rate): TP/(TP+FN), que en realidad es Recall

FAR (FalseAcceptance Rate) o FPR (Tasa de falsos positivos): FP/(FP+TN), tasa de recepción falsa, tasa de falsas alarmas, cuántas de todas las muestras negativas de GroundTruth se reconocen como muestras positivas;

FRR (Tasa de falsos rechazos): FN/ (TP + FN), tasa de rechazo falso, tasa de rechazo verdadero, cuántas de todas las muestras positivas de GroundTruth se reconocen como muestras negativas, es igual a 1-Recall

curva ROC (curva característica operativa del receptor):

El resultado del reconocimiento de cada umbral corresponde a un punto (FPR, TPR). Cuando el umbral es el mayor, todas las muestras se identifican como muestras negativas, correspondientes al punto (0,0) en la parte superior. esquina derecha Cuando el umbral Cuando el umbral es mínimo, todas las muestras se identifican como muestras positivas, correspondientes al punto (1,1) en la esquina superior derecha A medida que el umbral cambia del máximo al mínimo, tanto TP como FP. aumentar gradualmente

Un buen modelo de clasificación debe ubicarse en la esquina superior izquierda de la imagen tanto como sea posible, mientras que un modelo de adivinación aleatoria debe ubicarse en la diagonal principal que conecta los puntos (TPR = 0). , FPR=0) y (TPR=1, FPR=1);

Puede utilizar el valor AUC (AreaUnder roc Curve) del área bajo la curva ROC para medir la calidad del algoritmo: si el modelo es perfecto, entonces su AUG = 1, si el modelo es un modelo de adivinación aleatoria simple, entonces su AUG = 0,5, si un modelo es mejor que el otro, su área bajo la curva es relativamente grande; ERR (tasa de error igual, tasa de error igual): FAR y FRR son dos parámetros del mismo sistema de algoritmo, póngalos en la misma coordenada. FAR disminuye a medida que aumenta el umbral y FRR aumenta a medida que aumenta el umbral. Por lo tanto deben tener una intersección. Este punto es el punto donde FAR y FRR son iguales bajo un cierto umbral. Es habitual utilizar el valor de este punto para medir el rendimiento general del algoritmo. Para un mejor algoritmo de huellas dactilares, se espera que bajo el mismo umbral, cuanto más pequeños sean FAR y FRR, mejor.