¿Qué es la información mutua? ¿Qué papel juega?
Breve introducción
La información mutua es una medida de información útil en la teoría de la información. Puede considerarse como la cantidad de información contenida en una variable aleatoria sobre otra variable aleatoria, o es la cantidad reducida. Incertidumbre de una variable aleatoria debido al conocimiento de otra variable aleatoria. En pocas palabras, es la correlación entre dos conjuntos de eventos.
Por ejemplo, en el procesamiento de imágenes, a menudo es necesario comparar la similitud de dos imágenes. La información mutua es uno de los métodos más utilizados y su idea central es la entropía.
Entropía
El concepto de entropía es útil en la información mutua. Aquí presentamos brevemente la entropía.
La entropía era originalmente un parámetro que caracterizaba el estado de la materia en termodinámica. Su significado físico es el grado de caos del sistema. Cuanto más uniformemente se distribuya cualquier tipo de energía en el espacio, mayor será la entropía. Cuando la distribución es completamente uniforme, la entropía del sistema alcanza el valor máximo, lo que significa que el sistema en ese momento es más caótico.
Para los eventos, la entropía es máxima cuando todos los estados tienen iguales probabilidades. En este momento, el sistema no tiene preferencia sobre qué estado tomar, por lo que el grado de caos es máximo.
En el mundo de la información, cuanto mayor es la entropía, más información se puede transmitir, y cuanto menor es la entropía, menos información se puede transmitir. (Esto se refiere a la cantidad de información)
Entropía de la información
En el proceso de procesamiento de información, cuanto mayor sea la certeza del evento que conocemos, menos información obtendremos. Por ejemplo, si sabemos que algo definitivamente sucederá, entonces no recibiremos otra información.
Entonces, la medida del contenido de información que obtenemos depende de la distribución de probabilidad P(x), por lo que la fórmula del contenido de información h(x) que queremos encontrar es una función que necesita disminuir monótonamente con la probabilidad. Entonces aquí elegimos
Luego, para el mismo evento, si hay múltiples posibilidades, como la siguiente imagen:
Entonces se puede usar para describir la entropía de la información
La base mencionada anteriormente no está establecida y puede ser 2 e 10. Solo representa una medida y no tiene requisitos fijos.
La fórmula de cálculo de la información mutua se puede entender al nivel de entropía de la información como:
donde H(A,B) es la entropía conjunta.
Entropía relativa
La entropía relativa también se llama divergencia KL. Si tenemos dos distribuciones de probabilidad P Q separadas para la misma variable aleatoria x, podemos usar la divergencia KL (Kullback-Leibler (KL). ) divergencia) para medir la diferencia entre las dos distribuciones. La siguiente es la descripción de Wikipedia de la entropía relativa.
En el contexto del aprendizaje automático, DKL(P‖Q) a menudo se denomina ganancia de información lograda si se usa P en lugar de Q.
n son todas las posibilidades del evento. Cuanto menor es el valor de KL, más cercanas están la distribución q y la distribución p.
Transforme la fórmula anterior:
Entropía cruzada: la entropía cruzada es en realidad una forma especial de la entropía relativa más amplia
Información mutua
La información mutua es en realidad una forma especial de entropía relativa más amplia. Si (x,y) ~ p(x,y) , la información mutua I(X;Y) entre X e Y se define como:
Usando la regla de suma y la regla de probabilidad del producto, vemos que la relación entre la información mutua y la entropía condicional es
Información mutua promedio
La información mutua promedio caracteriza a los dos El grado de correlación entre conjuntos. Tiene el siguiente significado físico:
Información mutua promedio = incertidumbre promedio del anterior – incertidumbre promedio de X retenida después de observar Y.
Información mutua promedio = el grado en que la incertidumbre promedio de X se elimina después de recibir Y.
Información mutua promedio = la cantidad promedio de información sobre X obtenida después de recibir Y.
En el conjunto de unión (X, Y), el promedio ponderado de probabilidad de la información mutua I(a;b) se define como la información mutua promedio. Su definición es: