Algunos contenidos y aplicaciones de JND
El sistema visual humano es el receptor final de todas las señales de vídeo descomprimidas, por lo que después de considerar si los humanos pueden detectar el vídeo, se puede permitir más en el vídeo sin afectar su calidad subjetiva. Los criterios de fidelidad tradicionales MSE y PSNR no pueden reflejar con precisión la calidad subjetiva del contenido. Debido a la sensibilidad humana y las propiedades de enmascaramiento del espacio y tiempo de los píxeles, los humanos no pueden percibir cambios por debajo del umbral JND. Obviamente, los cambios indetectables no requieren el coste de recodificación. Una gran cantidad de literatura ha propuesto dos tipos de modelos JND: JND de dominio de imagen y JND de dominio de transformación. A continuación se presenta el modelo JND y su aplicación en el dominio de la imagen. Los modelos JND en el dominio de la imagen se pueden aplicar a situaciones de baja tasa de bits y cámara lenta, como videollamadas y movimientos de hombros y cabeza.
Investigaciones anteriores han demostrado que JND en el dominio de la imagen puede considerarse como un efecto complejo de subbanda (dominio de transformación), y la adaptación del brillo y el enmascaramiento de textura deberían ser los principales factores a considerar en el modelo JND. . En estudios anteriores sobre JND en el dominio de la imagen, solo se consideró el componente Y (brillo).
Este artículo propone un modelo de enmascaramiento aditivo no lineal (NAMM), que intenta adaptarse mejor al sistema visual humano. En este modelo, agregamos adaptación de luminancia y enmascaramiento de textura para reducir sus efectos superpuestos, que son similares a los efectos destacados inducidos por diferentes estímulos en estudios "recientes". En nuestro PVS (esquema de codificación de video perceptual) propuesto, el valor JND calculado por el modelo NAMM se utilizará para la estimación del movimiento y determinará qué datos residuales ingresarán al siguiente paso de codificación después de la compensación del movimiento.
La idea básica es:
1. Cuando la estimación de un píxel en movimiento es inferior al umbral JND correspondiente, se excluirá del cálculo de SAD (este cambio independientemente de ( cómo los humanos no pueden detectarlo), mejorando así la calidad subjetiva y reduciendo el costo de la estimación del movimiento. (ps: es decir,...)
2. De manera similar, después de la compensación de movimiento, no es necesario transformar los residuos por debajo del umbral JND, lo que puede ahorrar algo de espacio en un momento determinado. Mejor codificación DCT de residuos por encima del umbral JND en tasa de bits. Sin embargo, los coeficientes DCT con residuos grandes desempeñan un papel más crítico en los indicadores de fidelidad objetiva, por lo que el esquema PVC en este documento puede mejorar indirectamente los indicadores de evaluación objetivos, por ejemplo, al mismo tiempo que mejora la calidad subjetiva. MSE y ampPSNR.
Utilice la intensidad (tamaño) del píxel en (x, y) de la imagen del cuadro t en el canal de color (componente de color),
.
El objetivo de esta sección es determinar (el umbral JND correspondiente), la parte espacial es el primer parámetro relacionado con la información visual considerada en el cuadro (en adelante expresado como) (entonces, ¿por qué necesitamos calcular? ¡Qué dolor de cabeza! )
Hay dos factores principales que afectan a JND en el dominio de la imagen: la adaptación del brillo del fondo y el enmascaramiento de textura.
1. Adaptación del brillo del fondo: en comparación con los valores de brillo absoluto, el sistema visual humano es más sensible al contraste del brillo. La siguiente tabla muestra una curva aproximada entre el umbral visual y el brillo del fondo de una imagen digital (datos de experimentos):
2. Enmascaramiento de textura:
La reducción en la visibilidad de los cambios es. debido a Esto se debe al aumento de la falta de uniformidad de la textura en áreas adyacentes, por lo que las áreas texturizadas pueden ocultar más distorsión que las áreas lisas.
Los dos tipos de enmascaramiento anteriores existen en la mayoría de las imágenes, por lo que cómo combinar estos dos factores para obtener una configuración JND precisa es una cuestión importante. La investigación anterior también tiene algunas deficiencias: el efecto de enmascaramiento mixto en el dominio espacial se simplifica al valor máximo de "adaptación de brillo de fondo" y "enmascaramiento de textura" y el umbral JND solo considera el factor de brillo en la imagen; Las áreas son diferentes de las áreas que no son de borde. Los cálculos no son diferentes.
Creemos que: 1. El efecto combinado de múltiples efectos de enmascaramiento debe ser combinar factores independientes mediante la suma (por supuesto, no una suma lineal), porque la presencia simultánea de múltiples factores de enmascaramiento hará que el objetivo (como (como decodificación, codificación, pérdida de la imagen) es más difícil de notar que un solo factor de enmascaramiento. dos. Los umbrales JND en los canales croma también pueden mejorar el rendimiento de la compresión. tres. Distinguir los bordes de las regiones lisas y texturizadas ayuda a evitar el efecto de enmascaramiento de la sobrepredicción de las regiones de los bordes.
Es el umbral visual del primer factor de enmascaramiento, el coeficiente de atenuación de ganancia del aliasing de los dos factores de enmascaramiento y la función no lineal que evalúa el efecto de aliasing de los dos factores de enmascaramiento.
El JND espacial se puede calcular mediante el modelo no lineal de (1):
y son los dos valores principales del factor de enmascaramiento en el dominio espacial: adaptación de brillo y enmascaramiento de textura para medir t (enmascaramiento de textura) y The efecto de aliasing de L (adaptación de luminosidad). Cuanto más grandes, más se superponen. , l y t se superponen al máximo (es decir, se superponen más cuando no hay alias); En realidad el valor medio está entre 0-1. El factor de alias de y es mayor que la suma, por lo que proviene del canal de color Y, y lo mismo ocurre. Por supuesto, también variará dependiendo de las condiciones de observación, como la iluminación, el equipo de visualización, la distancia de visualización, etc.
El entorno experimental de este artículo es una habitación iluminada por luces fluorescentes (esta es la condición típica para que las personas vean imágenes digitales). Y equipado con un monitor color profesional eizo T965 de 21'' con una resolución de 1600 1200. La distancia de visión es aproximadamente seis veces la altura de la imagen. Coeficiente de atenuación calculado:,,.
Entonces, la fórmula (2) es una optimización del modelo propuesto en algunos artículos anteriores. El valor JND del factor L se puede determinar de acuerdo con la Figura 1:
Es el. promedio de (x, y) brillo de fondo (? ¿Qué diablos, el brillo de fondo promedio de un punto?), El cálculo del factor t se presentará a continuación.
Para obtener una estimación de JND más precisa, debemos distinguir entre efectos de enmascaramiento de textura de borde y sin borde. Porque la parte del borde está directamente relacionada con contenidos visuales importantes de la imagen, como límites de objetos, pliegues de superficies y transformaciones de reflejos. Además, es más probable que los bordes atraigan la atención y, si hay distorsión aquí, el observador puede notarlo fácilmente [9, 11]. Una gran cantidad de literatura demuestra que la percepción de los bordes es muy importante para los primates. Por lo tanto, este artículo recomienda considerar la información del borde:
(6)
El gradiente promedio ponderado máximo cerca de (x, y) es el parámetro de control en el canal de color, y (x, y) El peso relacionado con la información del borde en y su matriz correspondiente.
Debido a que HVS es más sensible a los cambios en el canal Y, en el entorno mencionado anteriormente,.
(7)
? (8)
Para obtener una teoría detallada del gradiente de imagen, consulte la información relevante sobre el procesamiento de imágenes. Aquí están los filtros de paso alto en diferentes direcciones como se muestra a continuación. En resumen, se trata de calcular el gradiente en la k-ésima dirección.
El cálculo pasa por la detección de bordes y luego por un filtro de paso bajo.
(9)
Es un mapa de bordes [4] obtenido estableciendo el umbral en 0,5 usando la detección Canny. Es una versión reducida de Yes, correspondiendo 0,1 y 1 a. bordes y no bordes respectivamente.
Es un filtro de paso bajo gaussiano con una desviación estándar de . Su función es suavizar para evitar cambios excesivos en un rango pequeño. Debe ser mayor que 0,5 para tener una función de suavizado. Según [9], se establece en 0,9 y el tamaño del núcleo para ello debería ser 7.
Prueba el modelo JND comparando sus cambios.
(10)
Calculado mediante la fórmula (2), seleccione aleatoriamente valores de +1 y -1, de modo que el modo de artefacto fijo (? volteo de la máquina, debería ser todo +1 (-1), lo que afectará la calidad de la imagen)
Si el valor JND en el dominio espacial está muy cerca del límite JND de HVS, entonces debe ir hacia el valor máximo posible, y en consecuencia, debe minimizarse mediante (10) Distorsión visual construida. En casos extremos, si se agrega ruido aleatorio (10), se convertirá en (11):
El valor aleatorio de 0,0 a 1,0 es el factor de control de amplitud.
Para un gráfico "lena" de 512*512, tome la parte que se muestra en la Figura 3.a e inserte el ruido del modelo NAMM de la fórmula (10) y el ruido aleatorio de la fórmula (11) respectivamente. es como se muestra en la figura Como se muestra en 3.b, se puede encontrar que la diferencia de calidad de (Figura 3.b) es menor que (Figura 3.c) (B es mejor que
It Se puede ver que el modelo NAMM puede tolerar imágenes con el mismo efecto visual. Más información redundante
Los JND en efectos temporales se pueden incorporar en JND espaciales de diferentes amplitudes. Normalmente, los movimientos grandes conducen a grandes movimientos temporales. enmascaramiento, aproximadamente en línea con la curva siguiente (Figura 6) [ 7]:
El JND total se puede expresar como:
(12)
que representa el brillo promedio entre cuadros entre el cuadro T y la diferencia de cuadro t-1.
Dónde está el valor promedio de píxel, que es una función construida a partir del modelo que se muestra a continuación.
La siguiente figura muestra un esquema de codificación de vídeo híbrido (dominio de imagen y dominio de transformación) utilizando el modelo JND.
Relación señal pico/ruido percibido:
Donde,
Donde, representa el valor de píxel reconstruido del punto (x, y) en el canal de color. en el cuadro t. ¿cuando? =0, el cálculo de PSPNR se convierte en el cálculo tradicional de PSNR.
La predicción de vectores es la parte más compleja de la codificación de vídeo híbrido. La predicción vectorial tradicional a menudo encuentra un bloque coincidente con 0 o un SAD (suma de diferencias abstractas) suficientemente pequeño para un bloque de brillo (macrobloque). Pero desde una perspectiva visual, SAD depende no solo de su amplitud de brillo sino también de JND local, por lo que este artículo propone SAPD (suma de diferencia perceptual abstracta), el movimiento del (k, l)ésimo bloque (macrobloque) del cuadro. t El vector (p, q) se puede definir como:
En...
Indica que el s-ésimo valor de píxel de brillo (?) en el bloque actual (macrobloque) y ha sido reconstruido anteriormente en el bloque (macrobloque) que se va a emparejar. ), s=1, 2,..., correspondiente al orden de escaneo de los píxeles rasterizados de un bloque de dimensión B (macrobloque) (los tamaños de bloque son diferentes según los diferentes métodos de codificación), r es el desplazamiento máximo posible del vector de movimiento .
Indica el valor JND de brillo del s-ésimo píxel del bloque actual (macrobloque). Cuando es 0, el cálculo del SAPD es el mismo que el del SAD.
El vector de movimiento se puede determinar haciendo coincidir el bloque (macrobloque) actual con el bloque (macrobloque) del cuadro reconstruido anterior mediante el criterio SAPD.
Después del procesamiento en (18), este algoritmo tiene un mejor rendimiento PSPNR y una velocidad de predicción de movimiento más rápida.
La complejidad de la predicción de movimiento es:
1. El número de vectores de movimiento candidatos en la ventana de búsqueda (es decir, puntos de búsqueda)
2. candidato La cantidad de cálculo necesaria para hacer coincidir los vectores de movimiento.
Por tanto, la velocidad de predicción del movimiento se puede mejorar desde dos aspectos: reduciendo el número de puntos de búsqueda (búsqueda rápida) o reduciendo el coste computacional de las operaciones de coincidencia para cada vector de movimiento candidato. El concepto de SAPD se puede aplicar a la estimación completa del movimiento de búsqueda y a cualquier algoritmo de búsqueda y coincidencia rápida.
Para el algoritmo de búsqueda rápida, SAPD no considera la distorsión objetiva por debajo de la configuración JND, por lo que aumenta la probabilidad de que ocurra 0 y también evita la búsqueda profunda cuando el cambio de bloque (macrobloque) está por debajo del detectable. nivel, no tiene valor. Una vez que se produce un valor SAPD de 0 o un valor de SAPD suficientemente pequeño, se puede finalizar la estimación de movimiento del bloque actual (macrobloque).
Filtro adaptativo residual JND
Después de la compensación de movimiento, la imagen restante
donde está el componente de intensidad y el componente de color del píxel después de la compensación de movimiento. Cuando es más pequeño que la configuración JND, es invisible para el ojo humano, por lo que no está codificado, lo que no afectará el efecto de visualización y mejorará la eficiencia de la codificación.
Especificando la codificación entre cuadros anterior (?), podemos pasar el residual que requiere transformación DCT a través del filtro residual adaptativo JND:
Se utiliza un umbral para garantizar que en el frame Habilite este filtro cuando el movimiento sea relativamente pequeño. Como regla general, este valor suele establecerse en 10. (El paso de cuantificación promedio es mayor que este valor, lo que indica grandes cambios de píxeles, es decir, movimiento rápido... obviamente). Cuando el filtro residual adaptativo JND está activado, para un bloque (macrobloque), si el residual en todo el bloque no excede el umbral JND, entonces este bloque (macrobloque) puede considerarse como un bloque todo cero para simplificar la compresión. Si solo una parte de los residuos está por debajo del umbral JND, la varianza de los coeficientes DCT será menor después de pasar por el filtro residual. Desde una perspectiva de distorsión de velocidad, una señal con baja varianza tendrá una señal reconstruida con baja distorsión objetiva a una velocidad de bits determinada.
Para un bit determinado, si el residual por encima del umbral JND puede compensar la pérdida del residual por debajo del umbral JND, entonces el filtro residual adaptativo JND no solo puede reducir la distorsión perceptiva, sino también reducir la distorsión objetiva.
De lo contrario, se producirá un desbordamiento del búfer y la utilización del ancho de banda será baja. Cuando el movimiento promedio de la codificación entre cuadros anterior es relativamente pequeño, aquellos residuos por debajo del umbral JND se codificarán para utilizar completamente el ancho de banda y reducir la distorsión objetiva.
Análisis de distorsión de velocidad del filtro residual adaptativo JND
Seguido de una serie de análisis de distorsión de velocidad y datos experimentales (probablemente para demostrar "cuándo se realiza la comparación de movimiento promedio de cuadros anteriores codificando pequeño, aquellos residuos por debajo del umbral JND se codificarán para utilizar completamente el ancho de banda y reducir la distorsión objetiva").
Hasta ahora solo he leído esto y aún no he aprendido sobre la distorsión de tasas. Me tomaré un tiempo para leerlo y volveré a leer el artículo original. Quiero usar esto para una presentación en una clase de inglés y quiero capturar PPT.