La Red de Conocimientos Pedagógicos - Currículum vitae - Interpretación de artículos de LipNet

Interpretación de artículos de LipNet

Artículo: lipnet: lectura emocional de labios de un extremo a otro

Debido a la falta de orientación, cuando investigaba contenido en campos relacionados, rara vez veía análisis detallados de artículos relacionados con la lectura de labios en sitios web chinos, por lo que Gasté mucho dinero, mucho tiempo y esfuerzo. Este artículo analiza un trabajo pionero en este campo a nivel de frase e introduce los puntos clave del artículo. Antes de este artículo, la mayor parte del trabajo de Lipreading se centraba en el reconocimiento de letras, palabras, números o frases, el cual tiene ciertas limitaciones. Aunque los patrones de oraciones en los datos utilizados en este artículo son limitados y el vocabulario es relativamente pequeño, esto no impide que se reconozcan en la escala de oraciones y se logren resultados bastante buenos.

Primero, introduzca el conjunto de datos. El conjunto de datos de cuadrícula es un conjunto de datos a nivel de oración que contiene más de 30.000 datos. Cada dato es un video. El contenido del video es una persona que pronuncia una oración fija, correspondiente a una etiqueta de texto, y la hora de inicio y finalización de cada palabra están marcadas en la etiqueta. El patrón de oración de la oración es limitado, no una oración natural lógica, es decir:?

En otras palabras, cada oración consta de 6 tipos fijos de palabras y el superíndice indica el número de tipos de palabras en el conjunto de datos, como por ejemplo? Explique que esta posición es una palabra de color (como azul) y que hay cuatro palabras de color en el conjunto de datos.

Además, debe entenderse que el Vídeo I del conjunto de datos tiene 34 carpetas, correspondientes a vídeos grabados por 34 personas diferentes. Cada carpeta contiene miles de datos de vídeo, todos grabados por la misma persona. En experimentos posteriores, el autor utilizará dos métodos diferentes para el entrenamiento y las pruebas: (1) usar videos de 30 personas para el entrenamiento y videos de otras 4 personas para las pruebas, es decir, oradores invisibles (2) de los videos de; Se seleccionaron aleatoriamente 34 personas, 255 videos como datos de prueba y el resto se usaron como datos de entrenamiento;

Primero, de acuerdo con el método de agrupación introducido al final de la sección del conjunto de datos, los datos se dividieron en Dos conjuntos de entrenamiento y un conjunto de pruebas. Luego, utilizando los detectores de reconocimiento facial existentes, cada fotograma del vídeo se procesa como. Un marco de tamaño que contiene sólo la boca. Finalmente, cada cuadro se normaliza.

(1) Se utilizan secuencias de imágenes regulares y secuencias de imágenes invertidas horizontalmente para el entrenamiento, respectivamente.

(2) Dado que el conjunto de datos proporciona la hora de inicio y finalización de cada palabra, cada palabra; se puede utilizar La secuencia de cuadros de imagen correspondiente a la palabra se usa para entrenar el modelo;

(3) Eliminar o copiar aleatoriamente algunos cuadros, con la probabilidad establecida en 0.05;

Después Al presentar la organización de los datos, todo el mundo sabe que esto es El problema de Seq2seq es muy similar a la rutina de reconocimiento de voz. Por tanto, la rutina de lectura de labios es en gran medida una fusión de rutinas de CV y ​​rutinas de traducción automática.

La estructura del modelo de este artículo no es nada especial y hay muchas tonterías en este artículo. En resumen, en realidad utiliza convolución 3D para extraer las características del marco de la imagen, luego usa dos capas de GRU bidireccional como códec para generar un valor predicho y, finalmente, usa una capa completamente conectada para generar la probabilidad predicha. En general, la estructura del modelo no es complicada y existen algunas mejoras.

Además, cabe destacar la función de pérdida. Este artículo utiliza la función de pérdida CTC, que es una función de pérdida clásica utilizada en el reconocimiento de voz para evitar la alineación de cuadros y caracteres. Consulte este artículo para obtener más detalles.

Los indicadores de WER y CER son la tasa de error de palabras y la tasa de error de caracteres respectivamente, es decir, la tasa de error de palabras y la tasa de error de caracteres. Por supuesto, cuanto más bajo, mejor. Los indicadores se dividen en dos columnas: altavoces invisibles y altavoces superpuestos, que corresponden respectivamente a los resultados de las pruebas bajo los dos métodos de partición de datos introducidos en la sección del conjunto de datos. Se puede ver que los diversos indicadores de LipNet en el conjunto de datos de la cuadrícula alcanzaron el mejor nivel en ese momento. Muchos trabajos posteriores en conjuntos de datos de cuadrícula han alcanzado el 1,0% ~ 2,0%, pero el rendimiento en conjuntos de datos LRS, como los conjuntos de datos de cuadrícula, está lejos de ser bueno porque las oraciones en los conjuntos de datos de cuadrícula El modelo es único, con el rostro humano mirando la cámara y sólo se puede utilizar para investigaciones básicas. El reconocimiento a nivel de oración de la lectura de labios en escenas naturales todavía tiene un largo camino por recorrer.

El nivel es limitado, las críticas y correcciones de todos son bienvenidas. Si tiene alguna pregunta, pueden discutirla juntos.