La Red de Conocimientos Pedagógicos - Currículum vitae - AAAI 2022: traducción de voz de un extremo a otro con restricciones de coherencia de triangulación impulsadas por inteligencia artificial;

AAAI 2022: traducción de voz de un extremo a otro con restricciones de coherencia de triangulación impulsadas por inteligencia artificial;

La traducción de voz de un extremo a otro se está volviendo cada vez más popular debido a su potencial para una menor propagación de errores, una menor latencia y modelos más pequeños.

Para un corpus de entrenamiento triple determinado, los sistemas tradicionales de traducción de voz de extremo a extremo de alta calidad adoptan modelos previamente entrenados y luego los optimizan aún más.

Sin embargo, este proceso solo involucra datos binarios en cada etapa, y este acoplamiento flexible no logra utilizar completamente la asociación entre datos ternarios. Nuestro trabajo intenta modelar la probabilidad conjunta de transcripción y traducción basada en la entrada de voz para explotar directamente dichos datos tripletes. Sobre esta base, se propone un nuevo método de entrenamiento de regularización de consistencia de descomposición triangular para mejorar la consistencia de la descomposición de ruta dual.

En respuesta a este problema, Du Yichao, estudiante de maestría en la Universidad de Ciencia y Tecnología de China, explicó la solución de su equipo en esta edición de "AI Drive". Este es también su último trabajo publicado en. "AAAI 2022": con Triangle Traducción de voz de un extremo a otro con restricciones de coherencia descompuestas.

Este trabajo fue completado conjuntamente por la Universidad de Ciencia y Tecnología de China, la Academia Alibaba Damo, la Universidad Rutgers y el Laboratorio de IA Tencent.

El contenido de este número se dividirá principalmente en (el ppt en vivo se puede obtener en los antecedentes de la "Escuela de lucha de datos"):

1. y asociación de tareas de traducción de voz? Haz una reseña

2. El método propuesto en este estudio: 3? ¿descomponer? ¿Un lenguaje de extremo a extremo para las limitaciones sexuales? ¿traducir? Ley

3. Análisis experimental: Análisis experimental de rendimiento y correlación en conjuntos de datos de referencia.

4. Resumen

AI Drive no. 98-Du Yichao, Universidad de Ciencia y Tecnología de China: traducción de voz de un extremo a otro con restricción de coherencia de descomposición triangular-posición de Bili Bili Convenio (e2e-St. TDA). Desde el punto de vista del modelo, incluye un codificador y un decodificador. En la parte del codificador, se utilizan dos capas convolucionales unidimensionales para reducir la resolución de la señal de voz y se utiliza un codificador de transformación para obtener la salida del codificador. El decodificador es el núcleo de nuestro método y se divide en dos pasos. El primer paso es decodificar las rutas duales en el lado objetivo para que todos los datos se incluyan en el mismo modelo para el entrenamiento. El segundo paso es cerrar la representación de salida entre las dos rutas mediante regularización.

En primer lugar, damos el proceso específico de decodificación de doble canal. Después de que el decodificador recibe la salida del codificador, modela conjuntamente el texto transcrito y el texto traducido en el extremo de destino, es decir, genera una secuencia conjunta del texto transcrito y el texto traducido. Distinguimos diferentes rutas de decodificación según el identificador de idioma, por ejemplo antes del identificador de idioma.

De acuerdo con la regla de descomposición en cadena, las dos fórmulas mencionadas anteriormente deberían ser consistentes en teoría, pero en el proceso de entrenamiento real, la optimización de Los dos caminos son independientes, la dificultad de aprendizaje y el conocimiento previo son diferentes y pueden no ser iguales en la práctica. Para resolver este problema, introducimos dos términos de regularización basados ​​en la salida de probabilidad para reducir la falta de coincidencia entre las secuencias producidas por las dos rutas. Específicamente, tomando "perro" como ejemplo, al utilizar la divergencia KL como término de regularización para eliminar la falta de coincidencia entre las dos rutas, la salida "perro" de ASR-MT y la salida "perro" de ST-BT reducen la probabilidad. distribución. Este proceso se puede formalizar como la siguiente figura.

Por último, las imágenes se pueden utilizar para optimizar el entrenamiento del modelo. En la inferencia, para ST, elegimos la ruta ST-BT para decodificación y reconocimiento. En la parte experimental, utilizamos el conjunto de datos de traducción de voz de código abierto más grande, MuST-C, para evaluar el método propuesto. Los datos de audio de este conjunto de datos provienen de TED Talks y contienen datos triples del inglés a 8 idiomas europeos. La siguiente figura muestra las estadísticas específicas y el método de comparación. Para la configuración del modelo, se divide en modelo de pequeña escala y modelo de mediana escala. Utilizamos la puntuación BLEU para evaluar la calidad de la traducción y WER para evaluar el rendimiento ASR.

La siguiente tabla muestra los resultados de rendimiento de varios métodos en el equipo de prueba MuST-C. Podemos observar que nuestro método e2e-STDA logra los mejores resultados en todos los aspectos.

Al mismo tiempo, el rendimiento de la tarea ASR mejora en 1,5/1,9 en comparación con el modelo de referencia. Esto muestra que nuestro método puede mejorar simultáneamente el rendimiento de ASR y ST después de extraer las asociaciones entre triples.

Además, también realizamos experimentos en escenarios más realistas, es decir, utilizando datos a mayor escala.

Para datos de audio, ampliamos los datos de 960h Librispeech ASR; para datos de texto, ampliamos los datos WMT14 En-De/Fr. A través del experimento se extraen dos conclusiones: e2e-Saint TDA puede expandirse efectivamente a escenarios de datos a gran escala y lograr que el rendimiento SOTA de datos a gran escala pueda mejorar efectivamente el rendimiento de la traducción;

El siguiente paso es el experimento de ablación, que compara WordKD/SeqKD y la situación de eliminar el término regular de KL. Los resultados experimentales muestran que los términos regulares pueden ayudar eficazmente al modelo a reducir el desajuste entre rutas.

Para verificar más a fondo si la escala de parámetros afecta la ganancia de rendimiento, utilizamos la dimensión de incrustación de (256, 512, 768, 1024) para el término MuST-C En-De. Los resultados detallados se muestran en la siguiente figura. A medida que aumenta la dimensión de incorporación, la tendencia de ganancia de rendimiento tiende a ser consistente con la curva de rendimiento del modelo básico, lo que indica que nuestro modelo tiene un cierto grado de robustez.

En este estudio, proponemos un nuevo método de regularización unificado para la descomposición triangular. Esto mejora el rendimiento general de la traducción al explorar asociaciones entre triples de datos. Se agregan dos términos de regularización para eliminar la discrepancia entre rutas duales. Al mismo tiempo, los experimentos con conjuntos de datos de referencia verifican la eficacia del método.

Data Fighters espera utilizar datos reales y casos reales de la industria para ayudar a los lectores a mejorar sus capacidades comerciales y construir una interesante comunidad de big data.