Actualmente, el módulo de traducción AI se puede utilizar en tiempo real. Sin embargo, debido a diversos factores, como pausas en el discurso de cada persona, pronunciación no estándar y repetición de palabras redundantes como frente, bueno, etc. El reconocimiento de voz requiere una cierta cantidad de almacenamiento en búfer del habla y comprensión del contexto para reconocer correctamente palabras, frases y oraciones cortas, mientras que la traducción del habla requiere una traducción basada en las palabras reconocidas. Una vez que el reconocimiento de palabras es incorrecto, especialmente cuando diferentes palabras con la misma pronunciación se traducen a diferentes significados, los errores pueden ser muy escandalosos. Por supuesto, la traducción en sí también es ridícula. Por lo tanto, el modelo de reconocimiento, el modelo de procesamiento de textos y el modelo de traducción deben entrenarse específicamente para escenarios específicos, pero el cálculo del modelo en sí no introducirá demasiado retraso, y los otros dos retrasos están en la sincronización de palabras, sonido e imágenes. y secundaria Introducido en la codificación. Al mismo tiempo, para ser compatible con algunas personas que hablan rápido y garantizar que los caracteres se puedan mostrar durante un cierto período de tiempo, es necesario agregar algo de retraso.
En resumen, el procesamiento de traducción de IA introducirá un retraso adicional de 500 ms ~ 2 s en todo el enlace de transmisión en vivo.
Entonces podemos observar el retraso completo del enlace. El retraso teórico de un extremo a otro de la transmisión en vivo de la traducción de IA puede ser de aproximadamente 1 segundo. La transmisión en vivo transfronteriza de AliExpress es un escenario de transmisión en vivo en tiempo real con un retraso de 5 a 10 segundos, que cae en la categoría de transmisión en vivo en tiempo real. Se puede ignorar el retraso adicional introducido por la traducción de IA.
Y no solo las transmisiones en vivo de comercio electrónico, sino también las transmisiones en vivo de juegos pueden agregar subtítulos y traducciones en tiempo real. Por ejemplo, en el evento S10 de este año, una plataforma de transmisión en vivo utilizó la función de subtítulos en tiempo real de Alibaba Cloud para realizar transmisiones en vivo con subtítulos en tiempo real de competencias a gran escala.