Traducción instantánea La tecnología inteligente de Google cierra la brecha lingüística entre las personas.
En el pasado, los subtítulos eran preeditados para el formato de vídeo o subtítulos en tiempo real escritos por el personal de postproducción y reproducidos en la televisión, pero ahora los "subtítulos en vivo" cambiarán esta situación y cualquier usuario Simplemente con unos pocos toques en la pantalla, puede obtener subtítulos de audio y video instantáneos y precisos.
Los “subtítulos en tiempo real” de Google son un tipo de tecnología de procesamiento del lenguaje natural (PLN) y pertenecen a la inteligencia artificial. Utiliza algoritmos para facilitar cierta "interacción" entre humanos y máquinas. La PNL nos ayuda a decodificar el lenguaje humano en lenguaje de máquina.
La Historia de la Computación Inteligente
Para entender la historia de la PNL, debemos remontarnos a la historia de Alan Turing, el científico más innovador de los tiempos modernos. En 1950, Turing publicó un famoso artículo "Computing Machines and Intelligence", que analizaba la idea de la conciencia y el pensamiento informático, afirmando que no había ningún argumento convincente de que las máquinas no pudieran pensar como los humanos, y propuso el "Juego de imitación". (ahora llamado “Prueba de Turing”). Propuso una forma de medir si la inteligencia artificial puede pensar por sí misma. Si puede inducir a las personas con cierta probabilidad a creer que puede ser humano, entonces puede considerarse inteligente.
De 1964 a 1966, el científico alemán Joseph Wiesenbaum escribió un algoritmo de programación neurolingüística llamado ELIZA, que utilizaba técnicas de coincidencia de patrones para crear conversaciones. Por ejemplo, en un script que habla con la computadora de un "doctor", si un paciente le dice "Me duele la cabeza" a la computadora, la computadora del médico responderá con una frase similar, como "¿Por qué tiene dolor de cabeza?". Este algoritmo convierte a Eliza en uno de los chatbots más antiguos.
1980 supuso un importante punto de inflexión en la PNL. En el pasado, los sistemas de PNL como ELIZA formaban conversaciones basadas en un complejo conjunto de reglas, y la inteligencia artificial no podía "pensar" por sí sola, sino que era un poco como un chatbot, que usaba respuestas "preestablecidas" para adaptarse. escenario de conversación.
A finales de la década de 1980, la PNL se centró en modelos estadísticos para ayudarles a formar conversaciones basadas en probabilidades.
¿Cómo funciona la traducción inteligente?
La tecnología PNL moderna para el reconocimiento de voz incluye algunos principios comunes, como el reconocimiento de voz, el reconocimiento de voz, el reconocimiento de idioma y la grabación diaria, y también puede distinguir a los hablantes.
Live Subtitles utiliza tres modelos de aprendizaje profundo: dos redes neuronales recurrentes RNN (una para reconocimiento de voz y otra para puntuación) y una red neuronal convolucional (CNN) para clasificar eventos de audio. Las señales emitidas por estos tres modelos definen la forma y la trayectoria de toda la traducción, permitiendo un reconocimiento fluido incluso con sonidos musicales.
Cuando se reconoce voz en formato de audio o vídeo, se activa el sistema de reconocimiento automático de voz, lo que permite que el dispositivo comience a convertir palabras en texto. Cuando la conversación se detiene, como cuando se reproduce música, el sistema dejará de funcionar para ahorrar batería del teléfono y aparecerá la palabra "Música" en la pantalla.
Una vez completada la conversión del texto pinyin, se agregarán signos de puntuación a una oración completa. Los signos de puntuación se ajustarán continuamente para que los resultados calculados por el sistema no interfieran con el significado de la oración completa. .
Actualmente, Live Subtitles solo puede crear traducciones indicativas de texto en inglés; todavía se está mejorando y algún día se expandirá a otros idiomas. Sin embargo, ahora están disponibles versiones anteriores de subtítulos en español, alemán y portugués en Google Meet.
El idioma representa una enorme brecha de comunicación entre las personas y la tecnología tiene un potencial increíble para unir a las personas. La tecnología de procesamiento del lenguaje natural puede cerrar estas brechas entre las personas y construir juntos un futuro mejor.