La Red de Conocimientos Pedagógicos - Conocimientos históricos - ¿Qué es el chino?

¿Qué es el chino?

Chino

Chino: como lengua materna de una nación, el chino es la rama más grande del sistema de lenguaje popular en el mundo actual. Fue fundado durante la vida de Huangdi BC y construido a finales del siglo XX. Es un sistema lingüístico con el origen más temprano y la madurez más tardía. Es un símbolo y un logro de la civilización oriental y un importante portador de información utilizado por los humanos para nombrar y definir con precisión todas las cosas. Este sistema incluye miles de palabras comunes y miles de modismos y es una parte integral de la sociedad civilizada. Un editor de Beijing

Desde que se planteó el tema de la traducción automática a principios de la década de 1950, la historia de la investigación y el desarrollo del procesamiento del lenguaje natural tiene al menos 50 años. A principios de la década de 1990, los objetivos de investigación de la PNL comenzaron a pasar del procesamiento restringido del lenguaje a pequeña escala al procesamiento de texto real a gran escala. Fue la 13ª Conferencia Internacional sobre Lingüística Computacional celebrada en Helsinki en 1990 la que incorporó formalmente este nuevo objetivo al tema de la conferencia. Esos sistemas limitados de análisis del lenguaje con sólo unos pocos cientos de entradas y docenas de reglas gramaticales a menudo son llamados en broma "juguetes" por la gente de la industria. Es poco probable que tengan algún valor práctico. Lo que los gobiernos, las empresas y los usuarios de computadoras esperan es un sistema práctico que pueda manejar textos reales a gran escala, como la introducción de caracteres chinos, máquinas de dictado de voz, conversión de texto a voz (TTS), motores de búsqueda, extracción de información (IE ), seguridad de la información y traducción automática (MT).

Basándose en este hito, el autor enumeró cuatro perspectivas de aplicación para el procesamiento de texto real a gran escala en 1993: una nueva generación de sistemas de recuperación de información editados según las necesidades del cliente; está a punto de convertir texto estructurado en una base de datos de información estructurada anotación automática de corpus a gran escala; Afortunadamente, estas cuatro direcciones han logrado resultados prácticos o comerciales en la actualidad.

Aunque el mundo considera el procesamiento de texto real a gran escala como el objetivo estratégico de la PNL, esto no significa que las tecnologías de análisis del lenguaje natural como la traducción automática, el diálogo de voz y la traducción telefónica deban detenerse o basarse en comprensión profunda en campos limitados de la investigación teórica. La diversidad de objetivos y tareas es un sello distintivo de una comunidad académica próspera. El problema es considerar claramente dónde está el principal campo de batalla de la PNL y dónde debería desplegarse nuestra fuerza principal.

¿El chino es difícil?

Cuando se trata de los principales problemas de aplicaciones que enfrentan el procesamiento de información chino, como la entrada de caracteres chinos y el reconocimiento de voz, que las empresas y los usuarios de computadoras esperan con ansias, no parece haber desacuerdo. Sin embargo, cuando la discusión se profundiza en los métodos o rutas técnicas para alcanzar estos temas, las diferencias inmediatamente quedan claramente definidas. La primera visión es que la esencia del procesamiento de información chino es la comprensión china, es decir, el análisis sintáctico y semántico de textos chinos reales. Los académicos que sostienen este punto de vista creen que los métodos probabilísticos y estadísticos utilizados en el procesamiento de información chino en el pasado han llegado a su fin. Para resolver el problema del procesamiento de la información china a nivel de comprensión o lenguaje, debemos encontrar otra forma, que es la semántica. Se dice que esto se debe a que el chino se diferencia de los idiomas occidentales en que su sintaxis es bastante flexible y es esencialmente un lenguaje semántico.

Al contrario del punto de vista anterior, la mayoría de los sistemas de aplicación mencionados anteriormente (excepto MT) en realidad se implementan sin análisis sintáctico y semántico, por lo que no se "entienden". Si debemos decir "comprensión", es sólo la llamada "comprensión" confirmada por el experimento de Turing.

El foco de la disputa entre las dos partes anteriores es el método, pero los objetivos y los métodos suelen ser inseparables. Si estamos de acuerdo en que el procesamiento de texto real a gran escala es un objetivo estratégico de la PNL, entonces las teorías y métodos para lograr este objetivo inevitablemente sufrirán los cambios correspondientes. Casualmente, la Cuarta Conferencia Internacional sobre Teoría y Métodos de Traducción Automática (TMI-92), celebrada en Montreal en 1992, anunció que el tema de la conferencia era "Empirismo y racionalismo en la traducción automática". Se trata de una admisión abierta de que, además de las técnicas tradicionales de PNL basadas en la lingüística y la inteligencia artificial (racionalismo), está surgiendo rápidamente un nuevo enfoque basado en corpus y modelos estadísticos del lenguaje (empirismo).

Los objetivos estratégicos de la PNL y los métodos de corpus correspondientes se obtienen del escenario académico internacional, y el procesamiento de información chino no es una excepción. La idea de que el procesamiento de textos en chino es tan difícil que se necesita otro enfoque carece de base fáctica convincente. Tomemos como ejemplo la recuperación de información (IR), su tarea es encontrar documentos relacionados con las consultas de los usuarios en bibliotecas de documentos a gran escala. Cómo expresar el contenido de documentos y consultas y cómo medir la relevancia de documentos y consultas se han convertido en dos cuestiones básicas que la tecnología de recuperación de información debe resolver. La tasa de recuperación y la tasa de precisión son dos indicadores principales para evaluar los sistemas de recuperación de información.

Dado que los documentos y consultas se expresan en lenguaje natural, esta tarea se puede utilizar para ilustrar que los problemas que enfrentan los idiomas chino y occidental son en realidad muy similares. En términos generales, los sistemas IR en varios idiomas utilizan la frecuencia de palabras (tf) y la frecuencia de documentos invertidos (idf) en documentos y consultas para representar el contenido de documentos y consultas, por lo que es esencialmente un método estadístico.