¿Qué es el juego de caracteres GBK?
Categoría: Educación/Ciencia gt; Ayuda para el aprendizaje
Descripción del problema:
¿Cuál es la función, ventajas y desventajas de simplemente explicar los sustantivos? Conjunto de caracteres GBK, el momento de su aparición
Análisis:
GBK es otro estándar de codificación de caracteres chinos, el nombre completo es "Especificación de extensión de código interno chino" (GBK). el nombre en inglés es Especificación del Código Interno Chino, República Popular de China ***El Comité Técnico Nacional de Normalización de Tecnologías de la Información de la República Popular de China fue creado el 1 de diciembre de 1995. El Departamento de Normalización de la Oficina Estatal de Supervisión Técnica y Ciencia y el Departamento de Supervisión de Tecnología y Calidad del Ministerio de Industria Electrónica emitieron conjuntamente una carta de supervisión técnica el 15 de diciembre de 1995 [1995] 229 No. 1, definiéndola como un documento de orientación de especificaciones técnicas, publicándola e implementándola. Esta versión de la especificación GBK es la versión 1.0. GB significa "estándar nacional" y K es la primera letra de "extendido" en Pinyin chino.
GBK es compatible con la codificación GB 2312 y admite hacia arriba el estándar internacional ISO 10646.1. Es un estándar de conexión en el proceso de transición del primero al segundo.
ISO 10646 es un estándar de codificación publicado por la Organización Internacional de Normalización ISO, a saber, el conjunto universal de caracteres codificados de múltiples octetos (UCS). Se traduce como "conjunto universal de caracteres codificados de múltiples octetos" en China continental. y "Conjunto de caracteres codificados multiocteto universal" en Taiwán "Conjunto de caracteres de codificación multiocteto ampliamente utilizado", que es totalmente compatible con la codificación Unicode de la organización Unicode. ISO 10646.1 es la primera parte de la norma, "Arquitectura y plano multilingüe básico". mi país lo reconoció en forma de estándar nacional GB 13000.1 en 1993 (es decir, GB 13000.1 es equivalente a ISO 10646.1).
ISO 10646 es un sistema de codificación que incluye formas escritas y símbolos adicionales para varios idiomas del mundo. La parte de los caracteres chinos se llama "Caracteres chinos unificados CJK" (C significa China, J significa Japón y K significa Corea del Norte). La parte china incluye caracteres y símbolos chinos de estándares legales como GB 2312, GB 12345 y la "Lista de caracteres universales del chino moderno" originarios de China continental, así como el primer y segundo literal (caracteres básicos) del estándar CNS 11643 originario. de Taiwán. Equivalente a la codificación BIG-5), caracteres y símbolos chinos literal 14.
1. Vocabulario
La especificación GBK contiene todos los caracteres y símbolos chinos CJK en ISO 10646.1 y se ha complementado. Incluya específicamente:
1. Todos los caracteres chinos y símbolos de caracteres no chinos en GB 2312.
2. Otros caracteres chinos CJK en GB 13000.1. Lo anterior suma un total de 20902 GB de caracteres chinos.
3. Los 52 caracteres chinos de la "Lista de caracteres simplificados" no están incluidos en GB 13000.1.
4. Los 28 radicales y componentes importantes de GB 13000.1 no están incluidos en el "Diccionario Kangxi" ni en el "Cihai".
5. 13 caracteres de estructura de caracteres chinos.
6. 139 símbolos gráficos en BIG-5 que no están incluidos en GB 2312 pero existen en GB 13000.1.
7. GB 12345 añade 6 símbolos pinyin.
8. El carácter chino "○".
9. GB 12345 añade 19 signos de puntuación verticales (GB 12345 añade 29 signos de puntuación verticales respecto a GB 2312, 10 de los cuales no están incluidos en GB 13000.1, por lo que GBK no los incluye).
10. 21 caracteres chinos seleccionados de la zona de compatibilidad CJK de GB 13000.1.
11. Ingresos de GB 13000.1 por 31 símbolos especiales de IBM OS/2.
2. Asignación y secuencia de bits de código
GBK también utiliza representación de doble byte. El rango de codificación general es 8140-FEFE, el primer byte está entre 81-FE y el último. el byte está entre 40-FE, elimine una línea xx7F. Un total de 23.940 puntos de código, incluidos 21.886 caracteres chinos y símbolos gráficos, incluidos 21.003 caracteres chinos (incluidos radicales y componentes) y 883 símbolos gráficos.
Toda la codificación se divide en tres partes:
1. Área de caracteres chinos. Incluyendo:
a. GB 2312 área de caracteres chinos. A saber, GBK/2: B0A1-F7FE. Contiene 6763 GB 2312 caracteres chinos, ordenados en el orden original.
b. GB 13000.1 amplía el área de caracteres chinos. Incluye:
(1) GBK/3: 8140-A0FE. Contiene 6080 caracteres chinos CJK en GB 13000.1.
(2) GBK/4: AA40-FEA0. Contiene 8160 caracteres chinos CJK y caracteres chinos suplementados. Los caracteres chinos CJK están al principio, ordenados según el tamaño del código UCS; los caracteres chinos suplementarios (incluidos radicales y componentes) están al final, ordenados según el número de página/posición de caracteres del "Diccionario Kangxi".
2. Área de símbolos gráficos. Incluyendo:
a. GB 2312 área de símbolos de caracteres no chinos. Es decir GBK/1: A1A1-A9FE. Además de los símbolos de GB 2312, hay 10 números romanos en minúscula y símbolos complementados por GB 12345. Hay 717 símbolos en total.
b. GB 13000.1 amplía el área de caracteres no chinos. A saber, GBK/5: A840-A9A0. BIG-5 Los símbolos de caracteres no chinos, los símbolos estructurales y "○" están organizados en esta área. Hay 166 símbolos en total.
3. Área definida por el usuario: dividida en tres áreas (1) (2) (3).
(1) AAA1-AFFE, 564 puntos de código.
(2) F8A1-FEFE, 658 puntos de código.
(3) A140-A7A0, 672 puntos de código.
Aunque el área (3) está abierta a los usuarios, su uso está restringido porque no se puede descartar la posibilidad de añadir nuevos personajes a esta área en el futuro.
3. Fuentes
GBK tiene las siguientes disposiciones sobre fuentes:
1. En principio, es consistente con la columna GB 13000.1 G (es decir, derivada de los estándares legales de China continental (los glifos/trazos debajo de los caracteres chinos) siguen siendo consistentes.
2. Dentro del marco general de las reglas de reconocimiento de caracteres chinos CJK, implemente una "ortografía de codificación no duplicada" ("GB-ización") para todos los caracteres chinos codificados en GBK, es decir, intente utilizar "; Método de "codificación no duplicada" sin causar duplicación de códigos. Nuevos glifos chinos.
3. Para los caracteres chinos que exceden las reglas de reconocimiento de caracteres chinos CJK, o las reglas de reconocimiento no se han estipulado claramente, los glifos antiguos se colocan temporalmente en los puntos del código GBK. De esta manera, en muchos casos GBK incluye glifos nuevos y antiguos del mismo carácter chino.
4. Los glifos de símbolos de caracteres no chinos que ya están incluidos en GB 2312 deberán ser consistentes con GB 2312; las partes posteriores a GB 2312 serán consistentes con GB 13000.1.
5. Las letras Pinyin con tonos están en forma de medio ancho.