La Red de Conocimientos Pedagógicos - Aprendizaje de inglés - A menudo oigo a la gente decir "código". ¿Cómo explicas eso?

A menudo oigo a la gente decir "código". ¿Cómo explicas eso?

Codificación

Definición de codificación

La codificación es el proceso de convertir información analógica en un flujo de bits de acuerdo con un determinado protocolo o formato.

En hardware informático, la codificación es el proceso de convertir información en valores codificados (normalmente números) sobre temas o unidades con fines de almacenamiento, gestión y análisis de datos. En software, codificar significa ejecutar lógicamente un programa utilizando un lenguaje específico como C o C++. En criptografía, codificar es el acto de escribir un código o contraseña.

Convierta datos en códigos o caracteres codificados y tradúzcalos a datos sin procesar. Es parte del proceso de escribir instrucciones y programar una computadora. En el dibujo automático de mapas, el contenido del mapa se representa mediante números y letras de acuerdo con ciertas reglas y, mediante codificación, la computadora puede identificar los elementos geográficos del mapa.

Los números binarios de n bits se pueden combinar en 2n piezas de información diferentes, y cada pieza de información especifica un grupo de códigos específico. Este proceso también se llama codificación.

Existen dos tipos de códigos comúnmente utilizados en los sistemas numéricos, uno es el código binario y el otro es el código binario-decimal.

Sistema de codificación de caracteres chinos

1. ASCII y binario

Hay dos tipos de archivos con los que entramos en contacto todos los días: ASCII y binario. ASCII es la abreviatura de "Código estándar americano para el intercambio de información" y puede denominarse "Estándar americano". El estándar estadounidense estipula un código estándar que utiliza 128 números del 0 al 127 para representar información, incluidos 33 códigos de control, un código de espacio y 94 códigos de imagen. Los códigos de imagen incluyen letras mayúsculas y minúsculas en inglés, números arábigos, signos de puntuación, etc. El texto informático en inglés que leemos habitualmente se transmite y almacena en forma de codificación de imágenes. Los estándares americanos son códigos comunes para la mayoría de las computadoras del mundo.

Sin embargo, la mayoría de los caracteres de los ordenadores están representados por números binarios de ocho bits. Por tanto, cada carácter puede tener 256 valores numéricos diferentes. Debido a que el estándar estadounidense solo estipula 128 códigos, los 128 códigos restantes no están estandarizados y tienen usos diferentes. Además, el uso de los 33 códigos de control en la norma estadounidense no es consistente entre los fabricantes. Por eso, cuando intercambiamos archivos entre diferentes ordenadores, es necesario distinguir entre dos tipos diferentes de archivos. Cada palabra en el primer tipo de archivo es un código de imagen estándar americano o un código de espacio. Estos archivos se conocen como "archivos de texto ASCII" o, en cierto modo, "archivos de texto" y, a menudo, pueden intercambiarse directamente entre diferentes sistemas informáticos. El segundo tipo de archivos, archivos que contienen código de control o código estándar no estadounidense, generalmente no se pueden intercambiar directamente entre diferentes sistemas informáticos. Existe un nombre común para este tipo de archivo, llamado "archivo binario".

2. Normas nacionales, ubicaciones y normas cuasinacionales.

"Estándar Nacional" es la abreviatura de "Código de Caracteres Chinos de Intercambio de Información Estándar Nacional de la República Popular China". La tabla estándar nacional (tabla básica) organiza más de 7.000 caracteres chinos, signos de puntuación, letras extranjeras, etc. Se convierte en una matriz cuadrada con 94 filas y 94 columnas. Cada fila de la matriz cuadrada se denomina "región" y cada región tiene 94 "bits". Las coordenadas de un carácter chino en la matriz cuadrada se denominan "código de posicionamiento" del carácter. Por ejemplo, la palabra "中" está en la posición 48 del Área 54 en la matriz cuadrada y su código de área es 5448.

En realidad, el número 94. Es el número total de códigos de imagen en el estándar americano. La tabla estándar nacional sigue este número y la intención original probablemente sea utilizar dos íconos estándar estadounidenses para representar un carácter chino. Dado que la codificación de los símbolos de imágenes estándar estadounidenses es de 33 a 126, si se agrega 32 al área de caracteres chinos y al código de bits, se superpondrá con el rango de codificación de imágenes estándar estadounidense. Como en el ejemplo anterior, después de sumar 32 al área de palabras "intermedia" y al código de bits, obtenemos 86, 80. Los números hexadecimales de estos dos números se suman para obtener 5650, que se denomina "código estándar nacional" de la palabra. Los dos símbolos estándar estadounidenses VP correspondientes son también los "símbolos estándar nacionales" de la palabra "中".

Existe el problema de cómo distinguir los símbolos estándar nacionales y los símbolos estándar estadounidenses. En documentos que están mezclados en chino e inglés, ¿"VP" significa "chino" o es una abreviatura del prefijo en inglés? Cuando el Sexto Instituto de Investigación del Ministerio de Industria Electrónica desarrolló CCDOS, utilizó un plan simple: agregar 128 al número de dos dígitos del código estándar nacional para ascender a la posición del código estándar no estadounidense. (El código estándar nacional modificado todavía se denomina habitualmente "estándar nacional".)

Aunque esta solución resolvió el problema original, surgieron nuevos problemas.

Los archivos chinos se convierten en "archivos binarios" que no pueden intercambiarse de manera confiable entre diferentes sistemas informáticos y, además, son incompatibles con la mayoría de los programas del mercado diseñados para símbolos estadounidenses.

Para distinguir los dos "estándares nacionales" anteriores, llamamos al código estándar nacional original que se superpone con el código de imagen estándar estadounidense "estándar nacional puro", mientras que el código estándar nacional de CCDOS plus 128 es denominada "norma cuasi nacional".

3.Código GBK:

El código GBK es un código de caracteres extendido del código estándar nacional, que codifica más de 20.000 caracteres chinos simplificados y tradicionales. Las versiones simplificadas de Win95 y Win98 utilizan GBK como código interno del sistema.

Desde un punto de vista de aplicación práctica, a partir de la versión china simplificada de win95, Microsoft ha adoptado códigos GBK en el sistema, incluidas las fuentes TrueType Songti y Bold GBK (proporcionadas por Beijing Zhongyi Electronics Company), que se puede utilizar para mostrar e imprimir y proporciona cuatro métodos de entrada de caracteres chinos GBK. Además, las versiones en chino tradicional y simplificado del navegador IE4.0 proporcionan una función de conversión bidireccional del código GBK-BIG5. Además, en el paquete de idioma proporcionado por Microsoft para IE, las dos fuentes en el paquete de soporte de idioma chino simplificado son Song y Heidi, que también son caracteres chinos GBK (proporcionados por Zhuhai Sitong Computer Typesetting System Development Company). Otros fabricantes de fuentes chinos también han comenzado a ofrecer fuentes TrueType o PostScript GBK.

Muchas plataformas chinas de complementos, como invivo y Richwin, brindan soporte para códigos GBK, incluidas fuentes, métodos de entrada y convertidores entre GBK y otros códigos chinos.

En Internet, muchos sitios web utilizan código GBK.

Sin embargo, la mayoría de los motores de búsqueda no pueden admitir bien la búsqueda de caracteres chinos GBK y es posible que algunos motores de búsqueda en China continental no admitan completamente la búsqueda de caracteres chinos GBK.

De hecho, GBK es otro estándar de codificación de caracteres chinos. Su nombre completo es "Especificación de código interno chino", que se promulgó en 1995. GB es el estándar nacional y K es la primera letra del Pinyin chino.

GBK es compatible hacia abajo con la codificación GB-2312 y admite hacia arriba el estándar internacional ISO 10646.5438+0. Es el estándar de conexión del primero al segundo.

La especificación GBK incluye todos los caracteres y símbolos chinos CJK en ISO 10646.1, con algunas adiciones. Específicamente, incluye todos los caracteres chinos y no chinos en GB 2312; otros caracteres chinos CJK en GB 13000.1. El total anterior de 20902 GB de caracteres chinos; 52 caracteres chinos en GB 13000.1 no están incluidos en la tabla de resumen simplificada; 28 radicales y partes importantes en el "Diccionario Kangxi" y "Cihai" no están incluidos en GB 13000438+0; los símbolos 139 no están incluidos en la tabla de resumen simplificada. Los símbolos gráficos incluidos en GB 2312 pero presentes en BIG-5 en GB 13000.5438+0; 6 símbolos pinyin agregados en GB 12345; 19 símbolos gráficos verticales agregados en GB 2312; , se han agregado 29 signos de puntuación verticales a GB 10, 10 de los cuales no están incluidos en GB 13000.1 y, por lo tanto, no son aceptados por GBK. Se seleccionan 21 caracteres chinos del área de compatibilidad CJK de GB 13000.1 GB 13000.1 31 IBM OS/; 2 símbolos especiales. GBK también está representado por dos bytes, el rango de codificación general es 0x8140 ~ 0xFEFE, el primer byte es 0x81 ~ 0xFE y el último byte es 0x40 ~ 0xFE. Excluyendo una línea de 0x××7F, hay 23940 puntos de código, * * * que generan 21886 caracteres chinos y símbolos gráficos.

4. Código Big 5:

El código BIG5 es una codificación de caracteres chinos para caracteres chinos tradicionales y se usa ampliamente en sistemas informáticos en la provincia de Taiwán y Hong Kong. Para conocer el rango de codificación de códigos BIG5, consulte lo siguiente.

5. Código Hertz:

El código HZ es una codificación de caracteres chinos muy utilizada en Internet. La solución "HZ" se caracteriza por una mezcla de códigos estándar chinos y estadounidenses y "estándares nacionales puros". Entonces, ¿cómo distingue "HZ" entre los símbolos estándar nacionales y los símbolos estándar estadounidenses? En realidad, la respuesta es muy simple: cuando insertamos un código estándar nacional en medio de una cadena de códigos estándar estadounidenses, agregamos ~ antes del código estándar nacional y agregamos ~ después de él. Estos códigos adicionales se denominan "códigos de escape" y "códigos de escape".

Debido a que estos códigos adicionales también son códigos de imagen estándar americano, el archivo completo es como un archivo de texto estándar americano, que se puede transmitir de forma segura en la red informática y es compatible con la mayoría de los programas de procesamiento de texto en inglés.

6.Código CJK ISO-2022:

ISO-2022 es el estándar de codificación desarrollado por la Organización Internacional de Normalización (ISO) para varios caracteres de idiomas. Se utiliza codificación de doble byte, donde la codificación china se denomina ISO-2022 CN y las codificaciones japonesa y coreana se denominan JP y KR respectivamente. En términos generales, estos tres se denominan colectivamente códigos CJK. Actualmente, los códigos CJK se utilizan principalmente en Internet.

7.UCS e ISO 10646:

En 1993, el estándar internacional ISO10646 definió el Conjunto de Caracteres Universal (UCS). UCS es un superconjunto de todos los demás estándares de conjuntos de caracteres. Garantiza compatibilidad bidireccional con otros conjuntos de caracteres. En otras palabras, si traduce cualquier cadena de texto al formato UCS y luego la vuelve a traducir al código original, no perderá ninguna información.

UCS contiene caracteres utilizados para expresar todos los idiomas conocidos. Incluye no sólo descripciones de latín, griego, cirílico, hebreo, árabe, armenio y georgiano, sino también jeroglíficos como chino, japonés y coreano, así como hiragana, katakana, bengalí, punjabi, gurmukhi, tamil, kannada, Malayalam, tailandés y laosiano. Pinyin chino (Bopomofo), coreano, devangali, gujarati, oriya, telugu y otros idiomas. Para los idiomas que aún no se han agregado, eventualmente se agregarán mientras trabajamos en la mejor manera de codificarlos en una computadora. Estos idiomas incluyen el tibetano, el jemer, el nórdico antiguo, el etíope, otros jeroglíficos y varios idiomas indoeuropeos, así como una selección de lenguajes artísticos como el tengri, el sirte y el klingon. UCS también incluye una gran colección de símbolos gráficos, tipográficos, matemáticos y científicos, incluidos todos los caracteres proporcionados por fuentes TeX, Postscript, MS-DOS, MS-Windows, Macintosh, OCR y muchos otros sistemas de publicación y procesamiento de textos.

O 10646 define un juego de caracteres de 31 bits. Sin embargo, en este enorme espacio de codificación, hasta ahora solo se han asignado los primeros 65534 bits de código (0x0000 a 0xFFFD). Este subconjunto de 16 UCS se denomina plano multilingüe básico (BMP). Los caracteres a codificar fuera del BMP de 16 bits son caracteres muy especiales (como los jeroglíficos) que sólo utilizan los expertos en los campos de la historia y la ciencia. Como está previsto actualmente, es posible que a los caracteres fuera del espacio de codificación de 21 bits de 0x000000 a 0x10FFFF nunca se les asigne un valor en el futuro, lo que cubre más de 10.000 caracteres potenciales futuros. La norma ISO 10646-1 se publicó por primera vez en 1993 y define la estructura de los juegos de caracteres y el contenido en BMP. La segunda parte, ISO 10646-2, que define codificaciones de caracteres más allá de BMP, está en preparación pero puede tardar varios años en completarse. Se siguen agregando nuevos personajes a BMP, pero los personajes existentes son estables y no cambiarán.

UCS no sólo asigna a cada rol un código, sino que también le otorga un nombre oficial. Los números hexadecimales que representan valores UCS o Unicode generalmente comienzan con "U+", al igual que U+0041 representa el carácter "letra latina mayúscula A". Los caracteres UCS U+0000 a U+007F son consistentes con US-ASCII (ISO 646), y U+0000 a U+00FF también son consistentes con ISO 8859-1 (Latin-1). Desde U+E000 hasta U+F8FF, una amplia gama de códigos, excepto BMP, están reservados para uso privado.

En 1993, USC-4 (Conjunto de caracteres universales) definido en ISO10646 utilizaba un ancho de 4 bytes para acomodar una cantidad considerable de espacio, pero este estándar de caracteres con sobrepeso no estaba disponible en ese momento e incluso ahora se El lado poco práctico es que ocupará excesivamente espacio de almacenamiento y afectará la eficiencia de la transmisión de información. Al mismo tiempo, la organización Unicode comenzó a desarrollar un estándar de caracteres de 16 bits con el tema de universal, único y unificado hace unos 10 años. Para evitar la competencia entre las dos codificaciones de 16 bits, las dos organizaciones iniciaron negociaciones en 1992 para llegar a un compromiso y encontrar puntos en común.

Este es el UCS-2 (BMP, plano multilingüe básico, 16 bits) y Unicode actuales, pero siguen siendo soluciones diferentes.

8.Código Unicode:

Necesitamos rastrear el origen de Unicode.

Cuando las computadoras se extendieron por el este de Asia, China, Japón, Corea y otros países utilizaron ideogramas en lugar de lenguajes alfabéticos. Hay miles de caracteres de uso común en los idiomas utilizados en estos países, pero los caracteres originales están codificados de un solo byte y una página de códigos solo puede tener 28 = 256 caracteres como máximo, lo cual es impotente para los idiomas que usan personajes ideográficos. Dado que un byte no es suficiente, la gente naturalmente usa dos bytes, por lo que existe un juego de caracteres de codificación de doble byte (DBCS). Sin embargo, aunque los caracteres ideográficos en el juego de caracteres de doble byte están codificados con dos bytes, el código ASCII y el katakana japonés todavía están representados por un solo byte, lo que trae muchos problemas a los programadores, porque siempre que se diseña DBCS Al procesar cadenas , siempre es necesario determinar si un byte representa un carácter o medio carácter. Si es media palabra, ¿es la primera mitad o la segunda mitad? Esto demuestra que DBCS no es una buena solución.

La gente busca constantemente este mejor esquema de codificación de caracteres y el resultado final es el nacimiento de Unicode. Unicode es en realidad un conjunto de caracteres de bytes anchos. Cada carácter utiliza dos bytes, que son 16 bits, por lo que al procesar caracteres, no tiene que preocuparse por procesar solo medio carácter.

Actualmente, Unicode se ha aplicado en redes, sistemas Windows y muchos software de gran escala.

Algo de sentido común sobre la codificación estándar nacional

En los estándares de codificación estándar nacional, se utilizan comúnmente GB2312 y GBK. GB2312 es un subconjunto de GBK y el rango de codificación es GB 231A1-0xfefe. Si se trata de codificación GB2312 pura, será más fácil de manejar.

GBK está representado por dos bytes, el rango de codificación general es 8140-FEFE, el primer byte está entre 81-FE, el último byte está entre 40-FE, excluyendo una línea de xx7F. Un total de 23.940 puntos de código, * * * contiene 265.438+0.886 caracteres chinos y símbolos gráficos, de los cuales 265.438+0.003 caracteres chinos (incluidos radicales y componentes) y 883 símbolos gráficos.

Todos los códigos se dividen en tres partes:

1. Área de caracteres chinos. Incluyendo:

A.GB 2312 Área de caracteres chinos. Ese es GBK/2: B0A1-F7FE. GB 2312 tiene un total de 6763 caracteres chinos, ordenados en el orden original.

B.GB 13000.1 amplía el área de caracteres chinos. Incluyendo:

(1) GBK Incluyendo 6080 caracteres chinos CJK en GB 13000.1.

(2) GBK/4: AA40-FEA0. Incluye caracteres chinos CJK y 8160 caracteres chinos suplementarios.

Los caracteres chinos CJK tienen prioridad y se organizan según el tamaño del código UCS; los caracteres chinos suplementarios (incluidos los radicales y las partes) se organizan al final según el número/posición de página del "Diccionario Kangxi".

2. Área de símbolos gráficos. Incluyendo:

A.GB 2312 área de símbolo de caracteres no chinos. Eso es gbk/1:a 1a 1-a9fe. Además de los símbolos de GB 2312, hay 10 números romanos en minúscula y símbolos complementados por GB 12345.

Hay 717 símbolos.

B.GB 13000.1 amplió el área de caracteres no chinos. Es GBK/5: A840-A9A0. En esta área se organizan los 5 símbolos BIG-5 no chinos, los símbolos estructurales y "○". Hay 166 símbolos.

3. Área personalizada: dividida en tres comunidades (1) (2) (3).

(1) AAA1-AFFE, con 564 bits de codificación.

(2) F8A1-FEFE, con 658 puntos de código.

(3) A140-A7A0, 672 puntos de código.

Aunque el área (3) está abierta a los usuarios, su uso está restringido, ya que no se puede descartar la posibilidad de añadir nuevos personajes a esta área en el futuro.

Aquí hay algunos consejos:

Primero, en PHP, la codificación de caracteres se basa en la codificación de transmisión, porque algunos usuarios usan entrada codificada y no cambiarán automáticamente, pero en ASP, el la codificación predeterminada es Unicode, por lo que podemos obtener fácilmente la tabla de comparación de codificación Unicode, de modo que incluso si no hay una biblioteca básica, podemos convertir fácilmente gbk a utf-8;

Capítulo segundo, Debido a que el valor más bajo de GBK es 0x40, que es 64, a veces, cuando se organizan algunas cadenas que involucran chino, es mejor usar el código ASCII antes de 64 para la segmentación de caracteres, de modo que, sin importar las circunstancias, el reemplazo o la segmentación no sean confusos. Aparecerán caracteres. Los caracteres más utilizados son "," y ";", ":", "", "", "" y " ". Estos caracteres nunca confundirán la codificación gb.

Implementación sencilla de conversión de codificación de juegos de caracteres

1. Utilice la familia de funciones iconv para la conversión de código

La conversión de codificación en LINUX se puede programar utilizando la familia de funciones iconv. o el comando iconv se implementa, pero este último es para archivos, es decir, el archivo especificado se convierte de una codificación a otra codificación.

El archivo de encabezado de la familia de funciones iconv es iconv.h, que debe incluirse antes de su uso.

# include & lticonv.h & gt

La familia de funciones Iconv tiene tres funciones, los prototipos son los siguientes:

(1)iconv _ t iconv _ open(const char * to code, const char * from code);

Esta función indica qué dos códigos se convertirán. tocode es el código de destino y fromcode es el código original. Esta función devuelve identificadores de conversión para las dos funciones siguientes.

(2) size_t iconv(iconv_t cd, char **inbuf, size_t *inbytesleft, char **outbuf, size_t * outbytesleft);

Esta función lee desde inbuf Obtener caracteres, conviértalos y envíelos a outbuf. inbytesleft se usa para registrar la cantidad de caracteres que no se han convertido y outbytesleft se usa para registrar el espacio restante del búfer de salida. (3)int iconv _ close(iconv _ t CD);

Esta función se utiliza para cerrar el controlador de conversión y liberar recursos.

Ejemplo 1: Un programa de muestra para conversión usando lenguaje C.

/* f.c: Ejemplo de conversión de código programa C*/

# include & lticonv.h & gt

#Definición OUTLEN 255

Main()

{

Char *in_utf8 = "¿Eh?" " ;

Char *in_gb2312 = "Instalando";

char out[OUTLEN];

//El código Unicode se convierte en código gb2312.

rc = u2g(in_utf8, strlen(in_utf8), fuera, OUTLEN);

printf(" unicode->gb2312 fuera=%sn ", fuera); >//código gb2312 convertido a código Unicode

rc = g2u(in_gb2312, strlen(in_gb2312), out, OUTLEN

printf(" GB 2312->; unicode out); =%sn ", out);

}

//Conversión de código: Convierte de un código a otro.

int code _ convert(char * from _ charset, char *to_charset, char *inbuf, int inlen, char *outbuf, int outlen)

{

iconv _ t cd

int rc

char * * pin = & ampinbuf

char * * pout = & ampout fuf;

cd = iconv_open(to_charset, from _ charset);

if (cd==0) devuelve -1;

memset(outbuf, 0, out len);

if (iconv(cd, pin y amp inlen, pout y outlen)= =-1)return-1;

iconv_close(CD);

Devuelve 0 ;

}

//El código UNICODE se convierte en código GB2312.

int u2g(char *inbuf, int inlen, char *outbuf, int outlen)

{

Retorno code_convert("utf-8 "," gb2312 ", inbuf, inlen, outbuf, outlen);

}

//El código GB2312 se convierte a código UNICODE.

int g2u(char *inbuf, size_t inlen, char *outbuf, size_t outlen)

{

Return code_convert("gb2312","utf-8 ", inbuf, inlen, outbuf, outlen);

}

Ejemplo 2: Programa de ejemplo de conversión implementado en lenguaje C++.

/* f.cpp: ejemplo de conversión de código del programa C++*/

# include & lticonv.h & gt

# include & ltiostream & gt

#Define OUTLEN 255

Usar espacio de nombres estándar

//Clase de operación de conversión de código

Convertidor de código de categoría {

Privado:

iconv _ t cd

Público:

//Estructura

convertidor de código (const char * from _ charset, const char *to_charset) {

cd = iconv_open(to_charset, from _ charset);

}

//Destrucción

~CodeConverter () {

iconv _ close(CD);

}

//Convertir salida

int convert(char * inbuf, int inlen, char *outbuf, int outlen) {

char * * pin = & ampinbuf

char * * puchero = & ampout fuf;

memset( outbuf, 0, out len);

return iconv(cd, pin, (size_t*)&inlen, pout, (size_t*)&outlen

}

};

int main(int argc, char **argv)

{

Char *in_utf8 = "¿Eh?" ? " ;

Char *in_gb2312 = "Instalando";

char out[OUTLEN];

//utf-8-& gt; gb2312

p>

convertidor de código cc = convertidor de código("utf-8","GB 2312");

cc.convert(in_utf8, strlen(in_utf8), out, OUTLEN);

cout & lt& lt" utf-8->; GB 2312 in = " & lt; & ltin_utf8 & lt& lt", out = " & lt& ltout & lt& ltendl

// GB 2312->utf-8

convertidor de código cc2 = convertidor de código("GB 2312", "utf-8");

cc2.convert(in_gb2312, strlen( in_gb2312) , out, OUTLEN);

cout & lt& lt" GB 2312->utf-8 in = " & lt; & ltin _ GB 2312 & lt & lt", out = " & lt& ltout & lt& ltendl

}

En segundo lugar, utilice el comando iconv para la conversión de codificación.

La conversión de codificación en LINUX se puede programar utilizando la familia de funciones iconv o el comando iconv. se usa para lograr esto, pero este último es para archivos, es decir, el archivo especificado se convierte de una codificación a otra codificación.

El comando iconv se usa para convertir la codificación del archivo especificado y la salida. a la salida estándar de forma predeterminada o especifique un archivo de salida.

Uso: iconv[opciones...][archivo...]

Las siguientes opciones están disponibles:

Especificaciones de formato de entrada/salida:

p>

-f -f,-from-code==nombre de codificación del texto original.

-t,-to-code=nombre del código de salida.

Información:

-l,-list enumera todos los conjuntos de caracteres conocidos.

Control de salida:

-c ignora los caracteres no válidos en la salida.

-o -o, - salida=FILE archivo de salida

-s, - Advertencia de apagado silencioso

-Información detallada sobre el progreso de la impresión

-?-help proporciona una lista de ayuda para este sistema.

- uso proporciona información breve sobre el uso.

-v, -version imprime el número de versión del programa

Ejemplo:

iconv-f utf-8-t GB 2312 AAA>txt.

Este comando lee el archivo aaa.txt, lo convierte de codificación utf-8 a codificación gb2312 y dirige su salida al archivo bbb.txt.

Resumen: LINUX nos proporciona potentes herramientas de conversión de codificación, lo que nos aporta comodidad.