? Conversión de codificación de cadenas (GBK)
Unicode es una codificación unificada global típica. No importa en qué país te encuentres, los caracteres Unicode para la misma palabra son los mismos. Los caracteres Unicode de uso común son de 2 bytes y también hay codificaciones de 4 bytes.
UTF8 es un método de codificación Unicode. Correspondiente a Unicode de 2 bytes, utf8 es de 1 byte (inglés) o 3 bytes (chino). La realidad es más complicada que esto, estos son sólo escenarios comunes.
GBK, GB2312 y GB18030 son todos códigos chinos simplificados. GB2312 es un subconjunto de GBK y GBK es un subconjunto de GB18030.
BIG5 es el código chino tradicional utilizado en la provincia de Taiwán.
Si la codificación de la página web es UTF-8, se puede convertir simplemente a una cadena de la siguiente manera:
Si la página web es gbk o gb2312, si se convierte en UTF-8 , pageSource devolverá nil y luego se requiere la codificación gbk para la conversión.