La Red de Conocimientos Pedagógicos - Currículum vitae - Lección 19 de Python: Limpieza de datos: eliminación de errores, borrados y duplicados

Lección 19 de Python: Limpieza de datos: eliminación de errores, borrados y duplicados

Lección 19 de Python: Limpieza de datos: eliminación de errores, borrados y duplicados

¿Hora 2019-02-01? 15:30

Profesor Liu

Ubicación: Aula Audiovisual del Cuarto Piso

La limpieza de datos es un eslabón clave en la gobernanza del dato, que se refiere al procesamiento de los datos originales (también conocido como "datos sucios"), el proceso de auditoría, verificación y procesamiento, con el propósito de eliminar información duplicada, corregir información errónea y mantener la coherencia de los datos.

En términos generales, la limpieza de datos implica principalmente depurar, borrar y reelaborar datos.

Para una tabla de datos que contiene nombre, número de identificación y número de matrícula, las reglas de corrección de errores se establecen de la siguiente manera:

1. El número de matrícula no contiene Gan ni Rao.

2. El año del número de cédula no es ni 19 ni 20, el mes del número de cédula es mayor que 12 y la fecha del número de cédula es mayor que 31.

3. El número de dígitos del número de identificación no es igual a 18.

4. La longitud del nombre es menor o igual a 1.

En segundo lugar, elimine los valores nulos.

Para los datos clave, no se permiten valores nulos. Para este tipo de datos, debe consultar si hay valores nulos.

En tercer lugar, la deduplicación

En la tabla, algunas columnas de datos permiten la duplicación, mientras que otras no. Por ejemplo, en una tabla de información del propietario de un automóvil, el nombre y el número de identificación se pueden repetir, porque hay situaciones en las que una persona registra varios automóviles y esta duplicación no puede considerarse un error. Sin embargo, no se permiten números de matrícula duplicados; de lo contrario, se producirán errores de lógica empresarial. Por lo tanto, es necesario copiar la columna de datos del número de matrícula.

Los datos duplicados se pueden enumerar mediante la siguiente declaración SQL:

En resumen, la limpieza de datos requiere no solo comprender la tecnología, sino también comprender el negocio. De lo contrario, las reglas de limpieza no pueden. formularse correctamente, lo que resulta en datos La limpieza es solo una formalidad y no puede lograr el efecto de limpieza.