La Red de Conocimientos Pedagógicos - Aprendizaje de japonés - Experiencias y sugerencias para la limpieza de datos geológicos originales.

Experiencias y sugerencias para la limpieza de datos geológicos originales.

Zhou Xiaoxi, Lin Peng, Xiaohui, Shuhua, Yang Jun y Li Min

(Centro de Estudios Geológicos de Tianjin)

Resumen Desde 2010, nuestro centro, como unidad piloto para la limpieza de originales datos geológicos, ha comenzado a limpiar los datos geológicos originales de acuerdo con los requisitos pertinentes. Se está limpiando el catálogo de datos geológicos originales de nuestro centro. Este artículo presenta algunas de las experiencias y cuestiones que el autor resumió al realizar este trabajo.

Palabras clave: Resumen de la limpieza de datos geológicos originales

Para comprender completamente el estado de gestión y preservación de los datos geológicos originales, establezca una base de datos del catálogo de datos geológicos originales y mejore la gestión y el servicio. nivel de datos geológicos originales, para promover datos geológicos originales para servir a la construcción económica. De acuerdo con los requisitos de la tarea de limpieza de datos geológicos originales formulados por el Centro de Desarrollo del Servicio Geológico de China, el catálogo de datos geológicos originales del centro se limpiará a partir del 1 de septiembre. 2010. En la actualidad, se han borrado más de 200 directorios a nivel de archivos de datos geológicos originales y más de 17.000 directorios a nivel de archivos. Durante el proceso de trabajo, resumí algunas experiencias y descubrí algunos problemas, que se comentan aquí.

El trabajo de limpieza de datos geológicos originales se basa principalmente en las "Reglas de archivo de datos geológicos originales", las "Reglas detalladas de categorías de archivo" y la "Guía de limpieza de datos geológicos originales" formuladas por los Archivos Geológicos Nacionales. El software de limpieza adopta el "sistema de gestión de registro de limpieza de datos geológicos original".

1 Proceso de limpieza de datos geológicos originales

1.1 Selección de datos

Los datos geológicos originales guardados por el centro constan de dos partes: una son los datos geológicos originales formados mediante estudios a gran escala Los datos geológicos se basan principalmente en estudios geológicos y evaluación de recursos minerales; el segundo son los datos geológicos originales formados desde el establecimiento de la unidad, que se basan principalmente en investigaciones científicas geológicas. En términos de tiempo de archivo, todos son datos geológicos originales archivados después de 1987. A juzgar por el alcance profesional de los datos, incluye estudios regionales, exploración mineral, entorno hidráulico, teledetección física y química, investigación científica geológica, métodos técnicos, construcción de bases de datos y una pequeña cantidad de introducciones dinámicas a la geología extranjera y especialidades relacionadas. Desde la perspectiva del inversor, incluye fondos naturales, fondos horizontales y proyectos en general.

1.2 Recopilar directorios de archivos originales

Copie los directorios de archivos de datos originales seleccionados uno por uno del expediente del caso y vincúlelos en uno solo. Este es el trabajo que consume más tiempo y energía. Antes de la década de 1990, las computadoras aún no eran populares y los directorios de archivos archivados generalmente estaban escritos a mano, por lo que muchos directorios estaban garabateados y era difícil reconocer texto profesional sin conocimientos profesionales. Por lo tanto, esta parte del trabajo debe ser revisada por investigadores con base profesional en geología para minimizar errores en la terminología geológica.

Organice el directorio de datos geológicos originales de acuerdo con las "Reglas de archivo de datos geológicos originales" y las "Reglas detalladas de categorías de archivo", e ingrese los datos en archivos de plantilla de importación por lotes (formato Excel). En términos generales, todos los archivos tienen catálogos de archivo, pero como son archivos formados en diferentes períodos, sus catálogos se catalogan según diferentes reglas de archivo, lo que es inconsistente con las reglas de archivo actuales, especialmente la falta de "reemplazo de categorías de archivo". También es necesario codificar y clasificar las unidades de almacenamiento de datos geológicos originales. Así que hay que trabajar mucho en esto.

1.3 Crear una hoja de trabajo de Excel

De acuerdo con las reglas de descripción del sistema y cada tabla de códigos en la base de datos, clasifique el directorio del archivo de datos geológicos original. Primero, convierta los directorios de archivos de datos geológicos originales de diferentes tipos de almacenamiento al formato Excel, luego ordene los datos del directorio a nivel de archivo de acuerdo con las reglas de entrada a nivel de archivo y ordene los datos del directorio a nivel de archivo de acuerdo con las reglas de entrada a nivel de archivo . Ingrese el directorio de archivos en el formulario uno por uno y prepárese para ingresar al "Sistema de gestión de registro y limpieza de datos geológicos originales".

2. Establecer una base de datos

Dado que hay muchos archivos y directorios de archivos de datos geológicos originales que deben limpiarse, se utiliza el "sistema de gestión de registro de limpieza de datos geológicos originales" para ingresar. ellos elemento por elemento durante el proceso de limpieza centralizado. Esto requiere mucho tiempo y trabajo, por lo que utilizamos la importación por lotes de datos para completar el almacenamiento del directorio. Cree una plantilla de importación por lotes (hoja de trabajo de Excel) basada en la base de datos del "Sistema de gestión de registro y limpieza de datos geológicos original" y complete el almacenamiento por lotes de datos a través de la plantilla de importación. El proceso específico es el siguiente:

Figura 1 Diagrama de flujo de clasificación de datos y establecimiento de bases de datos

(1) Estudiar la estructura de la tabla de la base de datos del "Sistema de gestión de registro y limpieza de datos geológicos originales" y aclarar las relaciones entre las tablas de datos para realizar preparativos preliminares para la importación de registros por lotes.

(2) Exportar la tabla de unidades (SubOrg), la tabla de información a nivel de archivo (YSZLBase) y la tabla de información a nivel de archivo (YSZLDetail) en la tabla de base de datos "Sistema de gestión de registro de limpieza de datos geológicos originales", y generar un archivo de plantillas de importación por lotes (formato Excel).

(3) De acuerdo con las reglas de descripción del sistema y la tabla de códigos en la base de datos, clasifique el directorio del archivo de datos geológicos original. Convierta directorios de archivos de datos geológicos originales de diferentes tipos de almacenamiento a formato Excel. Los datos del directorio a nivel de archivo se ordenan según las reglas de entrada a nivel de archivo, y los datos del directorio a nivel de archivo se ordenan según las reglas de entrada a nivel de archivo.

(4) Importe los datos ordenados al archivo de plantilla de importación a nivel de archivo y al archivo de plantilla de importación a nivel de archivo respectivamente, e importe la información de cada empresa al archivo de plantilla de importación de empresa.

(5) Importe los datos ordenados a la base de datos del software de limpieza.

Finalmente, los datos se importan a la base de datos del "Sistema de Gestión de Registro y Limpieza de Datos Geológicos Originales" en lotes para formar la "Base de Datos de Datos Geológicos Originales".

3. Sugerencias para revisar las categorías de datos

En general, esta tabla se centra en ajustes regionales más que en investigaciones científicas. La clasificación de las disciplinas es demasiado aproximada, especialmente según las disciplinas tradicionales como la estructura, la estratigrafía y la paleontología.

En el estudio regional (10), el estudio geológico regional (11) y el estudio mineral regional (12) son el foco del trabajo geológico preliminar. Hay mapas de varias escalas, y se recomienda. para subdividirlos aún más. La exploración geofísica y geoquímica regional (13) se superpone con la exploración geofísica y geoquímica (50). Se recomienda que la exploración geofísica y geoquímica (50) se defina claramente como investigación. Además, no hay ninguna descripción del petróleo y el gas en la tabla, y se recomienda agregar este elemento en la encuesta regional (10).

Mineral Exploration (30) parece enfatizar la exploración mineral especial. Por lo tanto, se recomienda definirla como “exploración mineral especial” para distinguirla de los estudios minerales regionales (12). Al mismo tiempo, se incluye en (54) la descripción de “utilizar medios geológicos para verificar anomalías geofísicas y geoquímicas”.

En Investigación en Ciencias Geológicas (60), se recomienda subdividir aún más según disciplinas tradicionales, como estructura, estratigrafía, paleontología, etc.

4. Sugerencias para modificar las reglas de codificación de las unidades de almacenamiento de datos geológicos originales

En la "Guía de limpieza de datos geológicos originales", parece que hay una sección sobre las "Reglas de codificación". de unidades de almacenamiento de datos geológicos originales" Se destaca la cuestión de si los datos han sido localizados, pero no se considera la ubicación de la unidad de almacenamiento de datos geológicos, lo que tiene sentido para el lector ya que le permite saber rápidamente dónde se encuentran ahora los datos. . Por lo tanto, el autor recomienda ajustar adecuadamente esta regla de codificación para que los lectores puedan saber dónde está la información ahora y dónde está ahora.

En esta regla de codificación, se requiere que la longitud de codificación sea de diez dígitos, como se muestra a continuación:

El primer dígito indica si se debe localizar, "S" significa localización, "W" ”significa no localizado. Me parece que tal distinción no es necesaria. Dado que la localización y la deslocalización sólo tienen importancia administrativa, la referencia a la unidad de conservación de la información parece carecer de sentido. Se lo proporcionamos a los lectores sólo para que sepan dónde se guarda la información. Además, algunas unidades del Ministerio de Minas original no están seguras de si han sido localizadas, y es más difícil para las unidades de otros sistemas saber si han sido localizadas. Por lo que se recomienda cancelar esta parte. O cámbielo a "S" para representar la unidad del sistema original del Ministerio de Minas y Recursos, y "W" para representar otras unidades del sistema.

El segundo y tercer dígito "representan empresas nacionales, provinciales, no locales del grupo (casas matrices, sociedades anónimas)".

Los requisitos de codificación específicos son: el Archivo Geológico Nacional está representado por 00 y cada provincia está representada por los dos primeros dígitos del código de división administrativa en la tabla de códigos de división administrativa nacional. Por ejemplo, la provincia de Anhui. está representado por 34 (ver Tabla 1).

Tabla 1 Códigos de divisiones administrativas de la República Popular China (GB/T 2260-999)

Consulte la Tabla 2 para conocer otros códigos de empresas del grupo no localizados.

Tabla 2 Otros códigos de grupo (empresa) no localizados

Al comparar la Tabla 1 y la Tabla 2 anteriores, es obvio que algunos códigos se repiten. Debido a que mezcla unidades nacionales con unidades provinciales, y las posiciones cuarta y quinta involucran unidades provinciales, se recomienda cancelar la parte provincial de las posiciones segunda y tercera.

Los dígitos 4.º y 5.º indican categorías e industrias, con un total de 11 elementos enumerados: 00 Departamento Provincial, 01 Servicio Geológico, 02 Petróleo, 03 Metalurgia, 04 Metales no ferrosos, 05 Ingeniería Nuclear, 06 Policía Armada. , 07 Carbón, 08 Industria Química, 09 Materiales de Construcción, 99 Otros (excepto las categorías anteriores) En términos generales, se divide por industria. El autor cree que este elemento se puede mejorar aún más: ① Estipule claramente que "departamentos provinciales" se refiere a los departamentos provinciales del sistema de estudios geológicos u otros departamentos provinciales que mantienen datos geológicos, como el Instituto de Tierras y Recursos. (2) Reducir la capacidad de carga de "otros" porque este rubro puede incluir el medio ambiente, terremotos, universidades, etc. Si estos tres elementos se enumeran por separado, las características de la industria serán más claras y útiles como referencia.

Los dígitos 6 y 7 son más complicados: ① Indica la unidad de almacenamiento de datos geológicos directamente bajo la empresa del grupo no localizada (oficina central, sociedad anónima si la unidad directamente afiliada no tiene una oficina); nivel pero solo un nivel de departamento, 6.º y 7.º dígitos Representados por 00. (2) Indica la unidad de almacenamiento de datos geológicos a nivel de oficina del gobierno provincial (región autónoma, municipio) (o oficina de tierras y recursos) Si se trata de un inversor social o no existe una unidad de gestión local a nivel de división. , los dígitos 6.º y 7.º están representados por 00.

Según estas dos reglas, los bits 6 y 7 se pueden codificar como "00" en la mayoría de los casos. El autor cree que de esta forma se pierde el significado de fijar estos dos números. Por lo tanto, se recomienda codificar de acuerdo con el código de división administrativa de la unidad de almacenamiento de datos geológicos, lo que ayudará a comprender la ubicación específica de la unidad de almacenamiento de datos geológicos.

Los días 8, 9 y 10 “representan unidades de exploración geológica locales o no locales (numeradas en secuencia) o inversores sociales”. El autor entiende que esta es la numeración secuencial de todas las unidades. Y parece que todas las unidades en todo el país están numeradas. Debido al gran número de unidades de estudios geológicos, habrá una cantidad relativamente grande. Si el autor recomienda que los dígitos sexto y séptimo se codifiquen según las divisiones administrativas locales, ¿se pueden codificar secuencialmente todas las unidades de almacenamiento de datos geológicos dentro de una división administrativa (que puede basarse en el nivel de prefectura) siguiendo esta línea?

Además, de acuerdo con las reglas de codificación anteriores, solo el cuarto y quinto dígito representan categorías e industrias, y el resto está relacionado con la ubicación de los datos. Parece que el 4º y 5º se pueden colocar al final como 9º y 10º. Entonces, esta regla de codificación tiene la siguiente secuencia: unidad nacional - unidad provincial - unidad de almacenamiento específica - categoría de datos e industria.

5 Sugerencias sobre la base de datos

(1) Se recomienda agregar "nombres de lugares geológicos" a la tabla de información básica a nivel de archivo. En los elementos de entrada de información básica, aunque los elementos iniciales de longitud, latitud y división administrativa se utilizan para determinar el área de trabajo, el alcance del trabajo de algunos proyectos, especialmente algunos proyectos de investigación integral, no se puede determinar bien. Por ejemplo, el cinturón estructural de Yanshan cubre el rango de 110o ~ 12o de longitud este y 38o ~ 42o de latitud norte. Si el buscador ingresa 39o de latitud norte o 115o de longitud este, es posible que no se logre el propósito de la búsqueda. Si se agregan "nombres de lugares geológicos", como los que se usan comúnmente en trabajos geológicos en el cinturón estructural de Yanshan, como Chengde, Jixian, etc., puede ser útil describir mejor el área de trabajo de los datos originales y ayudar. encuentre y localice rápidamente los datos originales.

(2) Se recomienda agregar "palabras clave". En la literatura científica y tecnológica moderna, los autores deben describir de 3 a 8 palabras clave para la búsqueda de literatura. Y los buscadores también pueden comprender aproximadamente el contenido del artículo a través de palabras clave. Por tanto, las palabras clave tienen el toque final. Los datos geológicos originales también son un tipo de literatura. Sin embargo, por razones históricas, muchos datos geológicos originales no tienen palabras clave, lo que hace que a los geólogos les resulte más difícil comprender el contenido de la literatura y buscarlo. Si se agrega este aspecto al ingreso de información básica, puede ser útil utilizar los datos geológicos originales.

3) Durante el proceso de limpieza de datos sin procesar, a menudo se ingresa una gran cantidad de datos en un corto período de tiempo. Se recomienda agregar una función de importación de datos por lotes al software de limpieza para mejorar la eficiencia. limpieza de datos geológicos brutos y construcción de bases de datos.

6 Conclusión

De acuerdo con las reglas y pautas de trabajo pertinentes formuladas por el Archivo Geológico Nacional, el trabajo de limpieza de datos original ha avanzado y los problemas y experiencias encontrados en el trabajo han sido resumido. Sobre esta base, continuar limpiando los datos originales y complementar la base de datos del catálogo de datos geológicos originales puede mejorar aún más la gestión y el nivel de servicio de los datos geológicos originales y promover los datos geológicos originales para servir a la construcción económica.