¿Qué son los datos semiestructurados?
¿Qué son los datos estructurados? ¿Qué son los datos semiestructurados?
Datos estructurados (es decir, datos de filas, almacenados en la base de datos y los datos se pueden expresar lógicamente utilizando una estructura de tabla bidimensional) Datos no estructurados, incluidos los documentos de Office en todos Los formatos, texto, imágenes, XML, HTML, diversos informes, imágenes e información de audio/vídeo, etc. no son adecuados para datos estructurados (es decir, datos de filas, que se almacenan en la base de datos y pueden utilizar una estructura de tabla bidimensional). para expresar lógicamente los datos implementados). Los datos que pueden representarse fácilmente mediante tablas lógicas bidimensionales en una base de datos se denominan datos no estructurados, incluidos todos los formatos de documentos de oficina, texto, imágenes, XML, HTML, informes diversos, imágenes, audio/. información de vídeo, etc. Una base de datos no estructurada se refiere a una base de datos cuya longitud de campo es variable y los registros de cada campo pueden estar compuestos por subcampos repetibles o no repetibles. No solo puede procesar datos estructurados (como números, símbolos, etc.), sino también Más. Adecuado para procesar datos no estructurados (texto completo, imágenes, sonidos, películas, hipermedia y otra información). La base de datos WEB no estructurada se genera principalmente para datos no estructurados. En comparación con las bases de datos relacionales populares del pasado, su mayor diferencia es que supera las limitaciones de la definición de la estructura de la base de datos relacional que no es fácil de cambiar y la longitud fija de los datos. , y admite campos repetidos y subbases de datos y campos de longitud variable e implementa el procesamiento de datos de longitud variable y campos repetidos y la gestión de almacenamiento de longitud variable de elementos de datos. Tiene una tradición en el procesamiento de información continua (incluida la completa). -información de texto) e información no estructurada (incluida información multimedia diversa) Ventajas que las bases de datos relacionales no pueden igualar.
¿Qué son los datos estructurados? ¿Qué son los datos semiestructurados?
Datos estructurados (es decir, datos de fila, almacenados en la base de datos y los datos se pueden expresar lógicamente utilizando una estructura de tabla bidimensional)
No estructurados datos, incluidos todos los formatos de documentos de Office, texto, imágenes, XML, HTML, varios informes, imágenes e información de audio/video, etc.
Para datos estructurados (es decir, datos de filas, almacenados en la base de datos , puede usar (estructura de tabla dimensional para expresar lógicamente los datos implementados), los datos que no son convenientes para usar tablas lógicas bidimensionales en la base de datos se denominan datos no estructurados, incluidos todos los formatos de documentos de Office, texto, imágenes, XML, HTML. , varios informes, imágenes, información de audio/video y más.
La base de datos no estructurada se refiere a una base de datos cuyas longitudes de campo son variables, y los registros de cada campo pueden estar compuestos por subcampos repetibles o no repetibles. No solo puede procesar datos estructurados (como números, símbolos y). otra información) y es más adecuado para procesar datos no estructurados (texto completo, imágenes, sonidos, cine y televisión, hipermedia y otra información).
La base de datos WEB no estructurada se produce principalmente para datos no estructurados. En comparación con las bases de datos relacionales populares en el pasado, su mayor diferencia es que supera los problemas de definición de la estructura de la base de datos relacional que no es fácil de cambiar y de los datos. la longitud es fija, admite campos repetidos, subcampos y campos de longitud variable, e implementa el procesamiento de datos de longitud variable y campos repetidos y la gestión del almacenamiento de longitud variable de elementos de datos, mientras procesa información continua (incluida la información de texto completo). ) y la información no estructurada (incluida información multimedia diversa) tiene ventajas que las bases de datos relacionales tradicionales no pueden igualar.
¿Qué son los datos estructurados, los datos no estructurados y los datos semiestructurados?
Los datos estructurados (es decir, los datos de fila, almacenados en la base de datos, se pueden expresar lógicamente utilizando una estructura de tabla bidimensional Implementado data)
Datos no estructurados, incluidos todos los formatos de documentos de Office, texto, imágenes, XML, HTML, diversos informes, imágenes e información de audio/vídeo, etc.
Para datos estructurados (es decir, datos de fila, almacenados en la base de datos, los datos se pueden expresar lógicamente utilizando una estructura de tabla bidimensional), datos que no es conveniente expresar mediante una estructura bidimensional. La tabla lógica en la base de datos se llama Son datos no estructurados, incluidos todos los formatos de documentos de Office, texto, imágenes, XML, HTML, varios informes, imágenes e información de audio/video, etc.
Una base de datos no estructurada se refiere a una base de datos cuyos campos tienen longitudes variables, y los registros de cada campo pueden estar compuestos por subcampos repetibles o no repetibles. No solo puede procesar datos estructurados (como números, símbolos). y otra información) y es más adecuado para procesar datos no estructurados (texto completo, imágenes, sonidos, cine y televisión, hipermedia y otra información).
Las bases de datos WEB no estructuradas se generan principalmente para datos no estructurados. A diferencia del pasado,
¿Qué es información semiestructurada?
Estructurado: El significado de los campos de la estructura de datos es definido y claro, típicamente como la estructura de la tabla en una base de datos.
Semiestructurado: Tiene una estructura determinada, pero el la semántica no es lo suficientemente clara, por lo general, como En las páginas web HTML, algunos campos son ciertos (título) y otros son inciertos (tabla)
No estructurados: datos desordenados, difíciles de extraer según un concepto y irregular
El grado de estructura se refiere a si el proceso de toma de decisiones, el entorno de toma de decisiones y las reglas de un determinado problema de toma de decisiones se pueden explicar en un lenguaje claro (matemático o lógico, formal o no formal). , cuantitativa o cualitativa) o la claridad o exactitud de la descripción. Según el diferente grado de estructuración de los problemas de toma de decisiones, los problemas de toma de decisiones se dividen en tres tipos: problemas estructurados, problemas semiestructurados y problemas no estructurados.
1). Problemas estructurados de toma de decisiones
Los problemas estructurados de toma de decisiones son relativamente simples y directos. El proceso y los métodos de toma de decisiones tienen reglas fijas a seguir, se pueden describir con un lenguaje y modelos claros y pueden. basarse en ciertas reglas generales y reglas de decisión para lograr una automatización básica de su proceso de toma de decisiones. La mayoría de los primeros sistemas de información de gestión pudieron resolver estos problemas, por ejemplo, aplicando métodos de investigación de operaciones para resolver problemas de optimización de recursos.
Tales como: fórmula de alimentación, planificación de producción, programación, etc.
2). Problemas de toma de decisiones no estructurados
Los problemas de toma de decisiones no estructurados se refieren a aquellos con procesos de toma de decisiones complejos. No existen reglas fijas para el proceso de toma de decisiones ni métodos a seguir. Las reglas y modelos generales a seguir (conocimiento, experiencia, intuición, juicio, percepción, preferencias personales y estilo de toma de decisiones, etc.) tienen un impacto considerable en los efectos de la toma de decisiones en cada etapa. Los tomadores de decisiones a menudo toman decisiones ad hoc basadas en la información y los datos disponibles.
Por ejemplo: contratación de personal y elección de portadas para revistas
3). Problema de toma de decisiones semiestructurada
El problema de toma de decisiones semiestructurada se encuentra entre los dos anteriores. Su proceso de toma de decisiones y su método de toma de decisiones tienen ciertas reglas que se pueden seguir, pero no se pueden seguir por completo. determinados, es decir, se entienden pero no son completos, algunos análisis pero no exactos, algunas estimaciones pero no seguras. Estos problemas de toma de decisiones generalmente se pueden modelar adecuadamente, pero no se puede determinar la solución óptima.
Tales como: desarrollo de mercado, presupuesto
Referencia: Baidu
Qué son datos estructurados, datos no estructurados y datos semiestructurados
> En comparación con los datos estructurados (es decir, datos de fila, almacenados en la base de datos, los datos se pueden expresar lógicamente usando una estructura de tabla bidimensional), los datos que es inconveniente expresar usando una tabla lógica bidimensional en la base de datos son llamado Son datos no estructurados, incluidos todos los formatos de documentos de Office, texto, imágenes, XML, HTML, diversos informes, imágenes e información de audio/video, etc.
Los campos se pueden ampliar según sea necesario, es decir, el número de campos es variable y se pueden denominar datos semiestructurados, como los datos almacenados en Exchange.
Base de datos no estructurada
En la sociedad de la información, la información se puede dividir en dos grandes categorías. Un tipo de información puede representarse mediante datos o una estructura unificada, a los que llamamos datos estructurados, como números y símbolos, mientras que el otro tipo de información no puede representarse mediante números o una estructura unificada, como texto, imágenes, sonidos, páginas web, etc. Lo llamamos datos no estructurados. Los datos estructurados son datos no estructurados y son un caso especial de datos no estructurados
Como sugiere el nombre, la limpieza de datos consiste en "eliminar" los datos "sucios". Debido a que los datos en el almacén de datos son una colección de datos para un tema determinado, estos datos se extraen de múltiples sistemas comerciales y contienen datos históricos, es inevitable que algunos datos sean incorrectos y otros se excluyan entre sí. Existen conflictos entre ellos. Estos datos erróneos o contradictorios son obviamente no deseados y se denominan "datos sucios". Tenemos que "eliminar" los "datos sucios" de acuerdo con ciertas reglas, que es la limpieza de datos. La tarea de la limpieza de datos es filtrar los datos que no cumplen con los requisitos y entregar los resultados filtrados al departamento comercial para su confirmación. ya sea que se filtren o no, se extraerá después de la corrección por parte de la unidad de negocios. Los datos que no cumplen los requisitos se dividen principalmente en tres categorías: datos incompletos, datos erróneos y datos duplicados.
(1) Datos incompletos
A este tipo de datos le falta principalmente información que debería estar ahí, como el nombre del proveedor, el nombre de la sucursal y la región faltante. la información del cliente, la tabla principal y la tabla detallada en el sistema empresarial no pueden coincidir, etc. Este tipo de datos se filtra y el contenido faltante se escribe en diferentes archivos de Excel y se envía al cliente, lo cual debe completarse dentro del tiempo especificado. Una vez completado, se escribe en el almacén de datos.
(2) Datos incorrectos
La razón de este tipo de error es que el sistema empresarial no es lo suficientemente sólido y se debe a que se escribe directamente en la base de datos en segundo plano sin realizar una juicio después de recibir la entrada, como valores numéricos, los datos se ingresan en caracteres numéricos de ancho completo, hay una operación de retorno de carro después de los datos de la cadena, el formato de fecha es incorrecto, la fecha está fuera de los límites, etc. Este tipo de datos también debe clasificarse. Para problemas como caracteres de ancho completo y caracteres invisibles antes y después de los datos, solo podemos encontrarlos escribiendo declaraciones SQL y luego pedirle al cliente que los extraiga después de corregir el sistema comercial. . Errores como un formato de fecha incorrecto o una fecha fuera de límites provocarán que falle la operación ETL. Este tipo de error debe detectarse en la base de datos del sistema empresarial utilizando SQL y entregarse al departamento comercial para su corrección dentro de un límite de tiempo. y luego extraído después de la corrección.
(3) Datos duplicados
Para este tipo de datos, especialmente cuando esto sucede en tablas de dimensiones, exporte todos los campos de registros de datos duplicados para que el Cliente los confirme y los clasifique.
La limpieza de datos es un proceso iterativo y no se puede completar en unos pocos días. La única forma es descubrir y resolver problemas constantemente. Por lo general, se requiere que los clientes confirmen si desean filtrar o corregir los datos filtrados, escribirlos en un archivo de Excel o escribir los datos filtrados en una tabla de datos. En las primeras etapas del desarrollo de ETL, puede enviar correos electrónicos con datos filtrados a las unidades de negocios. todos los días para animarles a responder lo antes posible. Corregir errores también puede servir como base para futuras verificaciones de datos. A lo que se debe prestar atención al limpiar datos no es filtrar datos útiles, verificar cuidadosamente cada regla de filtrado y solicitar la confirmación del usuario.
Con el desarrollo de la tecnología de redes, especialmente el rápido desarrollo de la tecnología de Internet e Intranet, la cantidad de datos no estructurados aumenta día a día. En este momento, las limitaciones de las bases de datos relacionales, que se utilizan principalmente para gestionar datos estructurados, se hicieron cada vez más evidentes. Por lo tanto, la tecnología de bases de datos ha entrado en la "era de las bases de datos post-relacionales" y se ha desarrollado hacia la era de las bases de datos no estructuradas basadas en aplicaciones de red. La llamada base de datos no estructurada significa que los registros de longitud variable de la base de datos se componen de varios campos repetibles y no repetibles, y cada campo puede estar compuesto por varios subcampos repetibles y no repetibles. En pocas palabras, una base de datos no estructurada es una base de datos con campos variables.
La base de datos no estructurada de mi país está representada por la base de datos iBase de Beijing Guoxin Base (iBase) Software Co., Ltd. La base de datos IBase es...>>
¿Qué es una tabla de datos estructurados?
Información estructurada e información no estructurada Podemos dividir la información científica y tecnológica en información estructurada e información no estructurada. La información estructurada es información de datos que se puede digitalizar y administrar fácilmente a través de tecnología informática y de bases de datos. La información que no se puede digitalizar completamente se denomina información no estructurada, como archivos de documentos, fotografías, dibujos, microfilmes, etc. Hay una gran cantidad de información valiosa en estos recursos. Este tipo de información no estructurada está creciendo exponencialmente. Otra definición: para materiales informativos de muchas fuentes, los profesionales los dividen según el formato de la información y la dividen en dos categorías: información estructurada e información no estructurada. La información estructurada, la información gestionada por bases de datos con las que habitualmente entramos en contacto, incluye registros de producción, negocios, transacciones, información de clientes, etc. Información no estructurada, el término técnico es contenido, cubre una gama más amplia de información y se puede dividir en: contenido operativo (contenido operativo): como contratos, facturas, cartas y registros de compras. Contenido del departamento (contenido del grupo de trabajo): como procesamiento de documentos; , Hojas de cálculo, archivos de presentación y correos electrónicos; Contenido web: información en formatos como HTML y XML. Contenido multimedia (Contenido Rich Media): como sonidos, vídeos, gráficos, etc.
Si la información estructurada registra las actividades de producción y transacción de una empresa de manera más fiel y detallada, y es una representación explícita, entonces la información no estructurada contiene implícitamente la clave para mantener el alma de la empresa y tiene muchas implicaciones para mejorar la eficiencia de la empresa. Se ha vuelto cada vez más importante para las empresas compartir digitalmente todas las formas de recursos de datos dentro de la empresa y con proveedores, clientes, socios y empleados. El 90% de la información y el conocimiento Más allá del mundo estructurado, existe un mundo desestructurado en las aplicaciones TI. Para la mayoría de las empresas, los datos estructurados administrados por sistemas comerciales como ERP solo representan aproximadamente el 10% de toda la información y el conocimiento de la empresa, y el otro 90% es información y conocimientos no estructurados a los que es difícil acceder en las bases de datos. El análisis de IDC muestra que, aunque muchas empresas han invertido mucho en establecer muchos sistemas de apoyo empresarial, el 72% de los directivos todavía cree que el conocimiento no se ha reutilizado en sus organizaciones y el 88% cree que no han estado expuestos a las mejores prácticas de sus empresas. empresas. Oportunidades de práctica. Gartner también ha predicho que la gestión de la información y el conocimiento no estructurados generará una nueva tendencia en las aplicaciones de TI. El procesamiento actual de información no estructurada es similar a las aplicaciones de información estructurada anteriores a la década de 1970. Las aplicaciones que están fragmentadas y no pueden interoperar con los datos son la corriente principal. A juzgar por el software de documentos más utilizado, los documentos DOC son el formato especial de MS WORD, mientras que los fabricantes de productos OFFICE como WPS, Yongzhong y Chinese 2000 tienen cada uno su propio nicho. En este caso, debido a las limitaciones del formato del documento, la información se fragmenta, el flujo de información no puede fluir sin problemas y el procesamiento de la información se vuelve más difícil. Los recursos de información pierden su valor debido al bloqueo del flujo de información. De no estructurado a semiestructurado, de semiestructurado a estructurado, de sistema de datos estructurado a vinculado, de sistema de datos vinculado a minería de datos, de minería de datos a presentación basada en historias, de presentación basada en historias a orientada a decisiones. La información masiva que aparece en Internet se puede dividir a grandes rasgos en tres tipos: estructurada, semiestructurada y no estructurada. Para información estructurada, como información de comercio electrónico, la naturaleza y magnitud de la información aparecen en posiciones fijas; para información semiestructurada, como canales segmentados en sitios web profesionales, la gramática del título y el texto está bastante estandarizada y la La gama de palabras clave es bastante similar. Limitaciones; información no estructurada como BLOG y BBS, todos los contenidos son impredecibles. La información estructurada y la información no estructurada son dos mundos de aplicaciones de TI y tienen diferentes características y reglas de evolución de las aplicaciones.
¿Qué son los datos estructurados, semiestructurados y no estructurados?
En comparación con los datos estructurados (es decir, los datos de fila, que se almacenan en la base de datos, se pueden expresar lógicamente mediante dos tipos). estructura de tabla dimensional En términos de datos realizados), los datos que no es conveniente representar mediante tablas lógicas bidimensionales en la base de datos se denominan datos no estructurados, incluidos todos los formatos de documentos de Office, texto, imágenes, XML, HTML, varios informes, imágenes e información de audio/vídeo y más. Los campos pueden
Introducción a los datos semiestructurados
Los datos semiestructurados (datos semiestructurados) definitivamente implicarán el almacenamiento de datos al diseñar un sistema de información. Generalmente, guardaremos la información del sistema. en una base de datos relacional especificada. Clasificaremos los datos por negocio, diseñaremos las tablas correspondientes y luego guardaremos la información correspondiente en las tablas correspondientes. Por ejemplo, si construimos un sistema empresarial y necesitamos guardar información básica de los empleados: número de trabajo, nombre, sexo, fecha de nacimiento, etc., crearemos una tabla de personal correspondiente. Pero no toda la información del sistema puede corresponderse simplemente utilizando campos de una tabla.
¿Qué son los datos estructurados? ¿Cuál es la diferencia entre los datos no estructurados?
En la sociedad de la información, la información se puede dividir en dos grandes categorías. Un tipo de información puede representarse mediante datos o una estructura unificada, a los que llamamos datos estructurados, como números y símbolos, mientras que el otro tipo de información no puede representarse mediante números o una estructura unificada, como texto, imágenes, sonidos, páginas web, etc. Lo llamamos datos no estructurados. Los datos estructurados pertenecen a los datos no estructurados y son un caso especial de datos no estructurados.
Con el desarrollo de la tecnología de redes, especialmente el rápido desarrollo de la tecnología de Internet e Intranet, la cantidad de datos no estructurados aumenta día a día. En este momento, las limitaciones de las bases de datos relacionales, que se utilizan principalmente para gestionar datos estructurados, se hicieron cada vez más evidentes.
Por lo tanto, la tecnología de bases de datos ha entrado en la "era de las bases de datos post-relacionales" y se ha desarrollado hacia la era de las bases de datos no estructuradas basadas en aplicaciones de red. La llamada base de datos no estructurada significa que los registros de longitud variable de la base de datos se componen de varios campos repetibles y no repetibles, y cada campo puede estar compuesto por varios subcampos repetibles y no repetibles. En pocas palabras, una base de datos no estructurada es una base de datos con campos variables.
¿Qué son los datos estructurados y qué son los datos no estructurados? ¿Puedes dar un ejemplo? --ITJOB
El concepto se puede encontrar en Baidu, usando la comida como ejemplo.
Registre los tipos, colores, nombres y otros atributos de un racimo de frutas en un formato determinado. Esta parte de los datos son datos estructurados y un determinado valor de atributo de un determinado registro se puede leer a través de un. plantilla fija.
Ahora tomamos fotografías de frutas, describimos el sabor de las frutas con palabras e incluso creamos una página web para cada fruta. Todos estos datos son datos no estructurados y no corresponden directamente a un determinado atributo. Requiere un procesamiento relativamente complejo. Sólo analizándolo podemos conocer su significado.