La Red de Conocimientos Pedagógicos - Conocimientos sobre estudiar en el extranjero - Documento de recuperación de información

Documento de recuperación de información

Documento sobre tecnología de recuperación de información:

Recuperación de información web de contenido profesional basada en cuadrículas

1 Introducción

En los últimos años, con el rápido desarrollo de Internet, la tecnología de la información Los recursos son cada vez más grandes y la información es grande en cantidad, dispersa y heterogénea. Por lo tanto, las herramientas tradicionales de recuperación de información web han comenzado a mostrar su bajo rendimiento. Específicamente, las herramientas de recuperación de información existentes a menudo requieren que los usuarios busquen miles o incluso decenas de miles de registros y no pueden buscar con cuidado, o el contenido encontrado es diferente de lo que son. buscando. El contenido no es en un campo profesional, lo que resulta en información no válida. Sin embargo, a medida que aumenta la conciencia de la gente sobre la información, la demanda de contenidos y servicios de información continúa evolucionando y desarrollándose, lo que plantea nuevos requisitos para la especialización y eficacia de la adquisición de información. Una preocupación común es cómo proporcionar servicios de información profesionales y personalizados para usuarios específicos en campos profesionales, de modo que los usuarios puedan encontrar efectivamente la información que más necesitan en el menor tiempo. Este artículo utiliza computación grid, sistemas de clúster, XML y otras tecnologías para diseñar un sistema de recuperación de información web basado en grid para contenido profesional. Este sistema puede organizar y gestionar lógicamente información heterogénea y geográficamente dispersa de acuerdo con el contenido profesional, proporcionando a los usuarios una información rápida. y eficiente de obtener la información que necesitan.

Diseño de arquitectura de recuperación de información web basada en grid para contenido profesional

La computación grid es una importante tecnología de la información que ha surgido a nivel internacional en los últimos años. Su propósito es organizar diversos recursos en línea bajo un marco unificado, proporcionar una plataforma virtual fácil de usar para resolver cálculos complejos a gran escala, servicios de datos y diversos servicios de información de red, y lograr la conexión integral de todos los recursos en Internet y la integración. de recursos de información. Disfrute de todos.

Para resolver problemas complejos de informática científica y servicios de información masiva en diferentes campos, las personas han construido diferentes redes basadas en la interconexión de redes. Son diferentes en arquitectura y tipos de problemas a resolver, pero la computación en red requiere. al menos tres funciones básicas: gestión de recursos, gestión de tareas y programación de tareas. La arquitectura de recuperación de información diseñada en este artículo se centra en las funciones básicas de la computación grid y las características de la recuperación de información, y se compone principalmente de los siguientes tres niveles: como se muestra en la Figura 1.

(1) Nodo Grid: Node es el proveedor de recursos informáticos grid. El sistema se compone principalmente de una serie de sistemas de clúster distribuidos geográficamente para formar un grupo de recuperación distribuido como plataforma básica para compartir información. El sistema de clúster es responsable de la gestión, el mantenimiento y la consulta de la información dentro de todo el clúster.

(2) Middleware de computación grid: el middleware es una herramienta para la gestión de recursos de información, la programación de tareas del usuario y la gestión de tareas. Es la parte central de toda la gestión de recursos de información de la red. Es responsable de hacer coincidir y ubicar recursos de información en toda la cuadrícula de acuerdo con las tareas de solicitud de información del usuario y de realizar el mapeo de las tareas del usuario al sistema de clúster.

(3) Capa de usuario de cuadrícula: proporciona principalmente interfaces para aplicaciones de usuario y ayuda a los usuarios a describir, crear y enviar los recursos de información requeridos.

Figura 1

La idea principal de este sistema es dividir lógicamente la información heterogénea y geográficamente dispersa en múltiples sistemas de clúster, y estos sistemas de clúster administran los recursos en el clúster y. programar tareas, y luego el middleware de la red administra cada sistema de clúster, formando así la administración de todos los recursos de la red y la administración y programación unificadas de las necesidades de información del usuario. Este modelo de gestión no solo puede respetar las estrategias de gestión de información local de cada sistema de clúster, sino también utilizar middleware para gestionar los recursos de información de la red en un sentido global.

2.1 Diseño de un sistema de clúster

Debido a la naturaleza masiva de los recursos de información web, los usuarios enfrentan problemas masivos de consulta de datos cuando utilizan los motores de búsqueda existentes para recuperar información, lo que a menudo resulta en un gran consumo. de datos Después de acceder a los recursos de comunicación, la búsqueda de recursos es inexacta e incompleta. Actualmente, el sistema de clúster de servidores web basado en el mapeo de un solo sistema puede conectar múltiples servidores en un todo a través de la red de área local, haciéndolo parecer un servidor que atiende a los clientes, lo que permite la fusión lógica y la organización de recursos de información distribuidos geográficamente. Por lo tanto, este artículo considera primero la estrategia de cooperación distribuida y divide los recursos de información web por región y contenido profesional. Por un lado, el número de recursos de información es relativamente reducido, lo que facilita la organización, gestión y mantenimiento de datos, por otro lado, facilita la formulación de especificaciones XML generales basadas en contenido profesional y la descripción de diversos recursos de información en; el clúster, estableciendo así un sistema de integración de información de contenido orientado a profesionales basado en XML. La estructura específica del sistema de clúster se muestra en la Figura 2.

El servidor del clúster se compone principalmente de un agente de interfaz, un sistema de integración de información XML basado en contenido profesional, un agente de servicio de recursos y un agente de publicación de recursos. Entre ellos, el agente de interfaz registra, recibe y gestiona diversas tareas de solicitud de recursos de información de acuerdo con los parámetros de interfaz proporcionados por la tarea, y proporciona autenticación y autorización de seguridad. El agente de servicio de recursos utiliza los datos proporcionados por el sistema de integración de información XML para proporcionar a los usuarios operaciones de recuperación de recursos reales basadas en la tarea de solicitud de recursos de información y envía la información del resultado de la recuperación al usuario. El agente de publicación de recursos se utiliza para proporcionar datos lógicos y parámetros de interfaz de recursos de información locales al middleware de grid.

A continuación se explica principalmente el método de construcción del sistema de integración de información XML basado en contenido profesional:

XML (Lenguaje de marcado extensible) fue anunciado por el W3C en 1998 como una representación de datos en Internet. y nuevos estándares para el intercambio de datos. Es un lenguaje que puede describir información por sí mismo. Permite a los desarrolladores describir sus propios datos mediante la creación de etiquetas personalizadas definidas por tipos de documentos. La especificación DTD es un estándar que define la gramática, la sintaxis y la estructura de datos de los archivos XML. XML utiliza texto ordinario, por lo que tiene la ventaja de ser multiplataforma. Las ventajas de XML son (1) Simplicidad y estandarización: los documentos XML se basan en etiquetas de texto y tienen estructuras gramaticales estrictas y concisas, que son fáciles de entender para las computadoras y los usuarios (2) Extensibilidad: los usuarios pueden personalizar etiquetas con significados específicos; y las etiquetas personalizadas se pueden compartir entre cualquier organización, cliente y aplicación (3) Autodescripción: la autodescripción la hace muy adecuada para el intercambio de datos entre diferentes aplicaciones, y este intercambio no se basa en un conjunto predefinido de estructuras de datos; , por lo que tiene muchas ventajas. Fuerte apertura; (4) Interoperabilidad: XML puede almacenar toda la información en los documentos para su transmisión y las aplicaciones remotas pueden extraer la información requerida de ellos. Los datos XML son una aplicación independiente de una plataforma específica, por lo que proporcionan un excelente medio de expresión basado en contenido profesional específico y pueden usarse como lenguaje para expresar contenido profesional.

En la actualidad, los métodos básicos para desarrollar sistemas de integración de información web se pueden dividir en dos categorías: métodos de almacén y métodos virtuales. Estos dos métodos pueden aprovechar las ventajas de XML en la organización e intercambio de datos y establecer un sistema de integración de información web basado en XML mediante el uso de archivos de formato DTD y documentos XML para expresar patrones de integración basados ​​en contenido profesional y mapeo entre patrones de integración y recursos. Su estructura y proceso de adquisición de información se pueden encontrar en la referencia [2].

Figura 2

2.2 Diseño de middleware grid

Las funciones principales del middleware grid que se muestran en la Figura 3 son (1) eliminar diferentes usuarios y clústeres. las diferencias en la expresión de datos entre sistemas hacen que los datos de los recursos de información sean transparentes para los usuarios (2) Administrar y mantener sistemas de clúster distribuidos en la Web; El middleware Grid registra la información lógica y el contenido profesional de todos los sistemas de clúster en forma de una base de datos relacional. La operación de la base de datos relacional puede mantener la lógica distribuida del sistema de clúster, haciendo que esta estructura sea flexible y escalable (3) al aceptar la tarea de solicitud de información del usuario, puede localizar rápidamente el sistema de clúster que cumple con los requisitos y consultar la relación; La base de datos realiza la correspondencia entre las tareas de solicitud de información del usuario y el sistema de clúster.

Los principales módulos funcionales internos se describen a continuación:

(1) Módulo de agente receptor: se utiliza principalmente para registrar, recibir y gestionar diversas tareas de solicitud de recursos de información y proporcionar autenticación de seguridad y autorización.

(2) Base de datos relacional y agente de servicios de datos: la base de datos relacional registra la información lógica y el contenido profesional de todos los sistemas del clúster. Los agentes de servicios de datos brindan a los sistemas de clúster acceso a bases de datos relacionales y operaciones como agregar, eliminar, recuperar y modificar registros de datos.

(3) Módulo de agente de conversión de formato: proporciona la función de conversión de formato entre los documentos de solicitud de recursos de información del usuario y los documentos en cada sistema de clúster. Debido a que XML está personalizado, los usuarios tienen diferentes representaciones de los mismos datos (diferentes descripciones de recursos de información). Debido a que esta diferencia de formato en el documento XML se refleja en el DTD/esquema relacionado, el formato del recurso de información puede ser transparente para el usuario después de la conversión de formato.

(4) Módulo de agente de análisis de documentos XML: extraiga cada etiqueta en el documento XML después de la conversión de formato y realice la relación correspondiente entre la tarea de solicitud de información del usuario y el sistema de clúster consultando la base de datos relacional en la cuadrícula. middleware, Obtenga información relevante sobre el sistema de clúster que cumple con las condiciones y los parámetros de interfaz de cada sistema de clúster.

(5) Módulo de agente de envío: envía el documento XML de solicitud de recursos de información convertido al sistema de clúster correspondiente.

Entre ellos, la tecnología Agent es la tecnología clave para resolver problemas de aplicaciones inteligentes distribuidas. Agente se refiere a una entidad que puede cambiar de forma independiente, ejecutarse en otros sistemas e interactuar constantemente con el entorno. La introducción del Agente en el sistema puede humanizar el sistema, completar tareas de usuario en nombre de los usuarios, adaptarse dinámicamente a los cambios en el entorno, satisfacer mejor las necesidades de los usuarios y mejorar las capacidades de recuperación de información. Red de mezcolanza de secretarias