La Red de Conocimientos Pedagógicos - Conocimientos históricos - ¿Qué es la búsqueda de texto completo?

¿Qué es la búsqueda de texto completo?

Es una tecnología de recuperación que utiliza datos como texto, sonidos, imágenes, etc. como contenido principal para recuperar el contenido de la literatura en lugar de las características de apariencia principales. El sistema es el sistema TRS ·Tianyu System·etc.

En comparación con otros motores de búsqueda, la característica distintiva del motor de búsqueda de texto completo es que puede utilizar cualquier palabra significativa en el texto como entrada de búsqueda, y los resultados de la búsqueda obtenidos son documentos originales. En lugar de pistas de documentos.

Con el desarrollo de la industria informática, cada vez más información electrónica se transporta en dispositivos de almacenamiento informático. Esta información se puede dividir a grandes rasgos en dos categorías: datos estructurados y datos no estructurados Los datos estructurados se refieren a cosas como cuentas financieras corporativas y datos de producción, datos de calificaciones de los estudiantes, etc. Los datos no estructurados se refieren a algunos datos de texto, imágenes y sonidos y otros datos multimedia, etc. Según las estadísticas, los datos no estructurados representan más del 80% de todo el volumen de información. Para datos estructurados, gestionarlos con tecnología RDBMS (sistema de gestión de bases de datos relacionales) es actualmente la mejor manera. Sin embargo, debido a la estructura subyacente del propio RDBMS, parece tener algunas deficiencias inherentes en la gestión de grandes cantidades de datos no estructurados, especialmente la baja velocidad de consulta de estos datos no estructurados masivos. Estos datos no estructurados se pueden gestionar de manera eficiente mediante tecnología de búsqueda de texto completo.

Después de varios años de desarrollo, la recuperación de texto completo ha evolucionado desde un programa inicial de coincidencia de cadenas hasta un software a gran escala que puede gestionar de manera integral datos no estructurados, como texto de gran tamaño, voz, imágenes e imágenes en movimiento. Debido a cambios profundos en la connotación y denotación, los sistemas de recuperación de texto completo se han convertido en sinónimo de una nueva generación de sistemas de información de gestión, y los indicadores básicos para medir los sistemas de recuperación de texto completo se han estandarizado gradualmente.

En primer lugar, nos centramos en la tasa de recuperación, que es la relación entre la cantidad de datos relevantes recuperados por el sistema y la cantidad total de datos relevantes en la base de datos del sistema al realizar una determinada búsqueda. La tasa de precisión es clave para garantizar que encontremos la información más útil. Es la relación entre la cantidad de información útil recuperada por el sistema y la cantidad total de información recuperada al realizar una determinada búsqueda. La velocidad de búsqueda o el tiempo de respuesta es la garantía para mejorar la eficiencia del trabajo. Se refiere al tiempo requerido desde el envío de un tema de búsqueda hasta la búsqueda de los resultados de los datos. La velocidad de recuperación más básica debería ser "decenas de millones de caracteres chinos, respuesta de segundo nivel". También hay indicadores como el alcance de inclusión (el alcance de la búsqueda), la carga del usuario (la cantidad total de energía gastada por el usuario en el proceso de búsqueda) y la forma de salida (la forma de expresión de la información de salida) que también son factores que miden la calidad del sistema de recuperación de texto completo.

Los motores de búsqueda deberían ser la aplicación más importante de la tecnología de recuperación de texto completo. Actualmente, el uso de buscadores se ha convertido en la segunda tecnología de aplicación en Internet después del envío y recepción de correos electrónicos. Los motores de búsqueda se originaron a partir de la teoría tradicional de recuperación de información de texto completo, es decir, un programa de computadora escanea cada palabra de cada artículo y crea un archivo de clasificación en unidades de palabras. El programa de búsqueda se basa en la frecuencia de los términos de búsqueda que aparecen en cada uno. artículo y la probabilidad de que cada término de búsqueda aparezca en un artículo, ordene los artículos que contienen estos términos de búsqueda y finalmente genere los resultados ordenados. La tecnología de recuperación de texto completo es la tecnología de soporte central de los motores de búsqueda.

Un buen motor de búsqueda es la clave para un sitio ideal. A muchas personas les gusta utilizar la búsqueda de sitios cuando visitan un sitio. La búsqueda de sitios debe ser una combinación perfecta de navegación por categorías y búsqueda de texto completo, incluidos los siguientes aspectos:

La clave para la navegación por categorías es el alcance de la búsqueda. La limitación del alcance puede evitar que los resultados de la búsqueda sean demasiado numerosos y excesivos;

La búsqueda de texto completo es esencial para la recuperación del sitio y, en circunstancias normales, puede ayudar a las personas a encontrar rápidamente las páginas web que desean;

p>

A veces es difícil localizar la información requerida utilizando la navegación por el directorio de categorías y la búsqueda de texto completo. En este caso, es necesario combinar la asistencia de búsqueda;

Funciones de clasificación relacionadas. son necesarios porque cuando hay demasiados resultados de búsqueda, es imposible que los usuarios naveguen uno por uno. La mayoría de los usuarios solo exploran los primeros elementos sin una clasificación relevante. Los resultados de búsqueda posiblemente precisos se clasifican al final y no se pueden explorar. Sin embargo, los resultados de búsqueda clasificados al principio rara vez son relevantes, lo que genera confusión en el usuario.

Además, también debemos considerar la particularidad de HTML/XML, la compatibilidad con el acceso repentino de un gran número de usuarios simultáneos, las características dinámicas del sitio web y el requisito de una alta eficiencia de mantenimiento del índice.

Las implementaciones tecnológicas actuales incluyen Lucene, Solr, ElasticSearch, etc.

El proceso de recuperación de texto completo se divide en dos procesos: indexación y búsqueda:

Indexación

Recopila datos de origen (información de destino que se buscará) de bases de datos relacionales, Internet y archivos. sistemas, las fuentes de datos fuente son muy amplias.

Recopile datos de origen en un lugar unificado, como un sistema de almacenamiento. Para crear un índice, cree el índice en una biblioteca de índices (sistema de archivos), extraiga información clave de la base de datos de origen y extraiga información clave. de la información clave. Extraiga las palabras una por una, y las palabras están relacionadas con los datos de origen. Es decir, al crear un índice, la palabra está relacionada con los datos de origen, y esta asociación se registra en la base de datos del índice. Si se encuentra la palabra, significa que los datos de origen (páginas web http, libros electrónicos, noticias, etc.).

Búsqueda

Los usuarios realizan búsquedas (recuperación de texto completo) y escriben palabras clave de consulta.

Busque el índice en la base de datos del índice y busque cada palabra en la base de datos del índice según la palabra clave de consulta.

Mostrar resultados de búsqueda.