¿Qué es un motor de búsqueda y cómo funcionan?
Motor de búsqueda se refiere a la recopilación de información de Internet de acuerdo con ciertas estrategias y utilizando programas informáticos específicos. Después de organizar y procesar la información, proporciona a los usuarios servicios de recuperación y busca información relevante para los usuarios. información al usuario. Los motores de búsqueda incluyen índices de texto completo, índices de directorios, metabuscadores, motores de búsqueda verticales, motores de búsqueda de colecciones, motores de búsqueda de portales y listas de enlaces gratuitos, etc.
Cómo funciona
Paso 1: Rastreo
Los motores de búsqueda utilizan un patrón de software específico para rastrear enlaces en páginas web y rastrear de un enlace a otro. Los enlaces son como arañas que se arrastran sobre una telaraña, por eso se les llama "arañas" y también "robots". El rastreo de la araña del motor de búsqueda se rige por ciertas reglas y debe seguir algunos comandos o el contenido del archivo.
Paso 2: Rastrear y almacenar
Los motores de búsqueda rastrean las páginas web a través de enlaces de seguimiento de araña y almacenan los datos rastreados en la base de datos de la página original. Los datos de la página son exactamente los mismos que el HTML obtenido por el navegador del usuario. Las arañas de los motores de búsqueda también detectan ciertos contenidos duplicados cuando rastrean páginas. Una vez que encuentran un sitio web de bajo peso que tiene una gran cantidad de contenido plagiado, recopilado o copiado, es probable que dejen de rastrear.
Paso 3: Preprocesamiento
El motor de búsqueda preprocesará las páginas rastreadas por la araña en varios pasos.
⒈Extraer texto
⒉Segmentación de palabras chinas
⒊Eliminar palabras vacías
⒋Eliminar ruido (los motores de búsqueda deben identificar y eliminar estos ruidos, como como texto de declaración de derechos de autor, barra de navegación, publicidad, etc.)
5. Índice directo
6. Cálculo de la relación de enlaces <. /p>
8. Procesamiento especial de archivos
Además de los archivos HTML, los motores de búsqueda normalmente pueden rastrear e indexar una variedad de tipos de archivos basados en texto, como
PDF. , Archivos Word, WPS, XLS, PPT, TXT, etc. También vemos a menudo estos tipos de archivos en los resultados de búsqueda. Sin embargo, los motores de búsqueda aún no pueden procesar contenido que no sea texto, como imágenes, vídeos y Flash
, ni pueden ejecutar scripts ni programas.
Paso 4: Clasificación
Después de que el usuario ingresa la palabra clave en el cuadro de búsqueda, el programa de clasificación llama a los datos de la base de datos del índice, calcula la clasificación y se la muestra al usuario. El proceso interactúa directamente con el usuario. Sin embargo, debido a la gran cantidad de datos en los motores de búsqueda, aunque se pueden lograr pequeñas actualizaciones todos los días, las reglas de clasificación de los motores de búsqueda generalmente se actualizan en fases diarias, semanales y mensuales de diferentes magnitudes.
Elija
palabras claves relevantes para el contenido del sitio web
alto número de búsquedas, baja competencia
palabras clave principales, no demasiado amplias
Palabra clave principal, no demasiado especial
Valor comercial
Extraer texto
Segmentación de palabras chinas
Eliminar palabras vacías
Eliminación de ruido
Eliminación de duplicaciones
Índice directo
Índice invertido
Cálculo de la relación de enlace
Procesamiento de archivos especiales