¿Qué es un motor de búsqueda y cómo funciona?
1. ¿Qué es un motor de búsqueda?
Hay decenas de miles de millones de páginas web públicas disponibles en Internet. Incluso el navegante más ávido no las visitará todas, pero sólo una pequeña parte de ellas no le parecerá maravillosa, sino pequeña. rincón en este vasto océano de la Web. Claro que puedes anunciar tu presencia, puedes escribir tu URL en letras grandes en tu cuerpo y caminar desnudo por el césped de la Casa Blanca, pero debes asegurarte de que los medios estén ahí y mirando. En lugar de hacer esto, ¿por qué no entender mejor cómo funcionan los motores de búsqueda? Cómo elegir y utilizar "palabras clave" (keywords), etc.
El propósito de este artículo es permitir que muchos diseñadores de páginas encuentren formas de lograr que sus páginas se clasifiquen bien en la lista devuelta por los motores de búsqueda según su conocimiento de los motores de búsqueda.
El término "motor de búsqueda" generalmente se refiere a un verdadero motor de búsqueda (es decir, un motor de búsqueda de texto completo) y un directorio (es decir, un motor de búsqueda de tipo catálogo). son diferentes y sus diferencias Lo principal radica en cómo está organizada la lista de resultados de búsqueda devueltos.
1. Directorio
La lista devuelta por directorios (como Yahoo!) se organiza manualmente.
Este tipo de motor proporciona un directorio de sitios web organizado manualmente por categoría. En cada categoría, se organizan los nombres de los sitios y los enlaces URL de los sitios web que pertenecen a esta categoría, y se registra cierta información resumida para proporcionar una descripción general. el sitio web. Una breve introducción (el resumen puede ser uno que usted envió, o puede ser una evaluación de su sitio realizada por el editor del sitio del motor). Cuando las personas buscan, lo hacen según el directorio de la categoría correspondiente.
Este tipo de motor suele ir acompañado de una función de consulta de sitios web, también llamada búsqueda de sitios web, que proporciona un cuadro de entrada de texto y un botón. Podemos ingresar las palabras, palabras o frases que estamos buscando en el cuadro de texto y luego hacer clic en el botón, se buscarán los nombres de sitios web relevantes, las URL y los resúmenes de contenido en el directorio, y se enviará una lista del contenido encontrado. encima. En la actualidad, Sohoo, Ivy, etc. nacionales utilizan este método de búsqueda.
2. Motor de búsqueda
Los motores de búsqueda (como HotBot) crean listas automáticamente.
El motor de búsqueda es muy similar a la consulta del directorio en el sitio web. También proporciona un cuadro de entrada de texto y un botón, y el uso es el mismo. Algunos también proporcionan directorios clasificados, pero existen diferencias esenciales entre ellos. los dos.
En la base de datos del directorio lo que se recopila y guarda es el nombre del sitio, la URL y el resumen de contenido de cada sitio web, en la base de datos del buscador, lo que se recopila y guarda es el contenido completo de; cada página web de cada sitio web el alcance es mucho mayor.
Los motores de búsqueda funcionan mediante la recuperación de texto completo. Los resultados encontrados por la búsqueda de texto completo no son el nombre del sitio, la URL y el resumen de contenido, sino las direcciones de las páginas web y un breve párrafo de texto relacionado con las palabras clave que ingresó. En este texto, puede que no esté la palabra clave que ingresó. Es solo el primer párrafo de una determinada página web, o incluso una etiqueta incomprensible, pero en esta página web debe estar la palabra clave que ingresó o palabras relacionadas. Por ejemplo, una consulta en un sitio web puede encontrar qué periódicos están disponibles en línea, como "Wenhui Po" y "Ta Kung Pao", mientras que una búsqueda de texto completo puede encontrar el vocabulario de cada artículo de estos periódicos en línea.
3. Motores de búsqueda que combinan los dos
Algunos motores de búsqueda también proporcionan directorios. Los directorios incluidos en los motores de búsqueda suelen ser de mayor calidad y allí se pueden encontrar muchos sitios buenos. Porque incluso si envía su sitio, no hay garantía de que se agregue al directorio. Se centran en sitios que ya existen en otros directorios y buscan selectivamente adiciones atractivas a su propio directorio.
Los motores de búsqueda y directorios tienen cada uno sus propias funciones irremplazables. El directorio es relativamente simple. Si desea obtener una buena clasificación, no hay otra manera que trabajar duro para crear un sitio de alta calidad con buen contenido. Los motores de búsqueda son mucho más complejos. Indexan automáticamente las últimas páginas web de muchos sitios WEB en cualquier momento, por lo que a menudo encuentran información que no se puede obtener en el directorio. Si cambia su página, los motores de búsqueda siempre notarán el cambio y reorganizarán su posición en la lista. El catálogo no puede hacer eso. Lo siguiente está dedicado a analizar cómo funcionan los motores de búsqueda y cómo mejorar su clasificación en los listados de los motores de búsqueda.
Material de referencia: /cpc/buildweb/search101.htm
Según los diferentes métodos de recopilación de información y métodos de prestación de servicios, los sistemas de motores de búsqueda se pueden dividir en tres categorías principales:
1. Motor de búsqueda de directorio: recopila información de forma manual o semiautomática. Después de que los editores revisan la información, forman manualmente un resumen de la información y la colocan en un marco de clasificación predeterminado. La mayor parte de la información está orientada a sitios web y proporciona servicios de exploración de directorios y servicios de recuperación directa. Debido a que este tipo de buscador incorpora inteligencia humana, tiene información precisa y navegación de alta calidad. Las desventajas son que requiere intervención manual, requiere mucho mantenimiento, tiene poca cantidad de información y no actualiza la información de manera oportuna. manera. Los representantes de este tipo de buscadores son: Yahoo, LookSmart, Open Directory, Go Guide, etc.
2. Motor de búsqueda de robot: un programa de robot llamado araña recopila y descubre automáticamente información en Internet con una determinada estrategia. El indexador crea un índice para la información recopilada y el recuperador recupera el índice de acuerdo con la biblioteca de consultas ingresada por el usuario. resultados de la consulta al usuario. El método de servicio es un servicio de búsqueda de texto completo para páginas web. Las ventajas de este tipo de motor de búsqueda son grandes cantidades de información, actualizaciones oportunas y la ausencia de intervención manual. La desventaja es que se devuelve demasiada información, incluida mucha información irrelevante, y los usuarios deben filtrar los resultados. Los representantes de este tipo de motores de búsqueda son: AltaVista, Northern Light, Excite, Infoseek, Inktomi, FAST, Lycos y los representantes nacionales de Google son: "Skynet", Youyou, OpenFind, etc.
3. Metabuscador: este tipo de motor de búsqueda no tiene sus propios datos. En cambio, envía la solicitud de consulta del usuario a varios motores de búsqueda al mismo tiempo, después de excluir y reordenar repetidamente los resultados devueltos, se los devuelve al usuario como propios. resultados. El método del servicio es la búsqueda de texto completo de páginas web. La ventaja de este tipo de motor de búsqueda es que la información que devuelve los resultados es mayor y más completa. La desventaja es que no puede utilizar plenamente las funciones del motor de búsqueda utilizado y los usuarios necesitan realizar más filtrado. Los representantes de este tipo de motores de búsqueda son WebCrawler, InfoMarket, etc.
......
Tecnología principal
Un motor de búsqueda consta de cuatro partes: buscador, indexador, recuperador e interfaz de usuario.
1. Buscador
La función del buscador es recorrer Internet, descubrir y recopilar información. Suele ser un programa informático que se ejecuta día y noche. Debe recopilar varios tipos de información nueva tanto como sea posible y lo más rápido posible. Al mismo tiempo, debido a que la información en Internet se actualiza muy rápidamente, debe actualizar periódicamente la información antigua que se ha recopilado para evitar conexiones inactivas y conexiones inválidas. Actualmente existen dos estrategias para recopilar información:
● Comenzar a partir de un conjunto de URL iniciales, seguir los hipervínculos (hipervínculos) en estas URL y recorrerlas en un orden heurístico, primero en amplitud o en profundidad. manera descubrir información en Internet. Estas URL de inicio pueden ser cualquier URL, pero suelen ser sitios muy populares que contienen muchos enlaces (como Yahoo!).
● Divide el espacio Web según nombres de dominio, direcciones IP o nombres de dominio de países, y cada buscador es responsable de la búsqueda exhaustiva de un subespacio.
Los tipos de información recopilada por los buscadores son diversos, incluidos HTML, XML, artículos de grupos de noticias, archivos FTP, documentos de procesamiento de textos e información multimedia.
La implementación de buscadores suele utilizar tecnología informática distribuida y paralela para aumentar la velocidad de descubrimiento y actualización de la información. El descubrimiento de información por parte de los motores de búsqueda comerciales puede llegar a millones de páginas web por día.
2. Indexador
La función del indexador es comprender la información buscada por el buscador, extraer elementos del índice y utilizarlos para representar el documento y generar la tabla de índice. de la biblioteca de documentos.
Hay dos tipos de elementos de índice: elementos de índice objetivos y elementos de índice de contenido: los elementos objetivos no tienen nada que ver con el contenido semántico del documento, como el nombre del autor, la URL, la hora de actualización, la codificación y la longitud. , popularidad del enlace (Popularidad del enlace), etc., etc., los elementos del índice de contenido se utilizan para reflejar el contenido del documento, como palabras clave y sus pesos, frases, palabras, etc. Los elementos del índice de contenido se pueden dividir en dos tipos: elementos de índice único y elementos de índice múltiple (o elementos de índice de frases).
Para el inglés, los elementos de índice único son palabras en inglés, que son más fáciles de extraer porque hay separadores naturales (espacios) entre las palabras. Para idiomas escritos continuamente como el chino, las palabras deben segmentarse;
En los motores de búsqueda, a un único elemento del índice generalmente se le asigna un peso para indicar el grado de discriminación del documento por el elemento del índice, y también se utiliza para calcular la relevancia de los resultados de la consulta. Los métodos utilizados generalmente incluyen métodos estadísticos, métodos de teoría de la información y métodos de probabilidad. Los métodos para extraer elementos de índice de frases incluyen métodos estadísticos, métodos de probabilidad y métodos lingüísticos.
La tabla de índice generalmente utiliza algún tipo de lista de inversión (Lista de inversión), es decir, el documento correspondiente se encuentra por elemento de índice. La tabla de índice también puede registrar la posición donde aparecen los elementos del índice en el documento para que el rastreador pueda calcular la relación de adyacencia o proximidad (proximidad) entre los elementos del índice.
Los indexadores pueden utilizar algoritmos de indexación centralizados o algoritmos de indexación distribuidos. Cuando la cantidad de datos es grande, se debe implementar la indexación instantánea; de lo contrario, no podrá mantenerse al día con el rápido aumento en la cantidad de información. Los algoritmos de indexación tienen un gran impacto en el rendimiento del indexador (como la velocidad de respuesta durante consultas pico a gran escala). La eficacia de un motor de búsqueda depende en gran medida de la calidad de su índice.
3. Buscador
La función del buscador es consultar rápidamente documentos en la base de datos indexada de acuerdo con la consulta del usuario, evaluar la relevancia del documento y la consulta, y evaluar. los resultados que se generarán Ordenarlos e implementar algún tipo de mecanismo de retroalimentación de relevancia para el usuario.
Existen cuatro modelos de recuperación de información comúnmente utilizados por los buscadores: modelo de teoría de conjuntos, modelo algebraico, modelo de probabilidad y modelo híbrido.
4. Interfaz de usuario
La función de la interfaz de usuario es ingresar consultas de los usuarios, mostrar los resultados de las consultas y proporcionar mecanismos de retroalimentación de relevancia para el usuario. El objetivo principal es facilitar a los usuarios el uso de los motores de búsqueda y la obtención de información efectiva y oportuna de los motores de búsqueda de manera eficiente y de múltiples maneras. El diseño y la implementación de interfaces de usuario utilizan las teorías y métodos de interacción persona-computadora para adaptarse completamente a los hábitos de pensamiento humanos. Las interfaces de entrada de usuario se pueden dividir en dos tipos: interfaces simples e interfaces complejas.
La interfaz simple solo proporciona un cuadro de texto para que los usuarios ingresen cadenas de consulta; la interfaz compleja permite a los usuarios limitar consultas, como operaciones lógicas (Y, O, NO; +, -), relaciones de proximidad ( adyacente, NEAR), rango de nombre de dominio (como .edu, .com), posición de apariencia (como título, contenido), tiempo de información, longitud, etc. Algunas empresas e instituciones están considerando actualmente desarrollar estándares para las opciones de consulta.