La Red de Conocimientos Pedagógicos - Aprendizaje de japonés - ¿Qué amigo sabe cómo utilizar Java para implementar la tecnología de rastreo web y motor de búsqueda y me cuenta los principios? Es mejor adjuntar el código. Gracias. Si es bueno, puedes obtener puntos extra.

¿Qué amigo sabe cómo utilizar Java para implementar la tecnología de rastreo web y motor de búsqueda y me cuenta los principios? Es mejor adjuntar el código. Gracias. Si es bueno, puedes obtener puntos extra.

Heritrix rastrea páginas web

No hablaré de muchos análisis de páginas web, es mejor que lo escriba usted mismo.

Índice de Lucene

En primer lugar, los rastreadores necesitan cadenas de procesadores. El rastreo web no se puede lograr con docenas de líneas de código porque hay muchos problemas.

Ahora.

1. Obtenga la página web: determine la codificación de la página web, calcule la posición del texto de la página web, obtenga la URL en la página web (el filtrado de URL, el almacenamiento en caché y el almacenamiento también deben optimizar el grupo de subprocesos). ), asigne la URL e inicie el grupo de subprocesos.

2. Persistencia de las páginas web. Análisis de páginas web, descarga de hojas de estilo e imágenes en páginas web, almacenamiento de páginas web (xml y html) y generación de instantáneas de páginas web.

3. Deduplicación y eliminación de ruido de páginas web: elimine las páginas web inútiles. Si se trata de un motor de búsqueda vertical, se requiere más criterio, lo que se puede lograr mediante el uso de plantillas de contenido y vectores espaciales.

4. El establecimiento y optimización de índices implica principalmente restaurar el índice invertido.

Su clasificación se puede lograr básicamente mediante plantillas de contenido y cálculos de vectores espaciales.

Hay muchas otras cosas que no se pueden comentar en detalle por el momento. ¿Hasta dónde quieres llegar? (Por ejemplo: el algoritmo del vector espacial y el valor de referencia del resultado, el establecimiento de la plantilla de contenido web).