Rastreador web Java
1. Guía de programación Java de Network Robot, fácil de entender, un poco desactualizada, pero adecuada para principiantes.
2. Escriba un rastreador web usted mismo. Puede echar un vistazo a los conceptos básicos. La redacción es un poco confusa, muchos contenidos no están claros y muchos códigos están plagiados. . .
3. Motor de búsqueda: principios, tecnologías y sistemas. Como caso de estudio, Skynet de la Universidad de Pekín es muy bueno y potente, con un toque académico.
4. Es muy recomendable el libro Web Data Mining de Liu Bing.
5. Motor de búsqueda: práctica de recuperación de información, un buen libro, muy recomendable.
También hay algunos papeles. Encuéntrelo usted mismo.
En el caso, puedes estudiar parte del código del rastreador de Nutch, que está escrito de forma muy clara.
Con lo anterior, debe considerarse una introducción~