La Red de Conocimientos Pedagógicos - Currículum vitae - La diferencia entre los rastreadores y las pruebas de Python

La diferencia entre los rastreadores y las pruebas de Python

El proceso básico de un reptil

Iniciar una solicitud

Enviar una solicitud al sitio de destino a través de la biblioteca HTTP, es decir, enviar una solicitud que puede contener información adicional de primera clase y Espere a que el servidor responda.

Obtener el contenido de la respuesta

Si el servidor puede responder normalmente, obtendrá una respuesta. El contenido de la respuesta es el contenido de la página que se obtendrá, que puede ser HTML, Json. cadena, datos binarios (imagen o vídeo) y otros tipos.

Analizar contenido

El contenido puede ser HTML, que se puede analizar utilizando expresiones regulares y bibliotecas de análisis de páginas, Json, que se puede convertir directamente en análisis de objetos Json, o puede ser datos binarios, que pueden guardarse o procesarse posteriormente.

Guardar datos

El guardado puede adoptar muchas formas, como guardar como texto, guardar en una base de datos o guardar archivos en un formato específico.