La Red de Conocimientos Pedagógicos - Currículum vitae - ¿Por qué a Python se le llama reptil?

¿Por qué a Python se le llama reptil?

El rastreador generalmente se refiere al rastreo de recursos de la red. Debido a las características de secuencias de comandos de Python, Python es fácil de configurar y su procesamiento de caracteres es muy flexible. Además, Python tiene módulos de rastreo web enriquecidos y los dos a menudo están vinculados. Simplemente use la biblioteca urllib que viene con Python; escriba un motor de búsqueda en Python, y el motor de búsqueda es un rastreador complejo. A partir de aquí sabrás qué es un rastreador de Python. Es una forma de rastrear recursos de red basada en programación Python. Python no es un rastreador.

¿Por qué Python es adecuado para ciertos reptiles?

1) Capturar la interfaz de la propia página web.

En comparación con otros lenguajes de programación estáticos, como java, c#, C y python, la interfaz para capturar documentos web es más sencilla. En comparación con otros lenguajes de secuencias de comandos dinámicos como Perl, Shell y Python, el paquete urllib2 proporciona una API relativamente completa para acceder a documentos web. (Por supuesto, Ruby también es una buena opción).

Además, rastrear una página web a veces requiere simular el comportamiento de un navegador y muchos sitios web prohíben rastreadores rígidos. Es por eso que necesitamos simular el comportamiento del agente de usuario para construir una solicitud adecuada, como simular el inicio de sesión del usuario y simular el almacenamiento y configuración de sesiones/cookies. Existen excelentes paquetes de terceros en Python que pueden ayudarlo, como Requests y mechanize.

2) Procesamiento después del rastreo de la página web

Las páginas web capturadas generalmente necesitan ser procesadas, como filtrar etiquetas html, extraer texto, etc. Beautifulsoap de Python proporciona funciones simples de procesamiento de documentos y puede completar la mayor parte del procesamiento de documentos con códigos muy cortos.

De hecho, muchos lenguajes y herramientas pueden realizar las funciones anteriores, pero Python es el más rápido y limpio. La vida es corta, necesitas Python.