La Red de Conocimientos Pedagógicos - Currículum vitae - ¿Cómo escribir un rastreador de Python?

¿Cómo escribir un rastreador de Python?

En realidad, existen muchas bibliotecas de rastreadores de Python, como URL comunes, solicitudes, bs4, lxml, etc. Si es principiante, puede aprender dos bibliotecas, a saber, request y bs4 (BeautifulSoup), que son relativamente simples y fáciles de aprender. las solicitudes se utilizan para solicitar páginas y BeautifulSoup se utiliza para analizar páginas. Aquí me baso en estas dos bibliotecas. Presentemos brevemente cómo Python rastrea datos estáticos y dinámicos de páginas web. El entorno experimental es Win 10 Python 3.6 py charm 5.0. Los contenidos principales son los siguientes:

Python captura datos estáticos de páginas web.

Esto es muy simple, simplemente solicita la página directamente según la URL. Aquí hay un ejemplo de cómo capturar el contenido de la Enciclopedia de historias embarazosas:

1. Supongamos que el texto que queremos capturar es el siguiente, que incluye principalmente cuatro campos: apodo, contenido, número de chistes, y número de comentarios:

Abra el código fuente de la página web, la estructura de la página web correspondiente es la siguiente. Es muy simple y el contenido de todos los campos se puede encontrar directamente:

2. Según la estructura de la página web anterior, podemos escribir código relevante para capturar datos de la página web. Es muy sencillo. Primero, solicite la página de acuerdo con la dirección URL y luego use BeautifulSoup para analizar los datos (según etiquetas y atributos), como se muestra a continuación:

La captura de pantalla que ejecuta el programa es la siguiente, los datos han sido rastreado con éxito:

Python Captura datos dinámicos de páginas web.

En muchos casos, los datos de la página web se cargan dinámicamente y no podemos extraer ningún dato rastreando directamente la página web. En este momento, debemos tomar el análisis del paquete para encontrar los datos cargados dinámicamente, que generalmente son un archivo json (por supuesto, también pueden ser otros tipos de archivos, como xml, etc.), y luego solicitar analizar el json, para que podamos obtener los datos que necesitamos. A continuación se muestra un ejemplo de cómo obtener datos dispersos en Renrendai:

1. Supongamos que los datos que rastreamos aquí son los siguientes e incluyen principalmente cinco campos: tasa de interés anual, título del préstamo, plazo, monto y progreso:

2. Presione F12 para abrir las herramientas de desarrollador, haga clic en "Red" -> "XHR", actualice la página con F5 y podrá encontrar el archivo json cargado dinámicamente. Los detalles son los siguientes:

3. Luego, según el análisis anterior, podemos escribir código relevante para capturar datos. La idea básica es similar a la página web estática anterior. Primero, use request para solicitar json y luego use el paquete json que viene con Python para analizar los datos, como se muestra a continuación:

La captura de pantalla del programa en ejecución es la siguiente, los datos se obtuvieron con éxito:

En este punto, hemos completado Usar Python para rastrear datos web. En general, todo el proceso es sencillo. Para los principiantes, Requests y BeautifulSoup son muy fáciles de aprender y dominar. Puedes aprender a usarlos. Una vez que se familiarice con él en el futuro, podrá aprender el marco del rastreador scrapy, que puede mejorar significativamente la eficiencia del desarrollo. Esto es bueno. Por supuesto, si hay códigos de encriptación y verificación en la página web, debe pensar e investigar las contramedidas usted mismo. También hay tutoriales e información relevantes en línea. Si estás interesado,

上篇: Recuerde siempre sacar cosas peligrosas como cuchillos del ______ de los niños 下篇: Traducción trilingüe

¿Cómo escribir un rastreador de Python?

Artículos populares