Introducción al conjunto de herramientas de rastreo web de programación Python
1. Beautiful Soup
Hablando objetivamente, Beautifu Soup no es un conjunto completo de herramientas de rastreo que deban usarse junto con urllib, sino un conjunto de análisis de datos HTML/XML. , limpiar, obtener cosas.
2. Rastreo agresivo
de etapas de Scrapy, un marco rápido y avanzado de scraping de pantalla y web scraping
para
Python. Creo que muchos estudiantes han escuchado que muchos cursos en el mapa de cursos se basan en Scrapy. Hay muchos artículos introductorios en esta área, incluido un artículo inicial de Daniel pluskid: Scrapy
Rastreadores web fáciles de personalizar, atemporales.
3. Python Goose
Goose se escribió originalmente en Java y luego se reescribió en Scala. Este es un proyecto de Scala. Python-Goose está reescrito en Python y se basa en la belleza.
Sopa. Dada la URL de un artículo, puedes obtener fácilmente el título y el contenido del artículo, lo cual es muy fácil de usar.
Lo anterior es una introducción al conjunto de herramientas del rastreador web de programación Python. Espero que esto ayude a todos los que programan Python. Por supuesto, aprender a programar en Python no solo requiere herramientas de aprendizaje, sino que también requiere muchos conocimientos de programación, que deben aprenderse bien. ¡vamos!