La Red de Conocimientos Pedagógicos - Currículum vitae - ¿Qué biblioteca utiliza el rastreador de Python?

¿Qué biblioteca utiliza el rastreador de Python?

El rastreador de Python, el nombre completo del rastreador web de Python, es un programa o script que rastrea automáticamente información en la World Wide Web de acuerdo con ciertas reglas. Se utiliza principalmente para capturar datos de transacciones de valores, datos meteorológicos, datos de usuarios del sitio web, datos de imágenes, etc. Para admitir las funciones normales de los rastreadores web, Python tiene una gran cantidad de bibliotecas integradas, principalmente de varios tipos. El siguiente artículo se lo presentará.

1. Biblioteca de red de rastreadores de Python

La biblioteca de redes de rastreadores de Python incluye principalmente: urllib, request, grab, pycurl, urllib3: código R, Python y matlab de ejecución en la nube.

Doce. Correo electrónico

●Flanqueo: dirección de correo electrónico y biblioteca de análisis Mime;

● talon: biblioteca Mailgun para extraer citas y firmas de mensajes.

Trece. Operaciones de URL y sitios web

furl: una pequeña biblioteca de Python que simplifica las operaciones de URL;

purl: URL simples que no se pueden cambiar y API limpia para depuración y operaciones.

● Dirección web. Análisis: se utiliza para romper la división entre los componentes del Localizador uniforme de recursos (URL), combinar los componentes en una cadena de URL y convertir la "URL relativa" en una URL absoluta, denominada "URL base"

●tldextract; : Separe con precisión los dominios y subdominios registrados de TLD de las URL, utilizando una lista de sufijos común;

●etaddr: una biblioteca de Python para mostrar y manipular direcciones de red.

Catorce. Extracción de contenido de páginas web

●periódico: utiliza Python para la extracción de noticias, extracción de artículos y curación de contenidos;

●HTML2text: convierte HTML a texto en formato Markdown;

● Python-Goose: extractor de artículos y contenido HTML;

●lassie: una herramienta de recuperación de contenido web fácil de usar;

●micawber: una pequeña biblioteca para extraer contenido enriquecido de sitios web;

●sumy: un módulo que resume automáticamente archivos de texto y páginas HTML;

●Haul: un rastreador de imágenes extensible;

●Python- Readability: un rápido Interfaz Python para la herramienta de legibilidad ARC 90;

●scrapely: una biblioteca para extraer datos estructurados de páginas HTML;

●youtube-dl: descargar vídeos de youtube Un pequeño programa de línea de comandos ;

●Obtienes: YouTube, descargador de videos Youku/Niconico para Python 3;

●WikiTeam: una herramienta para descargar y guardar wikis.

15. WebSocket

●Crossbar: un enrutador de mensajes de aplicaciones de código abierto;

●AutobahnPython: proporciona la implementación Python del protocolo WebSocket y el protocolo WAMP y es abierto. fuente;

●WebSocket-for-Python: biblioteca de servidor y cliente de socket web para Python 2, 3 y PyPy.

16. Análisis de DNS

●dnsyo: comprueba tus propios DNS en más de 1.500 servidores DNS en todo el mundo;

●py cares: interfaz c-ares .

17. Visión por computadora

●OpenCV: biblioteca de visión por computadora de código abierto;

●SimpleCV: utilizada para cámaras, procesamiento de imágenes, extracción de características y conversión de formato. Introducción y una interfaz legible;

●mahotas: un rápido algoritmo de procesamiento de imágenes por computadora basado enteramente en matrices numpy como tipo de datos.

Dieciocho.

Sistema de servicio proxy

●shadowsocks: un proxy de túnel rápido que puede ayudarle a penetrar firewalls;

● tproxy: tproxy es un proxy de enrutamiento TCP simple basado en Gevent y configurado con Python.

Diecinueve. Lista de otras herramientas de Python

●Awesome - python

●pycrumbs

●python-github-project

●python_reference

●pythonidae