一、常用模块

1、requests模块爬虫工具,网络请求

Requests是用Python语言基于urllib编写的爬虫工具,采用的是Apache2 Licensed开源协议的更加方便,可以节约我们大量时间

其它还有:urllib爬虫工具,urllib2等

2、pyquery模块爬虫工具,html页面解析

PyQuery库也是一个非常强大又灵活的网页解析库,PyQuery 是 Python 仿照 jQuery 的严格实现爬虫工具。语法与 jQuery 几乎完全相同,所以不用再去费心去记一些奇怪的方法了。

其它还有:beautifulsoup4爬虫工具,lxml等

3、selenium库爬虫工具,模拟浏览器操作、Ajax页面抓取

selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)爬虫工具。Selenium的核心Selenium Core基于JsUnit,完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。

selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题爬虫工具。

其它还有:pyppeteer

4、celery模块爬虫工具,分布式任务调度库

1、celery库简单介绍

Celery 是一个由 Python 编写的简单、灵活、可靠的用来处理大量信息的分布式系统,它同时提供操作和维护分布式系统所需的工具爬虫工具。

Celery 专注于实时任务处理,支持任务调度爬虫工具。

说白了,它是一个分布式队列的管理工具,我们可以用 Celery 提供的接口快速实现并管理一个分布式的任务队列爬虫工具。

5、其它常用库

1、json库爬虫工具,json操作库

2、PIL库爬虫工具,图片操作库

3、openpyxl库爬虫工具,Excel操作库

4、pymssql库爬虫工具,SQL Server数据库操作库

5、MySQLdb库爬虫工具,MySQL数据库操作库

6、fake-useragent库爬虫工具,头部请求伪装库

二、爬虫框架

1、Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架爬虫工具。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。Scrapy 使用 Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。

框架结构:

python爬虫常用工具集合 Python爬虫 第1张

2、Pyspider

Pyspider是一个国人编写的强大的网络爬虫系统并带有强大的WebUI爬虫工具。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

框架结构:


三、数据库相关

1、Redis数据库爬虫工具,基于内存的数据库

Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API爬虫工具。

2、MongoDB数据库爬虫工具,文档型数据库

MongoDB是一个基于分布式文件存储的数据库爬虫工具。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案

MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的爬虫工具。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

四、消息队列

消息队列已经逐渐成为企业IT系统内部通信的核心手段爬虫工具。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。

1、RabbitMQ

RabbitMQ是一个由erlang开发的AMQP(Advanced Message Queue )的开源实现爬虫工具。AMQP 的出现其实也是应了广大人民群众的需求,虽然在同步消息通讯的世界里有很多公开标准(如 COBAR的 IIOP ,或者是 SOAP 等),但是在异步消息处理中却不是这样,只有大企业有一些商业实现(如微软的 MSMQ ,IBM 的 Websphere MQ 等),因此,在 2006 年的 6 月,Cisco 、Redhat、iMatix 等联合制定了 AMQP 的公开标准。

2、Kafka

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写爬虫工具。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。

3、RocketMQ

阿里系下开源的一款分布式、队列模型的消息中间件,原名Metaq,3.0版本名称改为RocketMQ,是阿里参照kafka设计思想使用java实现的一套mq爬虫工具。同时将阿里系内部多款mq产品(Notify、metaq)进行整合,只维护核心功能,去除了所有其他运行时依赖,保证核心功能最简化,在此基础上配合阿里上述其他开源产品实现不同场景下mq的架构,目前主要多用于订单交易系统。