实战运行手册——爬虫工具之三：ParseHub

idm.org.cn 行业资讯 2021-11-30 3937 2

任何项目的开发都需要有数据的支持，数据采集的准确性直接关系到数据分析结果的价值，而从各种网站收集数据（Web抓取）是一项非常繁琐的任务爬虫工具。

由于工作原因我会不断试用一些爬虫工具，接我们后面会出一个 “爬虫工具”系列，尽量找那些比较简单、易用且高效的小工具，说下它们的特点，通过截图做实战运行演示爬虫工具。

本期是ParseHub，它主要被用来爬取Web端各种类型的数据爬虫工具。

地址：/

下面简单演示一下运行使用步骤

第一步：点击下载安装地址/（选择对应的系统版本）第二步：注册账号

第三步：下载安装完成爬虫工具，登录ParseHub第四步：开始使用点击new project进入之后爬虫工具，如下图，右侧为爬取网页的缩略展示，左侧为所缩略展示页面元素的清单，可点选左侧的清单项进行后续操作例如这个看电影的网站爬虫工具，可以选择电影名称、电影播放时间及其海报进行爬取下面可以选择所需爬取数据的格式

点击Get Data按键点击Run爬虫工具，开始对数据进行爬取

实战运行手册——爬虫工具之三：ParseHub 第1张

数据爬取中

爬取完成

选择所需要的数据类型爬虫工具，这里选择json，然后保存数据到本地

打开就可以看到所爬取的数据了

以上是我亲力亲为用ParseHub做的数据爬取截屏示例，希望能有帮助爬虫工具。

个人对这个产品技术特征的理解爬虫工具，归纳如下：

ParseHub是一个强大且免费的Web抓取工具，类似国内的速上采集器等，它采用了机器学习的关系引擎，通过筛选页面并了解元素的层次结构，以查看到以秒为单位的数据；它从数百万个网页中抓取数据，以确保我们将成千上万的链接和关键字尽收眼底；不需要懂网络技术也能够轻松采集数据，只需单击，即可获取数据；这个工具可以支持实时预览采集的数据，你还可以设定抓取时间，以确保抓取到的是最新数据；ParseHub的最大优势是爬取一些相对复杂页面及元素，譬如你可以借助它检索表单、菜单、登录页，甚至单击图片或地图拿到背后的更多数据；有时，所要爬取的目标网页的技术过于落后，不用担心！无论是用JS还是AJAX编写的页面，都可以用ParseHub来收集和存储数据；我们还可以利用REST API以JSON或CSV格式下载萃取的数据，或将收集的数据导出为Google Sheet、Tableau等爬虫工具。