任何项目的开发都需要有数据的支持,数据采集的准确性直接关系到数据分析结果的价值,而从各种网站收集数据(Web抓取)是一项非常繁琐的任务爬虫工具

由于工作原因我会不断试用一些爬虫工具,接我们后面会出一个 “爬虫工具”系列,尽量找那些比较简单、易用且高效的小工具,说下它们的特点,通过截图做运行实战演示爬虫工具。

本期是webhose.io,它主要被用来爬取新闻、博客、评论方面的数据爬虫工具。

地址:下面简单演示一下使用步骤

第一步:注册账号

邮箱处必须使用企业邮箱爬虫工具,个人邮箱无法注册)第二步:注册完后登录并保存密钥

实战运行手册——爬虫工具之一:Webhose 爬虫工具 第1张

第三步:


用这个地址下载Webhose提供在github上代码爬虫工具,把它克隆到本地,而后把它运行起来;如下图截屏所示,我把注册时的API密钥替换在了遮挡部分

实战运行手册——爬虫工具之一:Webhose 爬虫工具 第2张

第四步:

在过滤条件中添加自己要搜索的条件爬虫工具,其中可选项目有:语言、作者、视频、外部链接、评分、图片、时间、关键字、地域等








下面链接是Webhose所提供的文档

如果不会设置搜索规则的话爬虫工具,可以参考Webhose提供的示例


下面提供了数据格式的选择、时间筛选以及排序规则


以上如果操作完成爬虫工具,在下方会根据填写的搜索条件自动生成对应代码,如截屏所示


只要按照我前面的操作步骤来爬虫工具,并把代码跑起来,就可以获得所需要的数据这就是一个数据爬取的截屏演示爬虫工具,归纳下Webhose的主要特点

Webhose不同于其他爬取工具,你完全不需要关注爬取的过程,仅在设置列表中选择你需要的过滤条件,Webhose会据此条件进行搜索,再把爬取的数据返回给你;这个工具可以让使用者快速获取数据,从而把大量精力放在对数据后期的利用上,从而不用去考虑网站的爬取规则和修改爬虫代码;Webhose可在任何在线资源中提取企业级实时数据,收集的数据是结构化的,并且可以以XML、RSS和JSON等不同格式使用;Webhose的免费版本每月可以调用1000次HTTP请求爬虫工具。