利用爬虫技术能做到哪些很酷很有趣很有用的事情?

准备学习python爬虫。各位大神都会用爬虫做哪些有趣的事情? 今天突然想玩玩爬虫,就提了这个问题。跟着YouTube上的一个tutor写了个简单的程…
关注者
80,339
被浏览
9,388,135
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

我们用爬虫爬遍整个网络空间,爬那些主流端口,这背后是各种服务,其中 Web 服务最为复杂。

我们把这些服务的响应内容尽可能存储下来,加上大量指纹规则去识别它们都是什么。

于是我们得到了「全球网络设备」情况:

zoomeye.org/statistic/d

由于 Web 服务的特殊性,我们还得到了「全球 Web 服务」情况:

zoomeye.org/statistic/w

当我们看到这个时,对整个网络空间充满敬畏,于是内部的项目在 2013 年初考虑对外开放,首先开放了搜索:

zoomeye.org

取了个非常酷的名字:ZoomEye,中文叫:钟馗之眼,定位为:网络空间搜索引擎。当前已经是第三版。

由于这种搜索方式非常专业(并非面向普通大众),我们在首页上提供了「用户手册」,还有「搜索 Dork」,用户可以借助这两样快速入门。

我们做这个的目的是什么?

其实,我们是安全研究者(说通俗点:黑客),我们想解决一个问题:

一个漏洞爆发后,我们如何感知全球影响面?

这个问题背后的逻辑就是我们做这个搜索引擎的奥秘。

在黑客世界,攻击者与防御者,他们对抗的单元都可以细分到一个个「组件」,我们认为组件是构成网络空间的最小单元,比如你搭建一个网站,你要用 Ubuntu/PHP/MySQL/WordPress(附带各种插件)/jQuery 等等等,这些玩意就是一个个组件,你不需要重复劳动去创造它们,而是选择搭积木方式,这是整个网络空间进化的必然结果。正因为如此,如果一个组件出漏洞(这是必然的),那将影响一大批使用它的那些目标。

攻击者喜欢这样,因为一个组件出漏洞,攻击者可以大规模黑掉目标,然后做各种坏事(庞大地下产业链的一个关键环节)。

对我们来说,其实我们是防御者,我们可以站在攻击者角度去评估这种影响面,然后发出预警。

我们最成功的案例是,2014/4/8 心脏出血漏洞爆发时,我们是最快搞定整个权威预警的团队。可以看当时我们基于 ZoomEye 做出的心脏出血全球统计与一年后的相关解读:

zoomeye.org/lab/heartbl
zoomeye.org/lab/heartbl


当时,我们的结论覆盖了央视、新华社、许多科技媒体、很多报刊杂志,还有国家相关监管机构,2014 年底时,入选极客公园评审的 2014 年互联网产品 50 强。这给了我们团队极大的信心,从一个内部实验性小项目逐渐成为安全圈/黑客圈炙手可热的平台。

这是一件大工程,如果你仔细体验这个平台,你会认可我的看法。

这是一个充满争议的平台,有人说我们通过 ZoomEye 就可以黑遍全世界。我们有能力做这事,但我们不会这样做,黑遍有什么好玩的,好玩在对抗,在促进整个网络空间的良性进化。

Google 爬了全球网站,他们说「不作恶」,对我们来说,全球网站只是我们面对庞大网络空间的一个子集(Google 的爬虫复杂度比我们只面对组件的爬虫的复杂度要高 N 个量级,这里不展开),为了把这个平台做好,我们还需要大量的人才与服务器、带宽、钱。

这是我这么多年带队做的最酷的爬虫项目,如果你也是 Python 工程师,对黑客这个领域充满好奇,可以私信我^_^