知乎日报

每日提供高质量新闻资讯

头图

Google(谷歌)有一个逆天的黑科技

Google(谷歌)有一个逆天的黑科技

Google(谷歌)有哪些逆天的黑科技?

Yumeng Guo,思想在路上

Google Ngram Viewer | http://books.google.com/ngrams

Google 在 2005 年开始Google Books Library Project项目,试图囊括自现代印刷术发明以来的全世界所有的书刊。至 2012 年,已完成超过520 万本书,包含5 千亿个单词

Google Books Library Project 与 Google's Partner Program 共同组建成广为人知的 Google Books

Google 对书籍的处理不仅是扫描,还进行了数字化(Digitizing)与数据化(Datafication),这样就巧妙地避开大多版权问题。庞大的数据库甚至孕育了一个新学科(Culturomics)的成立。

Ngram 就是借用这个庞大的数据库开发的小工具,它有什么功能呢?

----------------------------

比如,想知道 thrive 的过去式应写作 thrived 还是 throve,在 Ngram 里输入这两个词,得到下图。

看图的最左端,1900 年出版的书刊中,throve 出现的个数占该年全部书刊的词汇总量的 0.00006%,而 thrived 是 0.00004%,岁月流逝,thrived 越来越受到亲睐。今天,书刊中基本见不到 throve 了。

试一下 Influenza (流感),发现在 1920 年、1930 年、1960 年出现了三个波峰。这与“1918 大流感”、“亚洲流感”等历史事件吻合。

看一下全球气候,发现 sea levels (海平面)、atmospheric CO2(大气中二氧化碳), global temperature(全球气温)这三个词的热度在近 50 年飞速增长。

各个行业的热度呢?发现制造业在走下坡路,这说明社会在进步,不是吗?

我们可以发掘地更深些。

举一个例子。限定英文书籍数据库搜索一位名为 Marc Chagall 的艺术家,是一条上升的曲线,知名度越来越高,是正常的。

但是,德语书籍数据库中的曲线在 1933-1945 年出现了异常的低谷。为什么呢?

原来 Marc 是犹太人,在特殊的年代他的名字被和谐了。

再来一个例子,拿下图最右边绿色的这条线来说,人们到 80 年代末才开始疯狂地谈论“1990”,过了 90 年代中期,热度慢慢降低。对比不同的曲线,越后期的曲线在过了峰值后下降得越快,说明什么?社会节奏加快,人们更快地失去对过去的兴趣。

当然,Google 也扫描了英文外的很多语言,包括简体中文。

-------------------------------- 补充信息 ------------------------------

  • Ngram 源自计算机语言n-gram
  • 目前收录的语种包括但不限于:美式英语,英式英语,法语,德语,西班牙语,俄罗斯语,希伯来语,汉语。
  • Ngram Viewer 收录的单词或短语需满足一项要求:该词或短语在某年出版的超过 40 本书中出现过,才会有该年该词的数据点。
  • 数据进行了标准化处理来削弱某些年份某些书印数过多对结果的影响。
    • Culturomics 这个词第一次出现是 2010 年,一篇刊登在 Science 的文章Quantitative Analysis of Culture Using Millions of Digitized Books,作者是哈佛大学的 Jean-Baptiste Michel 与 Erez Lieberman Aiden。而这两位也参与了 Google Labs 的 Google Ngram Viewer 项目。
    • Culturomics(文化组学)这个新词来源于 Genomics(基因组学),后者研究人类基因组,文化组学通过定量分析数字化文本研究人类行为和社会文化发展,研究者数据挖掘大量数字化信息,探寻反映在语言和文字中的社会文化现象。
  • 在一个名为 Culturomics 2.0 的项目中,Kalev H. Leetaru 分析包含印刷品和媒体信息的数据库,限定透露出语气、情感和地理信息的词汇。该项研究追溯性预测到 2011 年阿拉伯之春事件,并成功地预测 Osama Bin Laden 的生前所在地,误差在 124 英里以内。
  • Alexander M. Petersen 在其 2012 年所著的一篇论文中声称,他们发现了“词汇的产生和消亡的显著变化”:消亡得更快,产生得更慢。作者还发现了一个普适的新词生命周期的“临界点”:在其产生的 30 到 50 年之后,要么写入字典,要么消亡。

---------------------------

第一次得知 Ngram 是来自于一个 TED 演讲,以上诸多案例也来源于此。

Jean-Baptiste Michel + Erez Lieberman Aiden: What we learned from 5 million books

其他参考文献

Culturomics

Google Books Library Project

Google Ngram Viewer

n-gram