一枚硬币的信息量是多少?
随便抛出一枚硬币,只会有两种结果,不是正面就是反面,各有50%的概率。如果用0和1两个数字分别代表硬币正面和反面的两种可能性,那么0和1这一对二进制数就是一枚硬币所包含的信息量,即1比特。
同样类似的,一个开关所包含的信息量也是1比特。也就是说,1比特的信息量指的是两个具有相同出现概率的结果之和。如果是两个开关的话,就有两个比特的信息量,会出现00,01,10,11四种状态。
如果是一枚两面都一样的硬币呢?它的信息量是多少?
也许你不会想到,它的信息量是0。因为信息量取决于不确定性出现的概率,对这样一枚两面都一样的硬币,不管你怎么抛,所得结果都是确定的,所以信息量是0。
从这个看起来很简单的原理出发,可以推导出度量信息量的一个公式:
其中Pi是可能信息的出现概率。
由此推演,可以得到一系列关于信息的定律。描述这套理论的论文名为《通信的数学原理》,发表于1948年,作者是克劳德.香农,其中共列出了23个定律,统称香农定律。香农在论文中指出,上面这个信息量公式“作为信息、选择和不确定性的量度,在信息论中具有核心地位”。
这个全新的信息量度,需要一个新的单位比特。这个词是怎么出来的?据梭尼和古德曼两人合著的传记记载,这是香农1948年在贝尔实验室里通过头脑风暴敲定的,在binit, bigit和bit之间,最终选择了bit,它是由当时在实验室工作的普林斯顿大学教授John Tukey提出的。
现在随便找一个稍微懂点儿电脑知识的孩子,问及比特的含义,恐怕都能说出和信息有关的大概。但在大半个世纪前,在这个全新的信息量度还没被定义出来时,所有通信领域的专业人士在思考文字、语音、图像等信息的传输时,都是把他们区别来对待的,是香农天才般地发现了它们都可以被转化为二进制编码,作为比特流来传输。
尽管我们早已迈入信息社会,现实生活中关于信息的方方面面都和这个源头息息相关,但香农这个名字,和比尔盖茨或者乔布斯相比,远未达到家喻户晓的程度。但如果说盖茨和乔布斯的所有成就都离不开香农奠定的信息论基础,恐怕你就会理解为什么香农会被称为信息时代的开创者了。
香农在论文中还定义了信息冗余,指出英语的信息冗余度大概是50%,并论证出信息传输过程中因不可避免的噪音干扰所导致的信息丢失问题可以通过编码冗余来解决。这一点彻底改变了解决通信噪音的路径,被誉为是信息传输领域里哥白尼式的发现。
所有这些脱离信息的具体内容而抽象出的信息概念和定律,意味着人类对信息产生了飞跃性的认识。因此就不难理解,为什么香农的这篇论文被誉为“信息时代的大宪章”(《科学美国人》评语),以此为基础衍生出的信息论,和控制论、系统论一起被并列为二十世纪的三大论。
这样一个对人类社会进步做出开创性贡献,被认为可以和牛顿、爱因斯坦等巨人比肩的天才科学家,的确值得书写一番。
梭尼和古德曼两人合著的这本传记,不但生动地描摹出了形象鲜明的香农,也对其开创性的信息论的演变过程、出现的历史背景,以及相关的核心思想是什么,做了清晰易懂的介绍,在平衡可读性和知识性方面表现得相当出色。虽说来得迟了一些,但未为晚也。
作者所掌握的一手素材非常丰富,可以让人从中管窥这位天才科学家的成长历程,并获得一些高等教育如何充分激发天才型学者潜能的启迪。
比如,香农小时候热爱亲自动手做各种小玩意,但成绩并不特别突出,其天赋在大学时代同时在数学和工程领域展开研究时才充分展现出来。在1937年完成的硕士论文《继电器和开关电路的符号分析》中,香农首次把布尔函数和电路设计结合起来,为科学规范集成电路设计开辟了新的道路。这篇论文也因此被誉为上世纪美国最杰出的硕士论文,没有之一。
学习过信息控制工程的小伙伴们一定不会忘记大学里用面包板自己设计搭建集成电路小玩意的经历吧。什么“与或门”,“或非门”等等的,用各种简单逻辑门的组合实现复杂算法的集成电路设计原理,都来源于香农的这篇硕士论文。
在麻省理工学院搞研究的时候,香农并未受到太多的专业限制,宽松的研究氛围很符合香农的天性,看起来和他的导师布什(Vannevar Bush)所发挥的指引作用也有着密切关系。
传记里说,为了拓展香农的学术视野,并发挥其数学专长,布什竟然安排他跨界进入生物遗传学领域做博士研究。香农也确实不负期待,短短一年就入了门,并写出了可以发表的研究成果。
也许是因为这段不寻常的研究经历,1949年香农首次指出了基因组也包含着可用比特度量的信息量。而在那个时候,DNA的结构尚未被发现,华生还是个大学生。
对香农在二战期间参加密码破译,和图灵产生交集,以及战后成为国家安全委员会科学顾问的奇特经历,传记也有不少着墨,读来非常有意思。
(骑独轮车,玩杂耍是香农标志性的业余喜好)
现在来看,像香农这样好玩、有趣、视野开阔、有很强好奇心和探索欲、特立独行、喜欢自己动手、具有高度抽象思维能力和数学头脑、同时又看淡名利的科学家的确是少之又少。
难怪两个作者在传记的最后一章中,给香农做了一个带有浓浓怀旧意味的总结评价,称他在过于专门化的学者群体中具有罕见的普遍性研究视野和探索各种未知领域的非凡勇气。那怕他所感兴趣的问题在同行看起来显得多么微不足道,他也会毫不忌讳地以一种戏乐、轻松的方式来进行研究,并往往能获得不同寻常的研究成果。
作者还发现,在上世纪六七十年代,香农的这种独特品质影响了不止一代的麻省理工学子,是他们开启了香农预见并产生深刻影响的信息革命时代。在作者眼里,那时候的校园学术研究气氛,和现在普遍流行的、动辄就谈初创、赚大钱、搞实际应用的氛围完全不同。
总体而言,在读完这本传记后,你会通过香农人生经历的种种面向,不论是学术的、公众的、还是私人的,形成一个非常立体全面的认识。
阅读这本传记还让我重温了一些因为多年没用,快忘得差不多的信息论知识。结合传记,我甚至还读了香农那篇著名论文的纪念单行本,直接感悟了一下他原汁原味的表述。虽然现在读来感觉很陌生,但大师就是大师,其由浅入深的论证逻辑表述的确是让人惊叹。
也许正如香农自己所说的那样,历史上所有产生重大影响的科学发现,基本都受科学家探究事物的强烈好奇心所驱使,这是科学进步最本源的驱动力。至于具体发现产生了什么影响和作用,并给发现者带来什么样的名与利,这些都是副产品。
可以这么说,这本传记所展现的香农一生,相当完美地体现了这一特点。
Shannon,Claude E & Weaver, Warren. (1963). The Mathematical Theory of Communication. Urban and Chicago: University of Illinois Press.
Soni,Jimmy & Goodman, Rob. (2017). A Mind at Play: How Claude Shannon Inventedthe Information Age. New York: Simon & Schuster.