可乐数学按:2016年的4月30日时香农诞生100周年纪念。转一个视频和两个文章分别介绍香农生平和贡献,以及通信的数学理论。视频来自腾讯,文章分别来自科普博览,以及詹姆斯·格雷克的《信息简史》。
克劳德·香农(Claude Elwood Shannon,1916-2001)于1916年4月30日出生在美国密西根州的伽娄德(Gaylord)小镇,当时镇里只有三千居民。香农的父亲是该镇的法官,母亲是镇里的中学校长。他生长在一个有良好教育的环境,不过父母给他的科学影响好像还不如祖父的影响大。香农的祖父是一位农场主兼发明家,发明过洗衣机和许多农业机械,这对香农的影响比较直接。此外,香农的家庭与大发明家爱迪生(ThomasAlvaEdison,1847-1931)还有远亲关系。
香农的两大贡献:一是信息理论、信息熵的概念;另一是符号逻辑和开关理论。香农的信息论为明确什么是信息量概念作出决定性的贡献。
1936年香农在密西根大学获得数学与电气工程学士学位,然后进入MIT念研究生。1938年香农在MIT获得电气工程硕士学位,硕士论文题目是《继电器与开关电路的符号分析》。当时他已经注意到电话交换电路与布尔代数之间的类似性,即把布尔代数的“真”与“假”和电路系统的“开”与“关”对应起来,并用1和0表示。于是他用布尔代数分析并优化开关电路,这就奠定了数字电路的理论基础。哈佛大学的HowardGardner教授说,“这可能是本世纪最重要、最著名的一篇硕士论文。
1940年香农在MIT获得数学博士学位,而他的博士论文却是关于人类遗传学的,题目是《理论遗传学的代数学》。说明香农的兴趣十分广泛,后来他在不同的学科方面发表过许多有影响的文章。在读学位的同时,他还用部分时间跟温尼法·布什教授进行微分分析器的研究。这种分析器是早期的机械模拟计算机,用于获得常微分方程的数值解。1941年香农发表了《微分分析器的数学理论》,他写道:“大多数结果通过证明的定理形式给出。最重要的是处理了一些条件,有些条件可以生成一个或多个变量的函数,有些条件可使常微分方程得到解。还给出了一些注意事项,给出求函数的近似值、求调整率的近似值以及自动控制速率的方法。”
1941年香农以数学研究员的身份进入新泽西州的AT&T贝尔电话公司,并在贝尔实验室工作到1972年,从24岁到55岁,整整31年。香农与JohnRiordan一起工作,1942年发表了一篇关于串并联网络的双终端数的论文。这篇论文扩展了麦克马洪1892年在Electrician上发表的论文理论。1948年香农在发表了《通讯的数学理论》,创立了信息论。
在二次世界大战时,香农博士也是一位著名的密码破译者(这使人联想到比他大4岁的图灵博士)。他在贝尔的破译团队主要是追踪德国飞机和火箭,尤其是在德国火箭对英国进行闪电战时起了很大作用。1949年香农发表了另外一篇重要论文《保密系统的通信理论》,正是基于这种工作实践,它的意义是使保密通信由艺术变成科学。
熵的概念
香农理论的重要特征是熵(entropy)的概念,他证明熵与信息内容的不确定程度有等价关系。熵曾经是波尔兹曼在热力学第二定律引入的概念,我们可以把它理解为分子运动的混乱度。信息熵也有类似意义,例如在中文信息处理时,汉字的静态平均信息熵比较大,中文是9.65比特,英文是4.03比特。这表明中文的复杂程度高于英文,反映了中文词义丰富、行文简练,但处理难度也大。信息熵大,意味着不确定性也大。因此我们应该深入研究,以寻求中文信息处理的深层突破。不能盲目认为汉字是世界上最优美的文字,从而引申出汉字最容易处理的错误结论。
众所周知,质量、能量和信息量是三个非常重要的量。人们很早就知道用秤或者天平计量物质的质量,而热量和功的关系则是到了19世纪中叶,随着热功当量的明确和能量守恒定律的建立才逐渐清楚。能量一词就是它们的总称,而能量的计量则通过“卡、焦耳”等新单位的出现而得到解决。然而,关于文字、数字、图画、声音的知识已有几千年历史了。但是它们的总称是什么,它们如何统一地计量,直到19世纪末还没有被正确地提出来,更谈不上如何去解决了。
20世纪初期,随着电报、电话、照片、电视、无线电、雷达等的发展,如何计量信号中信息量的问题被隐约地提上日程。1928年哈特利(R.V.H.Harley)考虑到从D个彼此不同的符号中取出N个符号并且组成一个“词”的问题。如果各个符号出现的概率相同,而且是完全随机选取的,就可以得到DN个不同的词。从这些词里取了特定的一个就对应一个信息量I。哈特利建议用NlogD这个量表示信息量,即I=NlogD。这里的log表示以10为底的对数。后来,1949年控制论的创始人维纳也研究了度量信息的问题,还把它引向热力学第二定律。但是就信息传输给出基本数学模型的核心人物是香农。1948年香农长达数十页的论文《通信的数学理论》成了信息论正式诞生的里程碑。在他的通信数学模型中,清楚地提出信息的度量问题,他把哈特利的公式扩大到概率pi不同的情况,得到了著名的计算信息熵H的公式:
H=∑-pilogpi
如果计算中的对数log是以2为底的,那么计算出来的信息熵就以比特(bit)为单位。今天在计算机和通信中广泛使用的字节(Byte)、KB、MB、GB等词都是从比特演化而来。“比特”的出现标志着人类知道了如何计量信息量。
香农最初的动机是把电话中的噪音除掉,他给出通信速率的上限,这个结论首先用在电话上,后来用到光纤,现在又用在无线通信上。我们今天能够清晰地打越洋电话或卫星电话,都与通信信道质量的改善密切相关。
香农的大部分时间是在贝尔实验室和MIT(麻省理工学院)度过的。人们描述香农的生活,白天他总是关起门来工作,晚上则骑着他的独轮车来到贝尔实验室。他的同事D.Slepian说:“我们大家都带着午饭来上班,饭后在黑板上玩玩数学游戏,但克劳德很少过来。他总是关起门来工作。但是,如果你要找他,他会非常耐心地帮助你。他能立刻抓住问题的本质。他真是一位天才,在我认识的人中,我只对他一人使用这个词。”
克劳德·香农在公众中并不特别知名,但他是使我们的世界能进行即时通信的少数科学家之一。他是美国科学院院士、美国工程院院士、英国皇家学会会员、美国哲学学会会员。他获得过许多荣誉和奖励。例如1949年Morris奖、1955年Ballantine奖、1962年Kelly奖、1966年的国家科学奖章、IEEE的荣誉奖章、1978年Jaquard奖、1983年Fritz奖、1985年基础科学京都奖。他获得的荣誉学位不胜枚举。
贝尔实验室和MIT都尊崇香农为信息论及数字通信时代的奠基人。是他将布尔代数的“真”与“假”电路的“开”与“关”对应起来,并用1和0表示。这是从理论转换到实际产品设计的一个重要的环节。(来源:中国科普博览)
————————————————————————————
詹姆斯·格雷克的《信息简史》节选:
通信的基本问题是,在一点精确地或近似地复现在另一点所选取的讯息。这些讯息往往都带有意义。
——克劳德·香农,《通信的数学理论》(1948)
在 1948 年这重要的一年之后,后来的人们自以为可以找出当时激发了克劳德·香农工作灵感的某些实用目的,但这只是事后猜测罢了。而他本人对此的看法迥然不同:我任由思绪信马由缰,种种设想会不时地冒出来。就像个科幻作家,我一直在思考的是:“假如是这样,事情又会如何呢?”
也正是在 1948 年,贝尔电话实验室对外宣布他们发明了一种小型电子半导体。这是“一种出奇简单的设备”,真空管能做的任何事它都能做,而且效率更高。它小巧玲珑,小到一个巴掌里放得下上百个。这年 5月,科学家们成立了一个委员会来为它命名。委员会给贝尔实验室的高级工程师发放了选票,列出了几个备选名字,如“半导体三极管”(semiconductor triode)、“微型真空管”(iotatron)、“晶体管”[transistor,由varistor(压敏电阻)和transconductance(跨导)两个词混合而成]等。最终,“晶体管”脱颖而出。“它可能将对电子和电信行业产生意义深远的影响。”贝尔实验室在新闻稿中这样宣布道。但这一次,现实超出了广告的溢美之词。晶体管引发了电子产业的革命,为电子技术的微型化和普遍应用开辟了道路,而它的三位主要发明人也很快获得了诺贝尔奖。对于贝尔实验室来说,它是皇冠上的明珠。然而,如果细究在那一年发生的重要进展,晶体管还只能屈居次席,因为它只是这场革命的硬件部分。
另一项更为意义深远、也更为基础的发明,出现在一篇专题论文中。这篇论文连载于7月和10月出版的两期《贝尔系统技术期刊》上,共79页。这次可没有什么新闻发布会。论文的题目既简单又宏大——《通信的数学理论》,而其传达的内容也很难用三言两语说清。但它是个支点,整个地球都将因此而被撬动。和晶体管一样,这项发明也引入了一个新词:比特(bit)。这个名字并没有经过什么委员会的投票,而是由这篇论文的唯一作者、时年32岁的克劳德·香农自行选定的。[2]现如今,比特已经跻身英寸、英磅、夸脱、分钟之列,成为量纲的一员。所谓量纲,就是测量的基本单位。
但它测量的是什么呢?“用于测量信息的单位”,香农写道,仿佛信息是种可测可量的东西。
表面上,香农是贝尔实验室数学研究组的成员,但他基本上独来独往。[3]当这个组撤离纽约的总部,搬到新泽西州郊野的新办公室时,他留了下来,常常待在旧办公楼的一个舒适的小开间里。这幢楼矗立在纽约西街上,是座12层高、沙砖结构的庞大建筑,背靠哈德逊河,面朝格林尼治村。香农不喜欢乘班车往返上下班,而是喜欢留在繁华的街区,在那里,他可以听到夜总会里吹奏的爵士黑管乐。那时,他正羞涩地追求一位在贝尔实验室微波研究组工作的年轻女士。微波研究组就在街对面的两层办公楼里,那栋楼原先是纳贝斯克饼干公司的厂房。大家都觉得香农是个聪明的小伙子。从麻省理工学院毕业后不久,他加入了贝尔实验室,从事与战争相关的工作,先是研发出了一种自动火控高射炮指挥仪,然后又集中精力研究保密通信(密码学)的理论,并用数学推导证明了所谓“X系统”的安全性——X 系统是指英国首相丘吉尔和美国总统罗斯福之间的专用电话线路。因此,上司即使弄不明白他留下来究竟要搞些什么名堂,倒也乐得对他听之任之。
在20世纪中叶,美国电话电报公司并不要求其研究部门立即产出什么成果,甚至允许它们在看不出具有明确商业目的的数学或天体物理学方面自由研究。尽管如此,它们所做的多数现代科学研究还是直接或间接地与公司力图使所有人都相互联系起来的使命息息相关。范围虽然广阔,但这家电话公司的核心业务量却一直以来没有明确的描述。据美国人口普查局年度统计摘要中有关“通信”的内容,截至1948年,每天有超过1.25亿次的通话要经过贝尔系统那2.22亿公里的电缆和3100万门电话机进行传输。但这些数字只是对通信量的粗略估算。摘要还统计了几千家无线电广播电台、几十家电视台的数据,以及报纸、图书、宣传手册和信函的数量。[4]邮局可以计算信函和包裹的数量,但贝尔系统传输的究竟是什么,又应该以什么单位来计数呢?传输的肯定不是通话,也不是字词,当然更不是字符。或许只是电而已吧。公司的工程师都是电气工程师,他们个个都明白,电在这里替代了人说话的声波,空气中的声波进入送话器就会被转换成电波。而电话之所以比电报先进,关键就是因为有了这种转换。作为电话的前驱,电报已然显得老旧而古怪了。电报有着完全不同的转换原理,它用的是点和划组成的编码,而且这套编码不是基于声音,而是基于书面的字母表(字母表本身也是一种编码)。细看之下,我们能发现这其中抽象和转换的链条:点和划代表字母表中的字母;字母代表声音,并相互组合成字词;字词则代表意义的某种根基,而这恐怕最好还是留给哲学家讨论吧。
贝尔系统早在1897年就聘请了公司的第一位数学家乔治·阿什利·坎贝尔。他是明尼苏达人,曾在哥廷根和维也纳学习。他很快遇到了早期电话传输中的一个严重问题:信号在电路中会失真,传输距离越长,失真就越严重。坎贝尔给出的解决方案既用到了数学,也用到了电气工程学知识。[5]他的老板则被告知不必太在意两者的差别。香农在学生时代就对成为工程师还是成为数学家犹豫不决,然而在贝尔实验室,不管愿不愿意,他都要面对电路和继电器。不过,他最乐此不疲的还是钻研抽象符号。大多数通信工程师都专注于物理问题,如放大和调制、相位失真以及信噪比降级等,香农则喜欢博弈和谜题。他最早被密码学吸引,始于年少时阅读埃德加·爱伦·坡的侦探小说。他像喜鹊一样搜集故事里的蛛丝马迹,试图去破解疑案。在麻省理工学院做研究助理的第一年,他的工作是操作一台百多吨重的原型计算机——万内瓦尔·布什制造的微分分析机。这台机器使用巨大的旋转齿轮、机轴和机轮来解微分方程。在22岁那年,香农在硕士论文中把一个19世纪的思想,即乔治·布尔的逻辑代数,应用到了电子电路的设计上。(逻辑和电,这是多么不寻常的组合!)后来,他又有机会与数学家、逻辑学家赫尔曼·外尔合作,后者教给他什么是理论:“理论允许意识‘跳出自身的影子’,超越经验而把握超验,但这只能借助抽象符号实现(这一点是不证自明的)。”
1943年,英国数学家、密码破译专家阿兰·图灵为了一个加密方面的任务造访了贝尔实验室。午餐期间,他与香农就人造思维机器的设想交换了意见。(“香农不仅仅想向这样一台大脑中输入数据,他还想把文化的东西灌输进去!”图灵惊呼道,“他想给它来点儿音乐!”香农同样也和诺伯特·维纳打过交道,维纳曾在麻省理工学院教过他,并在1948年提出了“控制论”这门研究通信和控制的全新学科。与此同时,香农也开始特别关注起电视信号来,不过视角比较独特。他在想,可否采用某种手法打包和压缩电视信号,从而更快地加以传输。逻辑和电路的结合产生了新的结晶,就像是基因和编码的结合一样。为了寻找一种统一的框架来梳理他头脑中的各种想法,香农开始着手整合一种有关信息的理论。
理论的原材料在20世纪早期的世界里随处可见,信件和口信、声音和影像、新闻和指令、数字和图表、信号和标识,不一而足。无论是通过邮局、电线还是电磁波,它们都在川流不息地流动着。然而,还没有一个词能够概括所有这些东西。香农在1939年写给麻省理工学院的万内瓦尔·布什的一封信中写道:“时断时续地,我一直在研究传递信息(intelligence)的一般系统的某些基本属性。”[8]intelligence一词有着悠久的历史,语意丰富。托马斯·埃利奥特爵士在16世纪写道:“现在 intelligence 作为一个文雅的说法,用来表示通过相互交换信件或口信达成协议或约定。”[9]不过除此之外,这个词还有了其他多个含义。一些工程师,尤其是贝尔电话实验室的工程师,开始使用information一词。他们用这个词来表达一些技术性概念,如信息的数量、信息的测量等。香农后来也采纳了这个用词。
为了能应用于科学领域,必须给信息(information)一词赋予某些特定含义。回首三个世纪前,当时物理学的发展已经到了难以突破的地步,但随着艾萨克·牛顿将一些古老但意义模糊的词(力、质量、运动,甚至时间)赋予新的含义,物理学的新时代开始了。牛顿把这些术语加以量化,以便能够放在数学方程中使用。而在此之前,motion(运动)一词(仅举此一例)的含义就与信息一样含混不清。对于当时遵循亚里士多德学说的人们而言,运动可以指代极其广泛的现象:桃子成熟、石头落地、孩童成长、尸体腐烂……但这样,它的含义就太过丰富了。只有将其中绝大多数的运动类型扬弃,牛顿运动定律才能适用,科学革命也才能继续推进。到了19世纪,energy(能)一词也开始经历相似的转变过程:自然哲学家选取这个原本用来表示生动有力或强度的词,使之数学化,从而赋予了它在物理学家自然观中的基础地位。