来自上外的语言学交流平台
编者按:今年是《句法结构》出版60周年,林学长特撰此文以兹纪念。
乔姆斯基1957年出版的《句法结构》往往被看作现代语言学的一个革命性的转折点,在许多人的心目中,其之于语言学的地位不亚于《自然哲学的数学原理》之于物理学。这本短短100多页的著作究竟有何魔力?究竟是名副其实还是大众的口口相传造英雄?且听本文一一道来。
《句法结构》的出版
我们首先从这本书的出版谈起。民间流传的一种说法是当时乔姆斯基当时带着这本书稿出版困难,辗转了多家出版社最后才找到荷兰的一家小出版社得以出版。事实上,《句法结构》第一版的出版商是位于荷兰海牙的穆顿(Mouton),这家出版社后来被德国的德古意特(de Gruyter)收购后即变成了现在著名的Mouton de Gruyter。这家出版社小不小?在当时确实小。至于其出版困难不困难,来看看乔姆斯基本人的叙述:
图1 乔姆斯基自己介绍关于《句法结构》的出版(Chomsky 1975:3)
上述文字包含的信息量还不少。从这段文字中我们可以看到,《句法结构》其实是根据乔姆斯基当时在MIT给本科生上课的讲义改编而成的。出版前后并没有遇到许多困难,在Morris Halle(SPE的合著者)的斡旋下,给编辑一看,编辑就给他出了,前后只有1年左右。因此,并不存在“老乔找了多家出版社都拒绝给他出版”这场网友脑中加的戏。只不过,第一,在当时由于其理论对主流语言学界来说过于新颖,论文的投稿遭拒倒是常有的事儿;第二,出版不代表一定火,如老乔这里所言,真正把《句法结构》带入世人目光的是他在MIT的同事Robert Lees 1957发表在《语言》杂志上的书评;第三,反倒是老乔还有另一本书倒还真是辗转了近20年才最终出版,这里暂且先卖个关子。
《句法结构》的长度
《句法结构》只有100页出头,短短100多页的书也可以成为经典吗?如果我们抱着皇帝的新衣里小孩的态度,这一点是值得怀疑的(身为一个中国人,早就已经对靠吹捧、靠关系、靠人云亦云来造英雄这种事情见怪不怪了)。当时Mouton策划了一个系列丛书叫作Janua Linguarum,《句法结构》是这个系列的第4本。这个系列的主编是上面老乔那段话中提到的Cornelis van Schooneveld,一位荷兰语言学家,也是著名语言学家Roman Jakobson的学生。Janua Linguarum这个拉丁语的标题翻译成英语就是Gates of Languages,根据当时穆顿的总经理Peter de Ridder的要求,这个系列的书长度不超过120页。乍一看,和现在外教社的“外语学术普及系列”这一套小书颇有点相似的意味,就是一套语言学入门丛书,只不过它要求的篇幅更短。这就非常值得引起重视,因为如果要说哪一本原先只是定位于介绍性质的《什么是XXX》能成为引起整个世界语言学界革命的经典,恐怕是很难让人信服的。
图2 Janua Linguarum系列第56册,乔姆斯基的另一本小书Topics in the Theory of Generative Grammar,只有95页
图3 外教社出版、宁春岩老师所著的《什么是生成语法》,正文共207页
以笔者手边能获得到的2002年出版的《句法结构》第二版为例,正文只有117页,这仅100页出头的薄纸真的能撑起如此丰富的内容和伟大的思想吗?然而事实是:这本书仅仅是乔姆斯基本人的另一本巨著《语言学理论的逻辑结构》(The Logical Structure of Linguistic Theory,简称LSLT)的一个浓缩,该书长达近600页,然而其在语言学史上的地位却大大受到忽视,在我国更是很少被人提到并且教授给学生。乔姆斯基在1955年完成了该书的初稿,却在20年后的1975年才将其出版。谈及其内容,光是阅读那篇近50页的引言,其清晰的逻辑条理以及如同自然科学家般的缜密思维就足以令人震撼(此处不详细展开)。因此,应当说《句法结构》思想的新颖性、原创性以及内容的丰厚度是有保证的。另外,尽管原书只有100多页,但David Lightfoot为其第二版撰写的序就长达14页,而Robert Lees 1957年在《语言》杂志上发表的书评更是长达34页,这些数据也从侧面印证了一些东西。
《句法结构》的内容
如果一定要细究的话,其实严格来说SS(Syntactic Structures,即《句法结构》)不仅包括LSLT的内容,LSLT一书中基本上没有谈有限状态语法的问题,而这一点在《句法结构》中是有谈到的。乔姆斯基对语言学,甚至数学、计算机领域的一大重要贡献就是划分了四类形式语法,这四种语法排个序,称作乔姆斯基层级(Chomsky hierarchy),其句法生成能力沿着这个层级递变,0型语法(无限制语法)的生成能力最强,1型语法(上下文有关语法)次之,2型语法(上下文无关语法)再次之,3型语法(正则)语法最弱。这几种语法都在现实生活中有具体应用,如程序语言一般来说是上下文无关语法,而正则语法,即有限状态自动机的一个典型例子即我们身边的自动售货机。这些形式语法分别对应的形式语言、自动机以及改写规则的定义如下图所示。
图4 四种语法及其对应的形式语言、自动机及改写规则的定义
图5 乔姆斯基层级
现在大家基本认同,自然语言的语法至少需要一部分上下文有关规则。这也就意味着,有限状态语法不足以描写自然语言,而单纯的上下文无关语法,也不足以描写自然语言。《句法结构》第三章讲的,正是有限状态语法的不足之处。假如是抱着满腔热血、冲着经典去的文科生来读这些玩意儿,这些看上去很像机器、很数学的玩意儿,基本上一上来就会消磨掉你的热情。换而言之,如果想要读懂《句法结构》,你的思维必须得像老乔早期的思维一样,很“数学”、很“计算机”,要知道,现在有限状态自动机和形式语法一般都是列入《离散数学》教材中的一章(在笔者写完初稿后,有朋友提供了一本题为《形式语言与自动机理论》的教材,里面完全是关于乔姆斯基四种形式语法的内容)。而在P&P和MP盛行后,半个世纪前的这些伟大发现几乎不再出现在句法学的教材里,这些相关内容,如果不是学习计算语言学的话,即使是现在专攻句法学的学者也未必了解。摸着良心说,在大兴纪念《句法结构》出版的60周年之际,我们是否应该确保自己首先读懂了《句法结构》呢?
图6 状态图(state diagram)是自动机理论中常见的一种图示
纵观整本书,这本短短的著作共12章。第一章引言非常简短,仅有一页外加3-4行。第二章介绍一些基本概念,如形式化地重新定义了“语言”与“语法”,并介绍了合语法性等概念(注意乔姆斯基在该书中使用的术语是grammaticalness,而非后来常用的grammaticality,并且乔姆斯基从最一开始就注意到了degree of grammaticalness的问题,只不过根据形式语法的数学模型,只能进行合语法和不合语法的二分)。最后两章为附录,分别为“记号与术语”以及“英语中的短语结构规则和转换规则举例”。全书目录如下:
图7 《句法结构》的目录
众所周知,乔姆斯基在句法理论方面的创新在于转换,假如没有了转换,结构主义的直接成分分析法的本质和短语结构语法是一样的。转换的思想来源于其导师Zellig Harris,而乔姆斯基将其形式化了。整本书的写作思路大体上还较为清晰,顺着乔姆斯基层级一路往上,第三章论述有限状态语法描写英语的不足,第四章介绍短语结构语法,其实也就是上下文无关语法,第五章再论述上下文无关语法为何也无法充分描写自然语言(英语)。现在大家学过句法的一般对短语结构的树形图较为熟悉,但却对有限状态语法非常陌生,这是在目前语言学教学过程中缺乏全局观的体现。
那当上下文无关语法不足以描写自然语言的时候怎么办,很自然地应当往上下文有关语法拓展,其中一种思路便是转换,这就是(转换)生成语法的做法,转换规则的本质是上下文有关语法,在第六章简单回顾了语言学理论的目标之后,第七章开始引入一些更具体的英语中的转换规则。这一条主线与乔姆斯基1956年发表的《描写语言的三种模型》(Three models for the description of language)一文如出一辙。
后来也有一些其他理论(事实上是除了生成语法的绝大部分句法理论)不使用转换,使用了一些其他手段,使整个语法体系看上去还是像一个短语结构语法/上下文无关语法,而基于统计的方法,如n元语法(n-gram),更是只需要一个有限状态模型就可以了,这难道意味着之前的发现出错了吗?难道上下文无关语法甚至有限状态语法就已经足够描写自然语言了?
并不是。有一个前提是需要注意到的,所有的上述4种形式语法都是针对生成字符串来说的。这里的字符串是一种数学的对象,就像实数或者逻辑真值一样。数学中有一块较少被提到的领域叫做串论(/字符串理论)与连接代数(string theory and concatenation algebra),但正是这块领域支撑着字符串模型的数学基础。这部分内容在《句法结构》的附录I中有简要介绍(字符串的连接运算在SS中使用的符号为+,而在其他书籍中常用⌒表示),更具体的详见乔姆斯基的学生、数学专业出身的Barbara Partee所著的《语言学中的数学方法》。早期形式语法的各种操作字符串为对象的,甚至连起到“辅助线”作用的非终结符也是字符串(事实上也可以给出另一种从集合角度进行的定义,此处不展开),然而从Chomsky 1965的Aspects开始,特征系统被广泛引入,句法的单位不再是单纯的字符串,而变成了symbol complex(对应地,音系的单位变成了feature matrix),其本质上都是向量。这就好比我们从原来对标量的运算,现在拓展到了对向量的运算,因此自然不是一回事。所幸,假如仅仅是《句法结构》的话,其一切理论都还是基于字符串的(包括转换规则)。至于基于统计的模型,其已经从四元组语法拓展出去了,增加一个概率,所以原先的结论也需要改变。
句法与语义
《句法结构》正文最后一章讲的是句法和语义的问题。乔姆斯基早期理论被诟病的一点就是没有考虑语义问题,而他在这章里反驳的观点正是“语法(/句法)的构建需要考虑语义”。乔姆斯基认为,构造语法理论最重要的证据是“(母语者)关于语言形式的直觉(/语感)”,比如某句句子合不合语法(还有当时一些没有被明确提出的,比如成分性判断以及频率效应的判断等)。之所以会混淆两者,正是因为人们混淆了“关于语言形式的直觉”和“关于意义的直觉”。
任何一个形式系统一般都由“句法”部分和“语义”部分组成。比如形式语义学入门的命题逻辑、谓词逻辑部分,在一些教科书上就采用了这种讲法。而到目前为止,乔姆斯基构造的是一个句法理论,没有过多涉足意义领域,也没有旨在构建一个完整的关于语言系统的理论。一个形式系统的句法部分在构造的时候还真不需要牵涉到语义,形式语法严格来说是对数学意义上的字符串的研究。另一方面,研究意义也存在重重难点,在当时是有时代局限性的。语法形式化了,但语义还没有得到形式化的描写(即使到目前为止,对人类语言表达的所有语义的全局性的形式化仍很薄弱),连语义究竟包括哪些东西在当时都是非常模糊的。在《句法结构》中,乔姆斯基也只是零星提到了如指称、同义等问题。但这些概念都是非常模糊的,试问在意义还没有描写清楚的情况下,我们如何去判断两个意义是否相近呢?
小结
在阅读经典的时候,有一些地方还是要带着审慎的眼光去看待的。乔姆斯基写作的一大问题就是他使用的术语和说法往往容易让人引起误解(尽管他可能在另一处做过清晰的说明)。笔者曾经对十几位在国内外攻读句法学方向的博士进行过访谈,调查他们对“生成”和“转换”这两个概念的理解,就得到了全然不同的各种解答。在阅读《句法结构》时也需要提防这些问题。
比如,在《句法结构》48页上,乔姆斯基做出了澄清, “生成”不是实时说话过程中的“产出”,他用化学打了个比方,“产出”就像是化学“合成”,而句法结构如同物质结构一样,只告诉我们小单位是如何“组成”大单位的(当我们说“组成”的时候,并不蕴含着一个实时的过程,而只是部分-整体关系)。对乔姆斯基来说,生成更像是数学定理证明,即假如a属于某个集合A,对a的某种操作也属于集合A,非强制的转换就属于这一类。而对于强制转换规则和短语结构规则来说,只不过这里用到了许多“辅助线”,即非终结符(即对应各个句法范畴),带有非终结符的字符串本身是不属于合语法的句子的集合的,只有最终推导出的全部由终结符组成的字符串才在某个语言的句子集合L中。
至于“转换”,乔姆斯基也在LSLT及其他多处指出,就和“音位”“语素”“短语结构”等层级一样,“转换”本身也是一个层级。其最得意的门生之一、2013年的认知科学界大奖鲁梅哈特奖的得主Ray Jackendoff也在著作中明确指出,“转换”只是一种隐喻,其本身是结构的一部分。只不过由于“转换”一词的动态性,让人容易误解为是个动态的过程。在化学中其实也有类似的例子,用“动态”的概念来解释静态的结构。典型的例子是苯环的共振结构:
图8 苯环的共振结构(图片来源于网络)
此外,比如当他说“英语不是一个有限状态语言”(Chomsky 1957/2002:21)的时候,很容易让人误解成,这像一个自然现象或规律一样,等着我们去发现英语属于哪种类型;而事实上我们在做的工作是,去比较哪一种形式语言更适合去套英语的现象,或者换句话说,用什么样的工具去描写英语最合适,即生成所有的英语句子且仅生成所有的英语句子。正如其在第48页上所述,语法是对句子的描写。
总之,《句法结构》是一部并不长的书,但读者必须从一个合适的角度去阅读它。就好像我们经常说,读一部小说你需要理解作者当时所处的时代背景一样,读这样一部语言学著作,你需要的是特定的知识结构与视角——一种非常数学化的眼光。5、60年前的确发生了一场大革命,当时的人们热衷于比较各种语法的生成能力的强弱并在数学上给出证明。1965年的《句法理论的若干问题》也被乔姆斯基在MIT的同事、认知科学中视觉领域的开创者David Marr在其经典著作Vision中引用。Marr为其做了辩护,对其进行了高度评价,认为该书和他的视觉理论一样,是描写了语言学中表征层面(levels of representation)的一本好书,并批评了将其理解为一个动态过程的做法。
图9 计算视觉领域开创者、计算神经科学家David Marr(1945-1980)
上述传统反而在近50年里式微,计算语言学界几乎不再引用乔姆斯基后期的理论。一方面,乔姆斯基后期一直强调计算系统,将其与原先的“定理证明”系统混淆(注意:一个是实时的,另一个是非实时的,数学定理摆在那边,即使不用人去计算和证明,它本身也是正确的);另一方面,乔姆斯基中后期的理论形式化程度明显不再如早先这么高,而更多地向经验性的归纳法妥协。如《最简方案》在出版20年后,才见到有人对其进行形式化(Chris Collins与Edward Stabler于2016年发表在《句法》期刊上),而整个P&P时期,几乎都罕见带有全局眼光的形式化处理(讽刺地是,乔姆斯基在《句法结构》中一直强调的就是语法的建立要考虑全局性,如第56页),却成了当今句法学教科书教授内容的主流。有时学习者感觉句法学非常复杂,使用了很多符号,就认为这很形式化、很科学、用了很多数学。外行看门道,内行看热闹。恐怕只有大家都懂同一种语言,才能进行更好地交谈。笔者的本科老师一直向学生强调,工程师的语言是图纸,而科学的语言是数学。英语只是当今世界的学术语言,却不是科学的语言,语言学家或语言学学生都知道自然语言充满着歧义性和复杂的形义配对。用自然语言来描述的理论,有时看似在讨论同一个问题,实则鸡同鸭讲,学术研究中更重要的是同实,而要避免同名异实的情况。
形式语言补议
形式语法是一个数学意义上的理想化模型,就好像大家高中数学里都学过的圆、椭圆、双曲线、球体等概念一样,都是理想化的。现实世界中有真正的圆吗?画得再圆的圆,要是真的拿放大镜看,每个方向的半径还是会有不一样。但是这并不影响我们去测量一个接近为圆的图形、一个圆柱状实物或者一个颗粒的直径,把他们“削足适履”地当作一个圆(/圆柱体/球体)。这种操作是合理的,我们首先判断这个物体是否大致是圆形,如果符合的话,我们就用“圆”的模型去套(通过一个直径或半径的参数来定义),如果实在和理想化的圆差得很远,我们再换另一个模型。
而给定一堆语料数据,去回溯该用什么样的形式语法的形式去描写的时候,用数据科学或统计学来打个比方说,就像做回归分析,给一堆数据,你可以做线性的拟合,也可以用多项式函数或逻辑斯蒂函数去拟合,只不过是哪种更合适而已。而且有时候整体上也许呈现某种曲线的分布,但在局部范围内,线性拟合可能更合适。这与句法的情况类似,如果只看部分的英语句子,也许上下文无关语法就足够了,并不需要增添上下文有关的规则(转换规则本质上是上下文有关的规则);而当纳入更多的句子时,从整体的角度来看,上下文无关语法也许就不足够了。所以说,语法其实还是在描写。
图10(a) 一堆数据可以采用线性拟合也可以采用对数拟合
图10(b) 采用多项式拟合就得到了上图的结果,多项式拟合的效果优于前一张图的对数拟合;多项式的指数越大,拟合效果越好(R2越大),但在加入新数据时的泛化能力可能会较弱
图10(c) 对于全局数据来说,我们也许需要更复杂的模型如对数或多项式模型(cf. 上下文有关语法);而对于局部数据来说,线性拟合的效果可能更好(cf. 上下文无关语法)
乔姆斯基本人其实在《句法结构》中反对了把合语法性看成统计逼近(statistical order of approximation,第106页),正如其一如既往地反对统计模型一样。不过上述回归分析只是一种比方,只是为了让大家理解语法是一种描写,而且存在局部和全局的差异。如果只考虑局部的数据和考虑全局性的数据,得出的语法可能是不一样的(关于从数据反推语法的讨论,详见《句法结构》第六章)。不过这种对统计模型的反对事后证明可能只是乔姆斯基的一厢情愿,统计模型目前在计算语言学界应用也十分广泛。上文提过,形式语法是个确定性的模型。给定一个词库,根据形式语法得到的,是将这个词库集合的克林闭包集明确切成合语法句子和不合语法句子两个集合,这无法体现合语法性这样一个渐变的变化,统计模型正好可以弥补这个问题。
另一种理解是机器学习中的分类器。因为回归分析的数据全是正面数据,而且往往显示出某种线条形的分布。而分类器所基于的数据是有正反两面的,我们需要去寻找的往往是那个边界。语法的任务其实也是找边界,正反两方面的证据分别是合语法的句子和不合语法的句子。
- 全文终 -
推荐阅读:
林学长,做有观点的语言学平台
长按二维码关注
微信号:Mister-Ling
语言学交流平台(又名“林学长”)的编辑目前来自上海各高校语言学专业,日常推送的内容包括语言学科普小品文以及各类信息(包括全国范围内的语言学讲座、会议、沙龙、征稿、课程表以及招聘等等),另有国外最新期刊文章报导。
目前我们设有两个专题板块: 语言类型学和计算语言学,更多板块正在筹建中。
语言学交流平台关注世界语言学前沿,希望将语言的各个范式放入一个大框架中,建立沟通平台,同时融合语言学理论与信息技术,使语言学理论能更好地创造价值,反哺社会。
语言学交流平台配有相应的QQ群:
主群:340047791
语言类型学:425794110
计算语言学:147393670
电子书与期刊搬运,请加小编微信yihtsy
欢迎您的加入!