《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

泥沙龙笔记:语言处理没有文法就不好玩了

已有 4838 次阅读 2015-7-5 20:56 |个人分类:立委科普|系统分类:教学心得| NLP, parser, 文法

:短信、微信推陈出新的表达,很多未必符合语法,也流行起来了

:那就都是例外

:例外太多了规则就意义不大了

:例外多了就没必要语法了

:不符合语法的,原来是有的。这个就像幻肢,phantom例外太多,我们记忆受不了

立委:例外是文法的有机成分。可枚举的例外是文法中词典化了的部分,不可枚举的例外形成的是小规则,自然更是文法的一部分(不能规则化的,不可能是不可枚举的,否则人脑也记不住)。文法就是一个大规则加小规则加个性例外的层级体系,这样看文法、组织和运用文法可以避免很多不毛之争。

:要是没有语法,整个理科工科就没法玩了。

: 再比如,洋泾浜,还是有语法的语法是最大可能的覆盖大多数人不知道语法是什么,但可以告诉你一句话说的对不对

立委:我女儿在初中是学文法的。她最得意就是,她是全班文法最好的学生。画树,这边 diagramming,被认为是一个需要学生学习的技术,她画得特熟。直到有一天我给她看我的parser她试了很多句子,稀奇古怪的,网上摘来的,自己瞎编的,有意为难它,可鲁棒性是我设计研发parser的主要目标之一,兵来将挡,水来土屯,不怕。测试了一通以后,对老爸佩服得五体投地,说,我画不了那么好,有些句子画不了。

:这个是english课上教的目的是使学生写的东西规范

立委:其实你一点点教文法给机器,后来就会发现,它很多时候,超过了创造者对文句的文法分析能力,给你一些 nice surprises。因为你教的东西你可能忘记,但机器不会忘记。

:中文自然语言处理往往以自己的特殊性来自表,并发展出了分层理论,但是严格来说,都是语言,只有复杂性的区别,没有特殊性的区别。

立委:同意。我对过分强调中文特殊性,不认同,而且也无益。中文并没有想象的那么特殊,中文的现象,大多数在西方语言也有表现。当然表现的比例可能不一样。譬如,常为人乐道的汉语的动宾复合词“吃饭”、“游泳”等,可以分离:饭我吃过了,游了半个小时泳,等等。其实分离复合动词英语也有,不过不是动宾结构,但实质同样是在词典与句法的接口上,处理机制是一样的。英语短语动词就常常分离:take the coat off = take off the coat,从语言处理工具的角度,基本需要的是同样的武器库。

: 我关于语法的想法:1、有而且在起作用,但不是书上那种;2、用于理解的语法和用于生成的语法不同,前者宽后者严;3、语法的限制是柔性的,局部突破不会把人憋死。

立委:点2是显然的,无需争论。1也基本是 common sense当然有文法在起作用,无论你是下意识与否,无论文法如何有弹性和模糊性。如果没文法,人说的话,怎么与随机单词发生器区分?【自注:这个说法有点极端,见博文《儿童语言没有文法的问题》】。书上的文法就是一个模型,任何模型都想逼近真实文法(语言共同体共同的那个核),但总不能完全达到。

第三点说的是,文法不是死规定极端的例子就是,诗人的破格poetic license不能因为局部的犯规就认为没有文法。其实破格之所以被解释为破了文法规矩,反证了文法的存在,

:关于语法无用,可以这么理解:无论是自动机串烧还是自动机加计数器,都可以用等价的RNN从语料训练出来,中间不经过一个显性的语法表示环节。从语料直接到RNNRNN的背后,实质上存在一个语法。但是人和机器都不用关心只有RNN的设计者略微关心一下就可以

: 是隐含语法的

立委:debug 如何发现有错如何 debugretraining?人不关心怎么行如何维护提升系统的性能?

: 两件事,一个是通用机制实现的错误,这可以让不懂语法的人debug;另一个是训练结果错误,这要人为增补训练数据,这一块要懂点语法的人来做。

立委:说的是第二种。这类问题是incremental 的提高问题而增加语料 retraining来应对,基本是隔靴搔痒

retraining 要做好谈何容易这是开发统计parser的致命缺点之一

symbolic 系统如果多层而模块化,debug 是直截了当的,fine tuning与修汽车师傅类似。

:把规则直接编译为RNN路径是存在的可以作为RNN的初始参数。之后再上语料,去覆盖规则照顾不到的部分。目前为止我还没看到自然语言需要超出有限自动机加计数器的范围当然这个范围中有些是CFG处理不了的,回退到浅层。

立委:有限状态可以对付自然语言没有疑问。规则擅长精度也无疑义。精度可以接近人的水平,可以超过平庸的人。

至于覆盖面那是时间的函数,但有一个长尾问题,diminishing return因此最后让统计兜底还是有益的,弥补一下覆盖面。如果面对的是大数据,不要统计也无问题漏了就漏反正有大数据的冗余。


【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-903089.html

上一篇:泥沙龙笔记:创新,失败,再创新,再失败,直至看上去没失败
下一篇:Linguist is born, not acquired
收藏 IP: 192.168.0.*| 热度|

1 kpax727

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 11:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部