郑方博士在第四届世界互联网大会上
首提“无监督身份认证”五大要求
12月3日,举世瞩目的第四届世界互联网大会在浙江乌镇拉开帷幕。本届大会的主题为“发展数字经济,促进开放共享,携手共建网络空间命运共同体”。亚太区信号与信息处理联合会(APSIPA)副主席、公安部全国安全防范报警系统标准化技术委员会人体生物特征识别应用分技术委员会(SAC/TC100/SC2)副主任委员、清华大学语音和语言技术中心主任、得意音通董事长郑方博士受邀出席大会,并在“产业互联网创业创新论坛”上发表了首个主题演讲。
一个新的关键词——“无监督身份认证(USIA,UnsupervisedIdentity Authentication)”由郑方博士在演讲中首次提出后迅速引起了业界的广泛关注和讨论。
“无监督”成网络空间安全新挑战
近年来,随着移动互联网和物联网技术的快速发展,线上网络空间的边界已被大大拓宽;而随着无人便利店等新业态的兴起,线下生活空间的格局也被深刻改变。无论线上还是线下,一个共同现象正在不断扩大版图,那便是:机器成了越来越多人类活动场景和交往空间里的“参与者”和“把关人”。
郑方指出,这种缺少人类自身看守的泛在网络交往空间,其中一个关键特征便是“无监督”。所谓无监督,顾名思义就是指“无法监督”或“无人监督”,包括网络空间的“在线情形”和物理空间的“离线情形”两种。如果不能在无监督状态下解决好身份认证问题,将使得构建网络空间命运共同体的这一理想大打折扣。
试想,当你不能分辨在网络那一端的,究竟是一个人,一条狗,还是一个AI代理程序时,社会将会怎样?
“无监督身份认证”(USIA)技术,正是通过解决“人证一致性”问题保障网络空间触达用户时“最后一厘米”安全的关键所在。而在无监督情况下,单单通过口令(What You Know)和/或介质(What You Have)都已无法很好解决身份认证问题,依赖生物特征识别技术“自己证明自己”(Who You Are)已经越来越成为人们的共识。
2017年7月14日,国家发改委依托公安部一所和清华大学、中科院自动化所等单位共同组建的“多维身份识别与可信认证技术”国家工程实验室在京成立。这是国内首个专注于身份识别与可信认证技术研究与产业化的国家级创新平台,其重点任务之一便是生物特征识别技术。
无监督身份认证应满足五大要求
用以进行无监督身份认证的虚拟的“网络身份证”应该有哪些要求呢?
郑方在演讲中指出,无监督身份认证应具备五大技术要求。他用25个字将其概括为“五性”:人证合一性、不易伪造性、意图真实性、证据可溯性、认证便宜性。
人证合一性。“网络身份证”应与人一一对应,具有唯一性,而“认证技术”也应该具有高的准确性。
不易伪造性。应具有防假冒和假体攻击的能力,对于生物特征识别技术,即应具有活体检测技术,并且其性价比要高。
意图真实性。在无监督情况下,仅有活体检测是不够的,活体检测只是保证真实身份的手段之一,绝非目标,认证必须体现“人-意合一”,即能体现被认证者的真实意图。
证据可溯性。认证行为的证据应具有“活性”,具有不可更改的时空信息。
认证便宜性。“网络身份证”应该既成本低廉(pian yi),又使用方便(bian yi),对平台或设备的依赖性低。
郑方强调,在无监督情况下,“意图真实性”这一条非常关键。他举例说:当一个人醉酒或熟睡时,被人拿着手指头就可以进入指纹或指静脉识别系统,即通过活体检测;当一个人被跟踪偷拍时,其脸部和虹膜信息只要使用长焦高清镜头就可以从远处清晰捕捉到,这也是活体;当一个人被威逼恐吓时,也可以让这个人的活体指纹、人脸或虹膜通过认证系统……上述情形都违背了被认证者的真实意图,或者被认证者毫无意识,因而是远远不够的。
无监督网络时代现有技术排序或将重新评估
专家认为,任何一种生物特征识别技术都互有短长,所以采用“多维身份识别和可信认证技术”的总体思路已是研究人员和权威部门的基本共识。但由于各路技术的发展和应用成熟程度参差不齐,产业界对于技术如何组合尚存不同理解,仍处于边应用边摸索的阶段。不过,这一局面有可能很快被打破。
作为行为特征的声纹,很有可能异军突起,在无监督身份认证中发挥主导地位。
和指纹、人脸、虹膜等静态生理特征相比,人类的语音既看不见摸不着,又是时时变化着的,看上去似乎很难把握。其实科学家早已摸清楚它的规律。在网络海量的声音数据里,实际上隐藏着一把把解开身份密码的钥匙。只要破译它们,人类就能在无监督网络时代“为自己代言”。
郑方指出,语音信号的特点可以用“形简意丰”概括,形式简单的一维信号中包含着丰富的信息,包括语言信息(如语音内容)、副语言信息(如音高、音量、语调等)以及非语言信息(如健康状况、性别、年龄、环境背景等),如将这些信息分别加以提取和综合利用,可大大提高声纹在身份认证中的安全性。比如,语言信息有助于提高不易伪造性和证据可溯性;副语言信息的应用可以检测意图真实性;而非语言信息的应用可进一步提高证据可溯性。
郑方在演讲中进一步总结了语音信号用以进行身份认证的几大优势:一是准确性仅次于虹膜(根据美国科技机构MITRE的一份科学研究报告);二是仅用软件算法即可进行活体检测;三是仅用软件算法就可检测真实意图;四是仅以软件算法即可检测无法篡改的可追溯证据。考虑到麦克风的成本极其低廉,而一维的语音信号传输带宽很窄,语言是人类交流最自然的方式等因素,声音可以说是所有生物特征中“五性”符合性最高的。
部分生物特征在USIA中的“五性”符合性雷达图
事实上,以语音作为身份认证的手段,最早可追溯到17世纪60年代英国查尔斯一世之死的案件审判中。相关研究则始于20世纪30年代。1945年,贝尔实验室的L. G.Kesta等人首次提出“声纹”的概念,并在1962年第一次介绍了采用此方法进行说话人识别的可能性。仅过了4年,这一方法便登堂入室。1966年,美国法院在历史上首次采用当事人的“声纹”进行取证。随后,声纹识别技术的应用逐渐被人们关注和喜爱。
这意味着,任何技术的发展从来都是在新的理论突破和新的实践检验之间,经历一个螺旋式发展的历史过程。
郑方最后表示,随着人工智能技术及无线互联的快速发展和相互渗透,对无监督身份认证的需求已提前到来,各种技术的优劣对比或将被重估。而声纹识别技术在经历长时间的积累后,很可能已处在历史发展的“奇点”。这不是个人的钟爱,而是大自然的选择。
延伸阅读 👇
媒体关注
http://app.bbtnews.com.cn/?app=article&controller=article&action=show&contentid=220827&from=singlemessage&isappinstalled=0
见证优秀企业创新之路 产业互联网成世界互联网大会热点--新浪网
http://finance.sina.com.cn/roll/2017-12-04/doc-ifyphtze4160641.shtml
我们坚持“d-Ear-专注(Devotion)、高效(Efficiency)、态度(Attitude)、责任(Responsibility)”的理念,希望通过努力,成为“与您心意相通的人性科技(Your Partner in the Century of Speech)”提供商;希望通过“聆听世界, 让世界更美好(Hear the world, and make the world a better place)”。