鹅厂最新数字人，体温36.5℃

相比翻译机，AI手语数智人更进一步地解决了双向沟通的问题，不仅让听障人士理解想要表达的信息，也让更多人走进听障人士们的内心世界。

2021-12-03 15:56 · 微信公众号：量子位　关注前沿科技　　

今天是国际残疾人日，正巧，也是《国王排名》更新的日子。

这部42岁作者产出的作品，主角波吉正是一名聋哑人，画风不算成熟，却在11月一跃成为现象级作品，热度高到出圈：

故事中的波吉听不见、说不出，但除了师长亲人外，身边愿意为他学习手语的人却少之又少。

看过这部动漫后，不少网友开始意识到，自己身边同样有不少无法通过言语交流的“波吉”们：

跟动画中的波吉一样，现实中的听障人群迫切地想要和这个世界建立联系，读懂他人传递的信息，但，并非每个人都能找到一个像卡克一样愿意随时充当“翻译”的小伙伴。

同样，在现实生活中，中国的14亿人口里有超过2700万残疾性听力障碍人士，专业手语翻译却少之又少。

曾有统计数字显示，在上海约有23万听障人士，能真正胜任工作的手语翻译却不足百人。

而看新闻、刷视频这样的平常小事，在他们的世界里，也充满困难和障碍：

相比于自然语言，手语更像是一门与母语相差甚远的外语。

举个例子，在语序上，两者就存在较大差异。像“开车不喝酒”这句话，手语表达的顺序其实是依次打出“开车”、“喝酒”、“不许”这三个手势。

在这种情况下，世界更多地对他们呈现出一种冰冷的姿态。

所幸，科技的发展，如今正在真实地改变“波吉”们的生活。

例如，有这样一类AI手语主播，Ta们7×24小时无休，让人们感受到了人性的温度。

Ta们不仅能够随时随地提供实时手语翻译，翻译质量也相当可靠——

以上面这位来自腾讯的AI手语主播“小聪”为例，其手语翻译的可懂度能达到80%+。

不过，要想达到这样的水准，AI要做的事情绝非仅仅“翻译”那么简单。

AI手语主播背后的挑战

相对社会大众，听障人群是一个少数群体，这就意味着，想要打造一个手语翻译相关的AI，首先要面对的就是数据匮乏这一先天挑战。

并且由于语言本身词汇量很大，如果要通过把所有词汇都用手语打一遍的方式来采集数据，从技术的角度来看，时间和数据量的压力都会非常大。

而这，还只是*重挑战。

更大的困难在于，语音转手语，并不是简单地构建一个从语音到视觉的转换模型就行。

正如前文所提到的，手语表达的顺序与自然语言输出的顺序并不一致，在语句文字输出量大、语音播报速度比手语播报快30%-50%的情况下，手语翻译的速度很难跟上人的语速。

此外，表情神态也是手语表达中极为重要的一部分，并不能简单忽略。

这也是为什么，早在2018年，新华社就曾与搜狗合作推出数字人主播，却直到今年5月，全球*手语数字人（同样出自搜狗）才正式登台亮相。

所以，程序员们具体是如何攻克难题的？

以前面提到的AI手语主播“小聪”为例，这一腾讯云小微的产品首先是利用数据标注、数据增强技术，在不需要采集所有手语动作的前提下，扩展词汇量储备。

其次，是在翻译的过程中，先通过语义理解技术进行文本摘要，再在保障事实正确率的前提下进行手语翻译及合成，在解决词汇量问题的同时，缩短表达时长。

而小聪诞生的过程中，腾讯云小微也邀请了手语专家、使用手语的听障人士协助测评，以最终让小聪打出“听障人士看得懂的手语”。

这里怎么理解呢，举个例子，市面上的手语数字人打手语的速度往往符合健全人的视觉习惯，而在听障人士看来，就太慢了。

在此之外，AI手语主播还需要更像“人”，比如表情神态、动作的流畅度，以及理解输出的“业务能力”等等方面。这一点不仅适用于AI手语主播，其他数字人产品也是如此。为了重新定义产品及背后的技术要求，腾讯的技术工作者们发布了全新的、智能化的数字人产品——

腾讯云小微数智人。

AI手语主播如何成为数“智”人？

事实上，任何虚拟的人物形象都可以被称作数字人，但数智人产品的技术要求则要严格不少。

对于数智人产品，腾讯云小微给出了这样的技术描述：

新一代多模态人机交互系统。

所谓多模态交互，简单来说就是能听、能看、能说、能思考。

这表明数智人的“智”，不仅仅指知识储备量，更表示它们能真正像人一样，结合视觉、听觉等多种感官理解外界信息，并及时做出反馈。

从实现方式看，数字人要想成为一名数“智”人，至少要有5个方向上的技术储备：

这意味着，如果一名虚拟数字人被称作“数智人”，那它除了需要贴合应用场景，还需要解决以下两个问题。

其一，数字人在表达时，往往会出现肢体动作僵硬不自然的问题。

现在，形象和外观早已不是数字人*的难点，通过动捕、渲染等技术，可以轻易将数字人的形象做得非常逼真。

但在进行语音交流的时候，数字人却极容易出现肢体僵硬不自然的问题。

人类在说话的时候，手部和身体会有轻微的随机动作，伴随情绪语气和用词发生变化。

为了模拟这些动作，不少数字人选择设置一套随机肢体动作的程序，让数字人在说话的时候，按程序固定做出一些动作。

然而，由于这套程序与用词、语气和情绪并不挂钩，往往会显得肢体非常僵硬，甚至出现“讲述伤感故事时开怀大笑”的场景。

此前，国外某公司曾推出过一款数字人，虽然脸部已经非常逼真，但肢体动作却非常僵直，交流时不免溢出一丝诡异感：

针对这个问题，腾讯云小微的解决方案是引入语义驱动技术，即根据数智人说话的语义，去匹配对应的动作和字词。

需要说明的是，这样的语义驱动并非是靠1对1的动作-文字匹配实现——这种方案会使得数字人的运营配置成本过高，而是利用NLP技术对语句进行语义理解，确保数智人所有的肢体动作都是在理解对话的基础上进行的。

例如，云小微数智人不止会根据文字的语气做出沮丧、高兴或生气等8种细节表情（精细到眉毛那种），还能自行归类各种近义词句，做到说话时从表情到肢体动作都接近真人。

其二，是语音交互沟通中语句理解的问题。

尽管除了语音外，数智人的交互也包括触摸、图形、文字等交互方式，但在人类日常沟通中，语音仍然是最自然的方式，在人机沟通中更是如此。

同时，语音交互又是人机交互中最复杂的技术之一，目前人类和AI在日常沟通上仍然存在不少障碍。

其中一个非常大的问题，就是AI无法理解我们说的是什么，包括口语化表达、口音、说话习惯等等因素都会对AI理解语句带来很大挑战。

面对这种问题，腾讯实现了非常全面的AI技术储备。

在NLP技术上，腾讯云小微在国际对话系统技术挑战赛（DSTC8）中，一连斩获4项世界*，无论是数据、模型还是场景，都处于行业*的地位。

其中，在数据上，云小微支持自动学习、自动化扩展百万级语料；模型也非常全面，从任务、闲聊到问答型都有，也支持在线&离线融合语义理解；最重要的是，云小微由于有全双工、多轮对话能力相关的技术加成，能够很好地完成复杂场景的对话任务。

而在NLP以外，腾讯在语音合成上也有AI LAB自研的DurIAN等语音合成框架。

据负责人介绍，在语音合成方面，腾讯云小微不仅支持少样本声音复刻、达到“20句就能生成*个性化的语音声线”的效果，而且合成效果拟声度高、同时支持11种语言和方言。

这样一来，数智人不仅解决了语音上“理解”的问题，也解决了个性化“表达”的问题，应用在手语主播这样的场景中，才能更好地向听障群体放出善意与温暖。

科技的增量价值

当数智人们变得越来越智能，不止是当主持人、当手语AI主播，「向善」的科技同样也能应用在更广更多的领域中，越来越多的职业岗位上都开始出现Ta们的身影，比如导游、客服、虚拟偶像等等。

例如，在传媒领域，数智人就能在新闻主播忙不过来的时候，成为一个“虚拟分身”，为他们进行一个高并发的信息输出。

这样一来，不仅能解决新闻量高并发的问题，还能解决新闻主播受到时差、语言等方面限制的问题，实现7x24小时在线。

又例如，今年由于疫情原因，不少银行等金融机构开始开启线上业务办理，然而员工们却无法到线下的网点上班，导致客户同样也无法办理业务。

在这种情况下，数智人就能帮助金融机构，通过语音交互完成一个无接触面对面的业务办理，同时结合视觉、大数据等技术，实现金融风险评估等更加复杂的操作。

但值得一提的是，正如同手语数智人的出现，让所有电视节目都配上手语老师成为可能，在这些场景中，数智人也并非在“替代”人类工作，而更多地是填补空白，起到“增量”的效果。

在那些人力短缺，或仅凭人力难以兼顾的场景中，数智人作为一种提升服务效率的方式，不仅能够避免重复性劳作带来的效率降低，也能保持长期工作中的服务体验感。

这也是科技背后真正的价值——并非取而代之，而是协助人、去做人所不能之事。

从这个角度来看，数智人仿佛也拥有了人类一般36.5℃的体温，不再只是一个冰冷的数字形象。

事实上，也只有真正有温度的科技、无障碍的科技，才能够在时间的检验下保持长久的生命力。

近年来，像腾讯这样的科技公司其实一直在进行无障碍设施的落地，践行上述理念。

而现在，历经数年技术积累，从实验室走向台前的AI手语数智人们，也正是“科技有温度”的最新体现。

并且，科技越发展，形态越进化，弱势群体和世界之间的裂隙，也越来越能够为技术所抚平——

相比翻译机，AI手语数智人更进一步地解决了双向沟通的问题，不仅让听障人士理解想要表达的信息，也让更多人走进听障人士们的内心世界。

愿科技的发展，能让每一个人都感受到被重视的“温度”。

【本文由投资界合作伙伴微信公众号：量子位授权发布，本平台仅提供信息存储服务。】如有任何疑问，请联系（editor@zero2ipo.com.cn）投资界处理。

AI 手语数智人科技

本文涉及

企业
腾讯
网易

鹅厂最新数字人，体温36.5℃

本文涉及

看了这篇文章的用户还看了

叠腾科技获数千万元PreA轮融资，赋能企业能源系统数字化

BEYOND国际科技创新博览会开幕

走进 AI 芯世界

凯辉基金被投企业云拿科技助力零售巨头欧尚落地法国首家自动化商店

汽车AI芯片争夺战

人工智能超声企业深至科技完成近亿人民币C1轮融资，新丝路资本等投资

热榜

创投号

more投资界99个发现

关于我们

对外合作

投稿邮箱

联系我们

投资界微信

投资界APP