阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

元宇宙风口之下,虚拟数字人先火了

  • 2022-01-19
  • 本文字数:3461 字

    阅读完需:约 11 分钟

元宇宙风口之下,虚拟数字人先火了

元宇宙无疑是 2021 年的概念顶流,在巨头下场、web 3.0 加速构建过程中,虚拟数字人作为元宇宙的场景入口与连接纽带也备受瞩目。


1 月 14 日,百度智能云 AI 人机交互实验室负责人李士岩在百度 AI 开放日上围绕当前数字人产业的发展格局、技术难点和底层驱动力进行了系统分享。


李士岩表示,虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。但在工具、应用层,中国企业已开始崭露头角。


不过,数字人规模化落地还面临三大难点:产业链割裂、服务场景与演艺场景没有有效打通、满足高频需求成本高。


为系统解决这些难题,百度推出了数字人平台“曦灵”,未来数字人生产、内容创作、业务配置服务将可以在一个平台上实现全链路制作和调优,降本增效。“我们近两年的奋斗目标是,通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”李士岩表示。

数字人大规模落地要突破三大难题

目前,数字人经历了以“纸片人”为代表的 1.0 阶段,以 Vtuber 主播为代表的 2.0 时代,已进化至 3.0 阶段,具备模型高精、人工智能驱动特点的数字人 3.0 成为行业主流。


李士岩介绍,第三代数字人的建模和内容生产均有 AI 参与,这使得数字人的制作效率更高,也更智能,能面向更多应用场景。可面向全群体用户,可由视频、直播、chatbot 等载体承载,更具备千人千面的互动能力。


数字人 3.0 已展现出巨大的市场空间。根据次元光谱不完全统计,2021 年国内虚拟偶像/数字人领域里至少发生 19 笔融资,2021 年产业上下游也纷纷从自己擅长的角度切入市场。虚拟数字人产业格局中,提供建模、渲染、动态捕捉等服务于数字人制作的基础设施服务商已形成稳固格局,大多由海外巨头把持。不过,在工具、应用层,中国企业已开始崭露头角。



中国企业中,数量最多的是资产制作和策划运营类的公司,比如推出超写实数字人的 AYAYI 燃麦科技,推出虚拟人物柳夜熙的创壹视频,但这类公司面临的挑战是门槛较低、可替代性高。


此外,掌握技术和场景的互联网公司则扮演综合性技术服务商的角色,一边推出基于自身优势场景的数字人,打造应用标杆;一边推出数字人平台,将产品继续落地到更细化的场景中,点、线互相推进。


李士岩表示,数字人产业有三大核心推动力,第一级火箭是用户需求与技术升级、第二级是政策支持与资本涌入、第三级是计算平台的迭代。


“每一次数字人发展本质上都是技术推动的,用户从平面的图文影音获取信息与交互,向实时 3D 交互反馈的需求转变,将成为数字人长期发展的根本动能,未来也将创造大量需求。“李士岩说。


虽然数字人行业拥有强劲的驱动力,但李士岩认为,当下国内数字人要大规模产业落地还面临三大难题:


首先,数字人产业链各个节点相对割裂,不能高效协同,导致数字人在制作和调优上存在较高壁垒,目前行业中大多数公司只是数字人制作与运营全流程上的一环或其中几环。


其次,服务场景与演艺场景没有有效打通,表现为演艺型数字人不具备客户所需的业务能力,而服务型数字人缺乏人设,难以与用户进行情感交流。


第三是满足高机动性、高频需求的成本依旧很高,这一问题归根结底还是数字人的生产效率问题。

百度推出数字人平台 “曦灵”

针对当前数字人制作存在的高门槛问题,2021 年 12 月,在百度 AI 开发者大会上,百度 CTO 王海峰正式发布了“百度智能云曦灵数字人平台”, 搭建了集数字人生产、内容创作、业务配置服务为一体的平台级产品。



百度智能云曦灵 整体架构图


据介绍,百度的数字人平台曦灵具有全场景、一站式、平台化的特点,能支持从最初数字人形象定制、人设管理再到业务编排、内容创作,最后到多种驱动模式下与用户互动的全部需求,这也意味着在一个平台上即可实现数字人的全链路调优,从而将效果做到最好。


李士岩以数字人生成环节为例,演示了百度智能云曦灵平台的功能。用户在百度智能云曦灵平台上传一张照片,就能快速生成一个可被 AI 驱动的 2D 数字人像,以前需要两三个月时间做出来的 3D 数字人,现在可以压缩到小时级,同时还可以通过一句话语音描述或简单捏脸等多种形式快速生产数字人。


在内容生产维度,通过人像驱动、自然语言理解、语音交互、智能推荐等四大 AI 引擎,支持真人场景下多样化内容的快速生成、业务配置。目前,数字人个性化功能开发也较之前更加完善,以百度刚刚发布的 3D 超写实口语数字人为例,基于面部 4D 数据(3D+时序)的高精数字人“文字到形状的跨模态面部表情生成技术”,使得口型合成准确性达 98.5%。


据悉,早在 2019 年,百度就开始了“虚拟数字人战略”。基于多年的 AI 技术沉淀, AI 能力已成为百度智能云曦灵平台的核心能力,现在百度也在把这种能力开放给外界。李士岩表示,“我们近两年的奋斗目标是通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”

详解曦灵三大优势


具体而言,百度智能云曦灵具有三大优势:


(一)、全场景:


百度智能云曦灵除了提供通用解决方案外,还覆盖银行/保险、运营商、媒体/广电、互娱/品牌商、MCN/艺人经济等领域,提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。


(二)、 一站式:


百度智能云曦灵通过四大引擎,一站式实现数字人的“能听、能说、能理解、可互动”。


  • 人像驱动引擎


通过 4D 扫描、智能绑定等 AI 技术,实现数字人的唇形驱动、肢体驱动、表情驱动、手势感知等,增强角色表现力,让数字人从表情到动作更生动具体。


  • 智能对话引擎


拥有智能对话平台 UNIT,服务于智能对话系统的开发者,在对话理解和对话管理技术方面拥有强大的技术积累。可为数字人快速定制对话能力、持续提升对话效果、深度定制和灵活接入,满足各应用场景需求等,让数字人在理解自然语言上更智慧。


  • 语音交互引擎


该引擎拥有在线语音交互注意力模型,能实现与数字人自然畅通交流,高准确度的音画同步,逐字口型准确率>98.5%。还拥有全双工 ASR、个性化 TTS、变声器、定制唤醒词等各类功能或开发工具。


  • 智能推荐引擎


依托百度的大规模机器学习和个性化推荐技术,基于丰富的素材库,增强数字人在不同应用场景中,对客户进行内容、产品的智能服务能力。


(三)平台化:


百度智能云曦灵目前已具备标准平台的快速交付能力,在 AI 引擎和资产生产线的基础上设置三大平台,帮助不同领域客户快速实现敏捷型需求,降本增效。


  • 人设管理平台: 在人设管理平台上根据不同的场景搭配设置不同的人设,比如服务型数字人的人设要亲和力强、正式,而演艺型数字人则要求个性化程度更高。

  • 业务编排与技能配置平台: 通过一些简单的拖拽,实现业务流程的创新。以服务型数字人为例,由于落地场景比较离散,每家客户的业务流程不一样,该平台就提供了创建不同业务流的能力。

  • 内容创作与 IP 孵化平台: 偏向于演艺型数字人,如虚拟代言人需要做海报、短视频等内容触达不同平台的客户,或直播数字人需要做直播推流等,该平台均可提供相应能力。

曦灵数字人应用案例:明星数字人探索


在技术催生的数字人 3.0 阶段,虚拟人可与不同行业产生更紧密的融合。


基于市场使用场景,数字人可以分为演艺型数字人、服务型数字人两类。


演艺术型数字人包括虚拟主播、虚拟偶像以及数字孪生的虚拟品牌代言人。目前百度已经打造了 AI 手语主播、央视网虚拟主持人小 C、航天局火星车数字人祝融号、百度虚拟代言人希加加、百度 APP 代言人龚俊数字人。



值得一提的是,龚俊数字人是百度在明星代言人方向的数字孪生探索,让明星的 IP 价值得以向元宇宙以数倍价值延伸。


不久前,龚俊数字人发布新歌《2021 在说啥》刷屏全网。这是国内率先由可交互明星数字人参与作词作曲和演唱的歌曲。


龚俊拥有近两千万粉丝,但他不可能随时与每一个粉丝对话。但通过百度 APP,每个人都可以拥有龚俊数字人,且 24 小时都可以与之进行互动。龚俊数字人拥有真人龚俊一样的脸和声音,甚至他能听懂你在问什么,并做出回答。目前,“龚俊数字人”通过 AI 驱动实现了广大用户的 UGC,在百度 App 内的语音包被使用数百万次。


AI 手语主播是数字人另一个颇有价值的应用,是技术向善的代表案例。AI 手语主播采用语音识别、自然语言理解等人工智能技术,构建出一套复杂而精确的手语翻译引擎,实现了文字及音视频内容到手语的翻译;再通过专为手语优化的自然动作引擎,进行虚拟形象的驱动,将手语实时演绎为数字人的表情动作。


服务型数字人包括数字员工、虚拟员工、虚拟业务员等,可以帮助金融、运营商、政府、零售等行业提供基于数字人的新一代客户服务能力,解决排队长、回应慢、人力成本大等问题。目前,百度已经和浦发银行、光大银行、中国联通等合作推出了一对一服务型数字人。数字人客户能够提供全天候智能问答及线上业务办理服务、提供虚拟大堂经理服务,大幅提升了用户体验。

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2022-01-19 16:116925
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 492.7 次阅读, 收获喜欢 1966 次。

关注

评论 1 条评论

发布
用户头像
希壤吧?
2022-08-05 09:48
回复
没有更多了
发现更多内容

Java程序员必备框架—Spring全家桶的前世今生详细梳理

北游学Java

Java spring

大数据实战训练营Hbase作业

Clarke

咔嗒回收系统小程序开发

ALVIS

医院预约管理系统开发

ALVIS

Using side features: feature preprocessing

毛显新

自然语言处理 深度学习 tensorflow 推荐系统 keras

WorkPlus高端制造业数字化解决方案—科达洁能

WorkPlus

开源 企业 解决方案 即时通讯

CloudQuery v1.4.1 发布 | 开放「组织架构」模块 API

BinTools图尔兹

数据库 数据安全 OpenAPI 数据库管控

互联网大厂一手资料,25大专题,500多页,背废你就能吊打面试官

Java架构师迁哥

ElasticJob 3.0.0:打造面向互联网生态和海量任务的分布式调度解决方案

SphereEx

数据库 开源

LeetCode题解:61. 旋转链表,双指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

小白必看,通俗易懂的LockSupport

程序猿阿星

Java并发 线程协作 LockSupport 线程间通信

绿森林回收系统小程序开发

ALVIS

3D地图与3D柱状图联合使用

ThingJS数字孪生引擎

大前端 地图 可视化 数字孪生

WorkPlus高端制造业数字化解决方案—首发集团

WorkPlus

开源 企业 即时通讯 移动开发

IDEA http client无法解析enviroment file

crazylle

IDEA http client Alibaba Cloud Toolkit

阿里云视频云发布实时高清VVC编码器Ali266,真正开启VVC商用之路

阿里云视频云

阿里云 视频编码 视频处理 编码器 视频云

家政公司管理系统开发介绍

ALVIS

绿色篮子系统开发是什么模式?

ALVIS

跑跑回收系统小程序开发

ALVIS

RocketMQ事物消息调研

crazylle

RocketMQ 事物消息

大厂面试真题——Netty/IO篇,你能答上来几道?

Java架构师迁哥

瞥一瞥AI,撩一撩算法

博文视点Broadview

Erda 1.1 版本发布|3 大亮点特性最新解读

尔达Erda

开源 云原生 k8s PaaS SaaS

来吧!一文写清前端面试难点及考点

前端依依

面试 大前端 经验总结

SpringBoot自动配置原理解析

程序员阿杜

spring Boot Starter

万能小哥系统开发是什么?

ALVIS

手把手体验远程开发,确实爽

程序员鱼皮

Java Python 软件 大前端 后端

兰宝环保 | 新体系“行动计划”中化工制药行业VOCs废气治理要点

叶落便知秋

女巫面具系统模式开发

ALVIS

本夕生活小程序定制开发

ALVIS

绿地回收系统开发|现成小程序

ALVIS

元宇宙风口之下,虚拟数字人先火了_AI&大模型_刘燕_InfoQ精选文章