龚俊数字人洗脑神曲刷屏,解码数字人千亿生意下的增长密码

2022-01-06 20:19

2021年,元宇宙迎来了自己的发展元年。随着元宇宙概念的大热,虚拟数字人也照进了现实。

近期,龚俊数字人发布新歌《2021在说啥》刷屏全网,歌词中包含了2021年度十大网络热词,明朗的旋律也令网友们直呼洗脑。

这是国内率先由可交互明星数字人参与作词作曲和演唱的歌曲,背后的技术能力则是基于百度最新发布的数字人平台——百度智能云曦灵。

作为粉丝千万的明星,龚俊不可能随时与每一个粉丝对话,但在百度APP里,每个人都可以拥有龚俊数字人并24小时可以进行互动。数字人龚俊拥有真人龚俊一样的俊美脸庞和同款声音,他能听懂你在问什么,并做出回答。

“龚俊数字人从有想法到最终成品,只用了不到一个月的时间。百度智能云曦灵平台仍在通过AI技术缩短数字人制作周期和提升制作效果”,百度ACG AI商业化人机交互实验室的负责人李士岩说。

数字人风口已至

数字人被看作是元宇宙的基础设施,巨大的IP价值也让数字人成为新的风口。

2021年,众多互联网公司纷纷涌入数字人赛道。例如,2021年11月,哔哩哔哩虚拟主播总收入达到了5466万元,位居前列的虚拟主播“珈乐Carol”创下了单月214万元的收入,一场维持4小时的生日派对直播更是创下了单场189万的收入。有数据显示,全国有近4亿人关注过虚拟偶像,两年时间翻了一倍。《虚拟数字人深度产业报告》的预测则是,2030年中国数字人整体市场规模将达到2700亿元,其中演艺型数字人(身份型数字人)约1750亿元,服务型数字人超过950亿元。

以演艺型数字人为例,它可以与不同应用场景结合。比如通过百度智能云曦灵平台生成的央视网虚拟主编小C,它在两会的期间采访人大代表;在本届东京奥运会期间,实时带来奥运信息的报道。最近百度又发布了一位AI手语主播,即将服务于中国2700万听障用户。“演艺型数字人市场空间更大,可能在未来十年内,将会超过1500亿。”百度李士岩说。

随着新时代消费者对虚拟化内容与服务的需求不断增长,各行各业都将数字人视为未来用户交互的重要载体。但当下国内数字人发展存在着产业链效率较低、上下游生态未完全打通、缺乏标准化体系、缺乏平台等痛点,造成应用门槛居高不下。

这些问题则是百度智能云曦灵希望解决的,与行业其他玩家不同,百度的数字人平台定位是全链路数字人生产与运营平台,从最初数字人形象定制、人设管理再到业务编排、内容创作,最后到多种驱动模式下与用户的流畅互动。而这也意味着团队可以实现数字人的全链路调优,从而将效果做到最好。

1

(百度智能云曦灵平台架构图)

“行业内能做全链路的非常少,大部分是通过生态的整合来做,比如有做听觉的公司,有做3D资产的公司,有提供知识库的公司,大多数只做一项或者其中两三项,这导致全链路调优和维护存在比较高的壁垒,百度智能云曦灵平台提供的是全链路技术支持,因为它的底层是基于百度沉淀多年的人工智能技术综合能力。”李士岩称。

数字人制作提效:从2个月到一星期

过去几年,不同行业均涌现各种数字人产品,但始终未形成规模化应用。其中一个难点就在于数字人制作难度大、周期长、技术门槛高。以前的传统流程是每一个数字人均需通过艺术家手“雕刻”或者通过线下扫描来制作。而其中最花时间的是3D建模的过程,像3D电影,一两年制作周期是常有的事。

百度智能云曦灵应运而生,它是以百度AI技术为基础,集数字人生成、业务编排、内容生产为一体的平台产品。平台基于预置的大模型,可以自动生成一定丰富程度的数字人像,再做一些特异性的AI训练,即可高效生成个性化的数字人产品。可以为不同行业提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。

例如,只要用户在百度智能云曦灵平台上传一张照片,就能快速生成一个可被AI驱动的2D数字人像,原来生产流程需要一个星期做出来的2D数字人,现在可以缩短成半个小时。以前需要两三个月时间做出来的3D数字人,现在可以压缩到一两周也能搞定,同时数字人个性化功能开发也较之前更加完善,以百度刚刚发布的3D超写实口语数字人为例,其口型合成准确率高达98.5%。

为了进一步降低数字人制作的技术门槛,百度智能云曦灵还使用了自研的3D卡通引擎,这种轻量引擎可以在移动设备上使用,手机、智能平板、安卓系统的智能大屏均可以操作,大大降低了数字人的制作难度。

数字人如何做到能听、能说、能互动?

除了具备标准平台的快速交付能力,百度智能云曦灵平台还具备个性化需求定制的交付能力。

回归数字人的本质,就是人的动作、语言及表情的数字化。李士岩表示,基于百度智能云曦灵生成的数字人在听得清、听得懂、能表达等多节点上已有强大的技术支撑和成熟实践。

听得清。百度基于ASR(语音转文本)能力来解决数字人“听得清”的问题,目前百度ASR的准确性可达98%以上。

听得懂。NLP(自然语言处理)和知识图谱是解决“听得懂”的问题,今年百度发布了基于百亿级训练参数的开放域对话平台“PLATO-XL”。百度大脑通过超大规模数据训练使其具备完全开放域对话能力,用户甚至很难通过短暂交流判断背后是真人还是AI。

能表达。TTS(文字转语音)则是解决数字人能表达的问题,值得一提的是,百度研发了支持用20句话的轻量化模型训练生成一个新声音的能力,即用户说20句话即可生成属于自己音色的数字人。同时也支持用更多的数据来进行更精细化的训练。

面部表情。每个人笑起来是不一样的,其表情机制均存在差异。以前,每一个虚拟形象的面部表情是通过艺术家手雕或线下扫描来完成。而现在百度已经有了一套非常成熟的技术,通过4D数据来生成基础模型,再进行AI训练即可完成AI驱动的跨模态面部表情合成。

在数字人驱动层面,百度智能云曦灵支持真人驱动、AI驱动、融合驱动等多种方式。其中,AI驱动是由AI对舞蹈、唱歌、语言等进行编排,真人驱动则是通过摄像头、动捕设备对真人动作、表情等进行3D高精细度模拟;融合驱动则是部分应用AI能力的驱动,部分真人操作。这样提高效率的同时保留了人的创造性。

技术发展推动产业需求激增

据了解,基于人设管理平台、业务编排与技能配置平台、内容创作与IP孵化平台等三大平台,百度智能云曦灵可以打造服务于媒体/广电、互娱/品牌商、MCN/艺人经纪、银行/保险、运营商等各领域以及通用的数字人解决方案。

李士岩表示,目前百度可提供演艺型数字人与服务型数字人两大类型的服务。

其中演艺术型数字人包括虚拟主播、虚拟偶像以及数字孪生的虚拟品牌代言人。目前百度已经打造了央视网虚拟主持人小C、航天局火星车数字人祝融号、百度集团数字人希加加、手机百度代言人龚俊等一系列数字人。

2

而服务型数字人则包括数字员工、虚拟员工、虚拟业务员等。百度智能云曦灵平台可为不同行业客户制定具备独特业务能力的数字人,并通过平台化手段快速实现客户对数字人的敏捷性需求。目前百度已与金融、保险、运营商等多行业落地服务型数字人,以提升客户的业务服务效率。

李士岩分享:近日收到一张银行客户发来的照片,几十个用户通过数字人在办理服务,比旁边的ATM机排队人数都要多。数字人可以提升服务效率,相当于开了更多的窗口,原来要排队一个小时,现在多了一些窗口,可能20分钟就可以办完业务。“在未来一个大厅里面,有可能50%的窗口背后都是数字人。”李士岩预计,服务型数字人市场规模是非常大的。

未来1-2年,让每个人实现数字人自由

百度在数字人技术上的探索并非一蹴而就,而是持续布局。早在2019年,百度就开始了“虚拟数字人战略”,当时为浦发银行开发的数字人也在行业中引起轰动。百度基于自身多年的AI技术沉淀, AI能力已成为百度智能云曦灵平台的核心能力,现在百度也把这种能力开放给外界。

以百度智能云曦灵数字人平台为切入口,一方面利用平台化的方式通过越来越多的数字人制作来均摊前期的投入成本;另一方面基于平台打造完整的生态链服务,助力破解行业痛点,将数字人的高门槛、高投入真正降下来,变成普及化服务。数字人的开发和运营,随之变得简单、快捷、高效。

对于百度而言,数字人产品将是产业数字化升级的新业态爆发点,其数字人的商业化探索步伐也在加快。李士岩判断,数字人这个赛道已经从萌芽期和探索期,进入到了发展期。

“我们由原来只做金融、银行、供应商客户,现在增加了广电客户、互联网娱乐客户,甚至一些品牌商的虚拟代言人合作需求也在越来越多,数字人需求量已远远超过2019年。”李士岩说,“我们近一两年的奋斗目标是通过百度智能云曦灵平台的开放,让每个人实现数字人自由。”

任晓宁/文