科大讯飞副总裁章继东:讯飞输入法的十年技术变革史

田进2020-10-21 12:00

经济观察网 记者 田进 从讯飞输入法诞生到日语音交互次数超过10亿次,科大讯飞花了十年。

10月20日,在讯飞输入法10周年沙龙活动上,科大讯飞副总裁章继东介绍了讯飞输入法过去十年发生的技术变革。与此同时,章继东发布了讯飞输入法10.0版本。据了解,该版本搭载了“动态自适应编解码语音识别引擎”,新增的唇形辅助输入,能够提高嘈杂环境及近距离多人说话的识别效果。另一方面优化了领域词识别,可更精准的匹配游戏、医疗、旅游、购物等不同的场景词汇。

对于下一个十年,科大讯飞方面表示,讯飞输入法将发力5G和AIoT领域,未来的输入法不仅仅是文字、表情、符号的输入工具,而是提供应用于各种设备终端、全链条交互的智能服务。

以下为经济观察网整理的章继东关于讯飞输入法十年发展史的演讲及媒体采访精简文字:

1999年,讯飞由在校大学生创业成立,当时中国的智能语音技术全部掌握在国外企业手上,如IBM、微软等。1999年,李开复老师创建了微软亚洲研究院,当时我们董事长刘庆峰正在中科大读博,李开复老师邀请我们董事长去那里工作,但我们董事长拒绝了,他希望中国人的技术一定要掌握在中国人的手上。

科大讯飞作为中国第一个由在校大学生创业的上市公司,2010年10月22号,我们发布了讯飞开放平台,2017年开放平台成为中国首批4家国家级人工智能创新平台,现在已有230多万开发者在我们整体生态里。2010年10月28号,我们正式发布了讯飞输入法。

当时讯飞输入法作为我们开放平台的一个智能语音示范应用,确实是一个比较小的产品,甚至于在互联网上都没有形成一定的传播。

这时,核心技术怎样促进产业的发展?我觉得有三点特别重要。第一是理解深度使用网络为主的算法;第二是大数据;第三是涟漪效应,需要不断的迭代和优化。通过这三点,产品才越来越好。我们输入法在早期准确率是比较弱的,但现在准确率能达到百分之98%,甚至在很好的情况下能达到99%,这都是来自于科技的发展。

2010年10月28号发布讯飞输入法后,这成为第一个中文语音输入法。2011年7月4日,谷歌输入法发布,然后QQ输入法、搜狗输入法才接连诞生。

很多的技术是看不见的,但我们相信技术会改变世界。我们每一次的技术革新都会放在我们的产品上。比如说我们最早在2012年,我们就把全球首个中文云识别的DNA,即当时讲的深度神经网络,上线到我们的产品中,使得语音识别率一下子提升80%。

2010年,我们就曾将GMM-hmm-隐马尔可夫模型应用到语音识别系统中:运用WFST解码器,提高复杂的语言模型,识别率达到70%;2011年,运用BN(bottom neck)识别模型,通过神经网络提取音素特征,提升识别准确率;2012年,全球首个中文语音识别DNN系统上线,识别率相对提升35%,准确率提升至80%;2013年,运用SDT-DNN和基于DNN的VAD模型、深度学习离线版本,语音识别准确率提升至85%,实现离线语音识别;2014年,运用UB-LSTM,语音识别率提高至95%。

2015年,我们运用无监督的speak code技术 ,实现了声学个性化识别。因为除了语言模型之外,还有声学模型,即每个人的声音特征不一样,可以基于我们每个人的声音个性化来进行分辨的技术,实现实际效率的提升。2016年,将DFCNN应用于语音识别,语音识别准确率达97%,离线、噪声、远场识别率显著提升。

2017年,我们运用Cache based Fast Adaptation技术,创新融合个性化语音和语音模型,实现智适应语音识别;2018年,运用HybridCNN算法,通过结构优化大幅提升并发路数,语音识别准确率突破98%;2019年,基于注意力机制的Encode-Deconde模型应用,实现中英文免切换语音识别;2020年,动态自适应编解码语音识别引擎 ,多模态输入和领域个性化识别。

在过往10年当中,我们的产品得到了很多用户的认可,比如说我们的输入法日语音交互次数已经达到10亿次,累计服务设备数超5亿,语音用户占比超70%。2020年2月,经过10天的紧急技术攻关,讯飞输入法上线武汉话转普通话功能,通过讯飞输入法上线开放给广大用户,助力医患沟通,在短短的的时间里,累计服务人数达3万。

版权声明:以上内容为《经济观察报》社原创作品,版权归《经济观察报》社所有。未经《经济观察报》社授权,严禁转载或镜像,否则将依法追究相关行为主体的法律责任。版权合作请致电:【010-60910566-1260】。
大国资新闻部记者
关注宏观经济以及人社部相关产业政策。擅长细节深度写作。