科大讯飞刘庆峰：实现智能人机交互有三个关键要素

“以语音为主，以键盘触摸为辅，以肢体语言动作为补充的人机交互时代正在到来。它是IT产业发展从第五次浪潮往第六次浪潮发展的重要标志。”

11月12日，由工业和信息化部、江西省人民政府共同主办的2022世界VR产业大会在南昌开幕。科大讯飞股份有限公司董事长刘庆峰在题为“以人工智能赋能虚拟现实产业”的演讲中指出，IT产业发展正从第五次浪潮向第六次浪潮过渡，第五次浪潮的标志是以手机为代表的移动互联网，第六次浪潮则是万物互联时代。

在万物互联乃至元宇宙中，更智能的人机交互是一项核心能力。而实现智能人机交互有三个关键要素——多模感知能力、深度理解能力和多维表达能力，机器在三项能力上都有了长足的进展。

刘庆峰认为，数字经济会是未来推动全球经济进入复苏的最重要引擎。未来，无论是在实体世界还是虚拟世界中，人工智能的感知运算和推理决策相关能力，将决定中国在全球人工智能产业的话语权和竞争力。

以下为刘庆峰演讲内容，有删减：

数字经济将是未来推动全球经济进入复苏的重要引擎

人工智能和VR产业的结合，具有源头技术方面的天然相关性。

从今天的数字经济发展来看，不仅这一次二十大报告再次强调了数字经济的重要性，而且今年年初江西省委省政府也把数字经济发展作为全省的一号工程来推动。几天前，世界互联网大会发布最新数据，47个参加数字经济相关研究的国家，其数字经济去年增长速度达到了15.6%，占GDP比重已接近50%。

数字经济这一发展速度是在全球军事政治出现动荡、出现高度不确定性，以及新冠疫情流行的宏观背景下实现的。

由此可以看到，数字经济一定是未来推动全球经济进入复苏的最重要引擎。同时虚拟和现实相结合，线上线下相结合，一定是数字经济发展的大势所趋。

从人工智能本身的定义中来说，它包括了运算智能，让机器能存会算，运算能力和存储都远超人类。

再到感知智能，让机器能听会说，能看会认，像人一样自动地进行交流。

再进一步让机器具备认知智能，能理解会思考，具备了学习推理和决策的能力。

今年年初中央政治局开会，确定要对全国重点实验室进行重组，今年首批的20个国家标杆实验室中，人工智能占比最多，达到6个。未来无论是在实体世界还是虚拟世界中，人工智能的感知运算和推理决策相关能力都决定了我们在全球人工智能产业的话语权和竞争力。

元宇宙、VR产业需要更进一步的人机交互技术突破

我们看看人工智能跟元宇宙的结合。首先，元宇宙，VR产业需要更进一步、更智能的人机交互技术突破。我们如果想在未来的虚拟世界中，像在真实世界里一样生活、工作、交流、感受，就必须先在交互方面形成突破。

这种交互其实有三个非常关键的要素。第一个要素是多模感知能力——我们能听得懂，眼睛能看得到，鼻子能闻得到，手能触摸得到等等各种多模态的感知能力——能不能在虚拟世界中获得跟真实世界一样的敏锐感知。第二个要素是，能够对我们所面对的物体、人物、环境进行深度理解。第三个要素是，理解之后能够进行多维表达，以完成我们所需完成的相关工作。

我们分别看看这三个关键要素的进展情况。

首先，关于多模感知，语音是我们人类最自然的沟通方式。语音的交互既包括了语音听写，将语音立刻变成文字——这项技术已经超过了最好的人工记录人员；也包括用命令操控所有设备；还包括声纹识别——一个人一开口说话，机器就知道到底是谁在说话。

从具体技术水平来看，在今年的全国两会期间，我们有34个地方代表团全面使用了讯飞听见。讯飞听见对将近3000个全国人大代表的两会发言进行实时转写，没有做任何训练，平均准确率达到96%，远超人工速记员。讯飞听见已经代替了全国人大用了几十年的常委会会议系统。

2019年科大讯飞被美国列入实体清单。因为语音也是我们未来智能终端出口的最典型卡脖子技术之一，将来如果没有语音交互，没有语音助手，那么手机智能终端、穿戴式设备、车载都没办法作为一个智能设备来出口。

我非常高兴地告诉大家，科大讯飞被列入实体清单之后，我们在最近一次美国国家标准技术研究院组织的全球多语种语音识别比赛中，科大讯飞囊括了所有比赛语种（一共15个语种）的第一名。现在我们已经覆盖了全世界60多个语种，覆盖了200多个国家和地区。语音识别的效果简单来说已经超过了我们最好的人工记录人员。

第二个，在语音识别的基础上，我们还要有图文识别。大家在纸张上记下来的笔记，在黑板上写的内容，在司法中、教学中，图文识别首先要对我们的中英文手写、文字图表进行识别。这个识别最难的是什么？国际模式识别大赛定期举行比赛，三种要素，中文、英文和复杂公式，对人工智能的OCR识别（图文识别）来说，复杂公式最难识别。因为我们见到的公式，可能只有这一个人写过，它没有大量的历史数据可以学习和借鉴。但是，我非常高兴地告诉大家，基于我们最新的算法突破，复杂公式的识别技术也已经达到可使用状态，而且已经在高考阅卷中得到使用。

另外在汽车的自动识别中，在奔驰汽车每年举行的比赛中，科大讯飞也已经获得了全球第一名。这不仅仅决定我们前方的道路车辆能不能前行，还能精准识别前面到底是人还是马路牙子，是一棵树还是一辆车和它的车牌号。

更进一步地，我们可以看到，人工智能不仅可以识别物体，还可以对物体中的图像进行理解。可以知道这是什么颜色的猫，这只猫在干什么？它前面的那朵花是什么花？它可以准确判断这是蒲公英，能进行非常好的图像理解。当我们有了OCR文字识别，有了对物体理解，有了深度的图像识别和理解之后，我们就可以把语音、手势、肢体语言以及面部表情等等相关的感知信息融合在一起。

我再和大家分享两项跟语音配合的技术。一个是手势识别，普通笔记本电脑前面的单摄像头就可以进行手势识别。

他的手上是没有任何东西，通过手势的凌空手写，后台就可以展示出他手势画出来的形状。单摄像头就可以做到这一点。这项技术可以帮助我们在元宇宙中、在虚拟世界中的交互和输入更简单。

更进一步，我们甚至可以直接用眼神来打字。不需要任何其他设备，就使用普通电脑的单摄像头就可以实现。现在，很多医疗机构也在跟我们合作，当病人躺在床上不能说话，直接用眼睛看、确认眼神就可以。

IT产业的第六次浪潮就是万物互联时代

以语音为主，以键盘触摸为辅，以肢体语言动作为补充的人机交互时代正在到来。它是IT产业发展从第五次浪潮往第六次浪潮发展的重要标志。第五次浪潮的标志是以手机为代表的移动互联网。第六次浪潮就是万物互联时代，很多设备没有屏幕了，很多设备要离我们一两米远，很多设备需要在虚拟世界中交互，因此这是以语音为主，键盘触摸为辅，肢体语言手势为补充的人机交互全新时代。我想中国可以做到全世界最好，并深度赋能我们的VR产业。

我们其实刚刚分享的是各个单个的感知，下一步最核心的能力，其实是要把各种感知能力深度整合起来，形成完整的理解。

举一个例子，汽车里的高噪音干扰。假如我在驾驶位上讲话，但后排人大声讲话，会不会干扰我对汽车的操控命令？

现在讯飞已经在做语音识别，我们已经做到最好了。只要我们把多模态识别引入进来，再结合人脸识别、结合脸部的动作表情和嘴部的唇语识别，就可以在原来高噪音情况下，把70%多的准确率提升到92.8%。就因为这样的多模态识别，所以现在奔驰、宝马、法拉利等很多的国际汽车品牌都在跟讯飞进行合作。

我们将来在虚拟世界中，一定要把多种维度的感知结合成为多模态系统。

另外一个是机器翻译。如果我们要以开放的胸怀拥抱全球，我想告诉大家的是，今天我们最新的机器翻译技术不仅在全球比赛中获得第一名，它还通过了国家外文学和人社部设立的翻译师资格考试，三级可以当同传，二级是高水平同传，一级不是考的综合认证，所以最高的考试等级，就是二级，机器已经通过了。它还参加过大学六级的英语考试，有15分的翻译题，机器和大学考生同台竞技，考试成绩超过了99%的大学六级考生。

因为这些技术突破，所以今年在冬奥会、冬残奥会上，我们作为唯一的自动语音转换和翻译供应商，打造了全球首次信息沟通无障碍的奥运会。

在这个基础上，我们把相关技术跟5G的底层通讯相结合。现在我们跟移动已经做了这个实验平台，我们跟联通、电信也正在进行探讨。

如果实现和5G技术结合，那么我们将来跟全世界任何国家和地区的人群通讯，只要我们的5G的底层网络上加上转交换技术，然后在硬件上加上翻译的能力，就可以畅通交流了，彼此都能看到翻译内容。我们的无障碍翻译技术可以融入现有标准下的5G技术。

当然在虚拟世界，人们的交流就更方便了。因为它会在虚拟空间中给你呈现出刚才的翻译结果，我们既可以听原声、看文字翻译，也同样可以把原声去掉，把文字用语音合成读出来，让你感受到真正同传的感觉。

机器正在认知智能上不断突破

刚才大家看到的是我们的信息输入，从多模态的感知到多语种的感知。那么机器的认知水平现在理解到什么水平了？

我想告诉大家，在国际最权威的机器阅读理解比赛中，斯坦福大学牵头的一项比赛中，比赛机制是，针对大约10万篇来自维基百科的英文文章，人看了以后提问题，机器看了以后回答人的问题。我们已在全球首次超过人类平均水平。

今年7月，在非常权威的全球认知智能比赛中，艾伦人工智能研究院组织的open book QA比赛就是对知识推理的挑战赛，只要是跟科学知识相关的内容，你随便向机器提问。机器的回答已经超过人类平均水平。也就是说，它在不需要给定内容训练的情况下，已经在很多领域开始挑战人类平均水平。

正是因为这些技术的进展，科大讯飞的人工智能技术首次通过了国家执业医师资格考试——都是医学专业毕业的学生，工作几年后才会去考，只有一半人能过。考试满分600分，分数线360，我们机器考了456分，超过了96.3%的医生。因为它自动学习了53本医学博士教科书，200多万份电子病历和最新医学论文。

一般很难让人理解的是，机器改主观题高考语文作文的能力，已经超过我们人类专家，现在已经在12个省的高考中得到使用。

雅思英语在全球寻找人工智能批改英语口语和英语作文的技术供应商。我们的技术也超过了人力。

所以我们可以看到，机器现在在认知智能上不断突破，只要有逻辑规律可循，有相关知识可供它进行数据学习和训练，它就可以达到原来博士毕业才能掌控的水平。当然，机器的自我觉醒，那还不是现在技术所涵盖的范畴，也不是我们追求的目标，我们追求的是机器能够帮助人类，而不是代替人类。

AI可助力在虚拟世界中生产更丰富的虚拟内容

有了理解以后怎么表达？它最重要的就是像人一样地表达，不光可以形成文字，还可以呈现各种语音的表达。

我们的语音合成技术已经超过了普通人的水平，播音员最好的水平是5分，普通人讲话是4分。机器现在已经在中文领域达到了4.5~4.8分，在英文中也超过了4.2分。

那么在这个基础上，我们进一步把语音合成跟人物形象相结合，形成了虚拟主播。虚拟主播已经出现在冬奥会上。它可以跟全世界运动员和工作人员进行交流。刚刚二十大期间，中央电视台、人民日报、新华社跟讯飞都有很多合作，包括大家最关注，很多重点媒体关于二十大的报道都是用虚拟主播来播报的，比如学习强国。

甚至说在抖音直播上，我们的虚拟主播形象可以跟它原生的主人一道来直播，也可以用虚拟形象跟其他的主播一起来直播，这已经得到真实使用了。

昨天双11结束，科大讯飞的学习机跟去年同期相比翻番增长，我们的虚拟主播发挥了很重要的作用。

现在我们每一个人还可以订阅自己喜欢的主播，寻找任何一个形象，你可以把他的眉毛、眼睛、鼻子、嘴巴改成你要的样子，把他的衣服改成你喜欢的颜色。它就成为你个人订阅的形象。然后你可以寻找你喜欢的声音来做你自己喜欢的虚拟主播。现在在网上已经有50多万的声音和形象供我们的用户挑选。

在这些基础上，其实更进一步的，人工智能可以助力我们在虚拟世界中生产更丰富的虚拟内容。今天我们讯飞的虚拟主播已经可以根据你提示的关键内容来作词作曲和写诗，而且可以自动生成背景的画面，这个画面是机器自动化的卡通画或者意象派画作。

最近讯飞的一位虚拟歌手叫路亚，完成了自己的首个唱跳体验，自己作曲的单曲叫《铠甲》。上线很短的时间，用户数就超过了300万，现在已经达到1500万人次。

所以以后在人工智能时代生产新的内容，只需要提供一段文字，你根本不用去录各种视频，机器会自动帮你配音，自动帮你找到虚拟形象，自动帮你找到背景画面，然后形成一个视频。

从原来的专业视频制作到用户个人视频制作，再到人工智能的自动视频和内容制作，到现在人机协同的内容制作，我相信它们一定会为我们虚拟经济和VR产业的发展带来非常生动丰富的用户体验和全新的文化发展。

因此我想，我们今天的VR产业发展，已经绝不仅仅是让我们人类在虚拟现实中感受我们在现实生活中没有感受到的一些环境和氛围，它是真实地通过各个方面帮助人类。例如虚拟医生，他们能在虚拟世界中给我们看病，看你的症状，看你的舌苔。

数字员工正在加速进入到人机协同的新阶段

那么今天，数字员工正在加速进入到人机协同的新阶段，利用人工智能所形成的大脑，再结合工作的流程自动化，可以迅速形成我们在日常办公中的财务电子合同、招聘以及会议等等方面的人工智能助手。

在科大讯飞，我们用人工智能做财务自动OCR识别、自动填充表格内容，通过语义理解自动判断是否是虚假发票，自动地进行报账处理。员工原来报销需要10~15分钟，现在只要3~5分钟，财务中心已经省到可以让50%的共享财务中心人员腾出手来做更有意义的事情。

普通中小企业90%没有专职法务人员，而90%多的企业都曾经因为合同遭受损失。现在可以用人工智能来帮你自动审核，这项技术已经在刑事案件辅助审判中代替人类了。

在上海，所有公检法贯穿从刑事案件到商务合同，全部都用人工智能来进行审判，有没有证据链的瑕疵或自相矛盾？对应的法律法规是什么？对应的罪名和量刑是什么？我们的人工智能技术可以对这些问题进行解答。

安徽正在做一个实践，所有小企业把合同丢上去，自动存在后台自动判断。如果一个工作人员认真负责，没有法律背景，基于我们的法务助手，就可以极大地提升我们在这方面的能力。

因此人工智能可以深度赋能。比如说机器能听懂人的声纹，也能听懂机器的声纹，就可以对设备进行预测性维护。设备有没有问题，原来靠有经验的老工人听，现在机器一听就知道有没有问题。另外借助声学照相机，高空有异响，你不知道在哪，照相机一拍就可以精准定位出问题的位置，对于那些气体泄漏发生的地方，人听不见也没有味道，机器马上就能拍出来。

比如说北京的燃气站，原来需要一天才能查出来。我们现在用新的声学照相机，半个小时就可以全部查出来。在安庆石化，气体泄漏可能引发工厂爆炸，我们用声学照相机帮它提升了10倍以上检测效率，让人工成本大幅下降。

此外，图像识别用于机器外表检测，视频识别用于整个工业各种检测，这些技术都有大量的应用。

因此，在今天的工业互联网的发展中，制造业中心的听觉、味觉、触觉、嗅觉、视觉，由工业大脑来整合形成工业六感，就有非常强的现实意义。

Published by xiaomu