作为人工智能落地最成功的领域，语音识别发展现状如何？

2025China.cn 2017年10月10日

　　曾轰动一时的电影《她》，讲述了男主人公与人工智能虚拟助手相爱的故事，这个人工智能对话系统能够同时与数百人进行对话。现实中，苹果Siri能够有目的地模仿人类，并拥有了不同的人类风格，像Siri这类智能软件助手正在与数以亿计的人类用户互动。

　　“语音识别现在已经有很多的产品，包括维语到汉语的翻译等等。人工智能目前落地最成功的就是语音识别技术。”中科院自动化研究所所长徐波告诉《瞭望》新闻周刊记者，要让机器理解人的语言，还面临很多挑战。

　　人机交互的基础

　　近日，全国首家互联网法院揭牌，案件庭审记录由语音输入系统即时完成。“互联网法院是远程的，原告、被告、法官不在同一个地方，将庭审麦克风接入语音识别的云端，就能够实时生成速记。它使用的就是阿里云语音在线识别技术。”阿里巴巴iDST智能语音团队负责人鄢志杰告诉《瞭望》新闻周刊记者。

　　语音识别是人机交互的基础，主要解决让机器听清楚人说什么的难题。早在1970年代，IBM沃森实验室的弗雷德里克·贾里尼克(Frederick Jelinek)就提出了语音识别框架：声学模型和语言模型。

　　语音识别取得的重大突破，就在于引入了深度神经网络技术。“深度神经网络的方法，是通过大量的语音数据，训练出高精度的声学模型和语言模型，从而提升识别率。”浪潮集团人工智能与高性能计算总经理刘军告诉记者，浅层神经网络方法，是提取语音的特征，识别率比较低。

　　“教会机器听懂人话的过程，就是通过深度神经网络训练声学模型和语言模型的过程。”科大讯飞股份有限公司(简称科大讯飞)工程师丁瑞告诉记者，声学模型训练是教会机器哪个字词发什么音、该怎么连在一起读，有点像我们小学时候跟着老师读拼音。而语言模型训练则要教会机器什么样的命令或文字组合是合理的、更常见的。

　　在完成模型训练后，需要将其送入语音识别系统的解码引擎。“解码引擎的工作是在一个巨大的网络里进行搜索，这个网络由数亿节点及弧组成，并且里边已经糅合了训练好的声学模型和语言模型信息，搜索出来的最优路径上所携带的信息就是对应的语音识别结果了。”丁瑞介绍，解码引擎的运算效率至关重要，直接影响到用户体验。目前，科大讯飞的解码引擎可以在用户说完话40毫秒之内给出结果。

　　“一般的深度学习算法只能看到上下文的一点点，我们试验最成功的是BLSTM算法(双向长短时记忆神经网络)。通常一句话讲完才能出识别结果，但BLSTM算法理论上可以看到无穷远的上下文，可以更好地理解人类的语言。”鄢志杰说，BLSTM算法是深度学习中的一种，对单位时间内的计算量要求很高，他们研发出的LC—Blstm系统，将语音解码速率提升了三倍，并在业界最先大规模上线了基于这一技术的语音识别系统。

　　提高识别准确率有多难

　　目前，国外一些大公司提出，他们研发的语言识别系统已经十分接近人类听力水平。国内也有多家公司提出，他们的语音识别系统达到90%以上的正确率。

　　鄢志杰认为，脱离了应用场景讲识别准确率并不现实。“比如一个IT方面的会议，会场上演讲嘉宾的语音识别准确率基本能达到95%，但如果突然邀请一个医疗领域的讲演者，就很难达到同样高的识别率，因为现有模型在医疗领域的知识积累不够。”

　　“正常人际交流情况下，机器语音识别错误率超过15%甚至30%，而一些公司宣传的机器识别准确率过高，速记员都达不到这一水平。”鄢志杰认为，这样的宣传会让公众误认为语音识别问题得到了完全解决。

　　“语音识别要进入到各个不同的应用场景，还有很多相关的工作需要去完成，不能单靠深度神经网络的方法来实现。”刘军说，语音识别准确率涉及多方面原因，例如远场精确识别就是业界难题。

　　远场语音识别基本采用麦克风阵列方案，通过波束成形和精准定位的技术方案，解决远场拾音、噪声、混响等问题。“目前科大讯飞的语音识别距离已经达到5米，同时有国际领先的回音消除技术，消除量可以达到50db。”丁瑞说。

　　受访专家认为，应用麦克风阵列做定位和聚焦可解决远场识别问题，识别率较之前有了大幅提高。例如在落下车窗的快速行驶汽车中，可成功唤醒车载语音识别功能。

　　“现在有很多大量近讲的数据，例如手机、录音棚中的数据，将其放在一个房间内播放，就能测得房间的冲击响应，可以模拟远场数据。由此建立代表近讲信号与远场信号的不同模型。”鄢志杰介绍道。

　　受访专家表示，远场识别在一些场景中的应用并不理想，例如机场、火车站、大型会场等环境嘈杂的地方。徐波告诉记者，现在用的麦克风阵列，能辨别人说话的方位，但如果多个声源在相近的方位还是难以识别。

　　语音识别应用推广的另一短板表现在场景数据的获取。场景是用户群体、语言风格、语音信道、使用环境等综合性的描述。“中文语法的随意性比较大，还有场景中的方言因素，解决这一问题的方法主要是靠数据训练模型，我们需要一个很大的数据库。”徐波说。

　　“数据获取的成本非常高，需要收集全国各地的各种口音数据，并使用人工把发音和文字一句一句地标注对应好，变成所谓的熟数据，才能交由机器学习。我们已经做了几万小时的这种声音。”徐波提到，用目前的方法，机器有多少智能，背后一定赋予了多少人力投入。

　　刘军认为，虽然现在使用互联网服务，数据很容易上传到云端，标注后就可以用，但目前还没有很好的方法替代“人工标注”这一工作。

　　“数据是燃料，云计算背景下，怎样做大规模低成本的定制化语音服务非常重要，如果成本不能控制，生意就做不下去。”鄢志杰说，为节省成本，阿里iDST采用了数据模型自适应的一系列算法。例如为电话客服场景做语音识别训练模型就需要用大量的数据，但这个模型就可以迁移到保险公司客服的模型中去，而不需要用大量数据重新训练保险公司的客服模型。

　　“自然语言理解”难题待解

　　“在计算机的世界里，理解对话系统不再是什么古怪的创新，而是一种逐渐成为主流的交互方式。”《纽约时报》高级科技记者、普利策奖得主约翰·马尔科夫(John Markoff)在其著作《与机器人共舞》中提出。

　　与机器对话是人与计算机之间的双向信息交换，即人传达给机器一个信息，机器会反馈给人一个信息。语音的交互已经广泛应用于智能硬件、智能家居、智能机器人等领域。随着亚马逊打开智能音箱的市场，各巨头公司争相逐鹿，打响了“百箱大战”，如谷歌推出了Google Home、苹果上线了HomePod等。国内来看，科大讯飞推出了“叮咚智能音箱”，阿里发布了智能音箱“天猫精灵X1”等。

　　受访专家认为，语音识别属于感知智能，而让机器从简单的识别语音到理解语音，则上升到了认知智能层面，机器的自然语言理解能力如何，也成为了其是否有智慧的标志。

　　在机器理解人的语言方面，专家的意见非常一致，即自然语言理解是人工智能的难点。机器对语言理解本身的准确率非常低，并不是非常聪明。但在马尔科夫看来，人机交互是机器的终极智慧。

　　“全世界基于自然语言理解的人机对话领域，还没有万流归宗的方法论，在工业界无法形成应用。”鄢志杰说，相比之下，基于深度神经网络学习的语音识别技术已经形成固定的流派，只是互相之间用的声学模型、语言模型各有特色。

　　“语言的理解非常困难，需要知识的储备，而机器缺乏常识。”徐波举例说，“张三吃食堂”、“能穿多少穿多少”。这样的句子机器理解不了。“因为它包含了我们生活中的很多常识。比如说‘张三吃食堂’，实际上是说张三在食堂吃饭，不是把食堂吃下去。不同季节说‘能穿多少穿多少’意思也是不一样的：在夏天说，意思就是太热了尽量少穿;在冬天说，意思则是多穿点别着凉。”徐波告诉记者，常识是我们从小到大、通过与现实物理世界不断交互感知和学习产生的，而计算机怎么去表示、获取、学习常识，并将常识与数据结合是个挑战，全世界都还没有解决这个问题。

　　徐波告诉记者，目前机器服务多为简单查询，不涉及“推理”查询类信息服务，而且缺乏基本语言理解能力。“你问机器明天这个天气状况会造成航班延误吗?机器回答不了。你让机器推荐一个附近的餐厅，不要日本菜，机器推荐的没准就是日本餐厅。”

　　专家认为，机器基本不具有的上下文功能，也让人机交互之间难以顺畅进行。目前开放领域的聊天系统，会根据用户输入的语句生成系统的回答语句。这种系统采用单轮的一问一答方式训练，而对于多轮交互才能完成的对话，机器无法将聊天中的上下文信息关联起来，导致交流不畅。

　　“人与人之间的交流，最重要的就是持续、双向、可打断。为实现自然流畅的交互，科大讯飞采用了一个全链路的贯穿过程，需要包括持续的语音唤醒、人声检测、智能断句、无效语音拒识等各个模块相互配合才能完成。”丁瑞说，智能断句主要是在识别过程中，用语义信息来预测和判定。以点歌为例，用户经常会说，我想听……周杰伦的歌，中间会有思考过程。此时后端的断句引擎必须等待后续的有效音频，给出完整的理解内容。但如果用户停顿时间过长，后端引擎也会给出响应，比如会问：您要听谁的歌，以做出更好的引导提示。

　　虽然各方在积极探索机器的自然语言理解实现路径，但要实现电影《她》中的强人工智能，还有待时日。

（转自公众号瞭望）

（转载）

标签：人工智能语音识别

我要反馈