麻省理工：百度成为世界语音交互技术领导者-中国教育和科研计算机网CERNET

资讯

校园信息化

技术

资源与应用

产品与装备

信息服务

首页 > 教育信息化 > 产品与装备 > 服务

麻省理工：百度成为世界语音交互技术领导者

2016-02-25 中国网

　　2016年2月23日，《麻省理工科技评论》公布2016年十大突破技术，百度凭借领先的语音交互技术登上榜单。文章指出，百度在世界语音交互技术领域做出了突出贡献——将语音识别和自然语言理解相结合，为世界上最大的互联网市场创造切实可用的语音接口。百度所推出的深度语音识别系统将人们从传统的利用触摸屏输入汉字发出指令中解放出来，实现语音支配搜索。在便利年轻用户的同时，也帮助中老年人以及教育落后地区用户平等享受技术发展带来的红利。

　　原文翻译如下：

　　在北京三里屯，穿梭在酒吧和奢侈品店的人们手里拿着苹果、三星、小米等最新款的手机。但你会发现，有些人并未使用触摸屏操控手机，他们更喜欢用一种更为高效和直观的方法——语音交流。

　　目前，中国约有6.91亿智能手机用户，这个数字还在持续攀升。他们在手机上用国内最大的搜索引擎百度来查找信息时，往往还习惯于使用触摸屏的方式。中国是发展语音接口的理想市场，因为使用微型触摸屏来进行汉字输入十分麻烦。不过，随着百度在语音技术方面的不断进步，语音接口将变得更为实用和有效，人们可以更为便利地与身边的设备进行互动。

　　百度首席科学家兼斯坦福大学副教授吴恩达(AndrewNg)表示：“我觉得语音发展到一定阶段，会变得非常可靠，你在用语音的时候甚至根本就不去想它。最好的技术往往是肉眼看不到的，随着语音识别技术变得越来越可靠，我想它将最终消失于幕后。”

　　语音系统给我们描绘了一幅未来的图景，我们再也无需为学习每个设备的新接口而伤透脑筋。

　　多少年来，语音接口就一直是技术专家的梦想，更别提那些天马行空的科幻小说家了。然而，在机器学习能力飞速发展的今天，语音控制技术正变得越来越接近现实。

　　语音识别不再局限于几个预设的命令，无论是在喧嚣的北京街头，还是在吵闹的房间里，你都可以应用自如。语音虚拟助理，如苹果的Siri、微软的Cortana或GoogleNow，纷纷与智能手机绑定，而像亚马逊Alexa等最新的语音助理，更是提供了通过语音查询信息、编辑歌单、创建购物列表等功能。虽然这些系统往往并非完美，经常以搞笑的方式误听或者误解语音指令。但是，这些系统也在不断地改进，让我们可以初步看到科技未来是什么样——人们再也不必每购买一个设备就要新学习一个界面的操作方法了。

　　百度创立于2000年，曾被称为“中国版的谷歌”(谷歌目前已退出中国市场)。作为主导中国国内搜索市场70%询问量的第一搜索引擎，百度已经演变成了许多服务的供应商，从音乐播放、视频观看，到银行业和保险业等等。当前，百度正在取得尤为惊人的进展，尤其是在语音识别准确度方面。同时，百度也具备进一步优化语音界面的能力。

　　显然，效率更高的移动设备将成为许多用户的福音。在中国，智能手机比台式电脑和笔记本电脑更常见，但是用智能手机浏览网页、发送信息或者做其他操作都很耗时，再加上汉字数量成千上万，虽然拼音系统让用户可以通过拉丁语音系统进行输入，但是许多人(尤其是50岁以上用户)并不会使用拼音，因而为用户造成了极大的不便。中国用户很喜欢使用微信等聊天软件时，使用聊天以外的其他功能，如在餐馆买单等。这也导致在很多识字率较低的落后地区，互联网带来巨大社会和经济影响的可能性更大。

　　因为在斯坦福大学时期在AI和机器人科学方面卓越的科研表现，吴恩达曾被《麻省理工科技评论》杂志评选为“2008年35岁以下杰出创新者”。吴恩达表示，“其实无需教会那些用惯了台式电脑的人如何操作手机，许多人可以跳过台式电脑，从一开始就去学操作移动设备的最佳方法。”

　　吴恩达相信，语音科技很快将变得十分可靠，并且用于与各种各样的设备进行互动。如果人们可以直接与机器人或者家电对话的话，操控它们就会变得更加方便。百度公司北京的很多科研团队，以及其在硅谷的科研实验室都正在积极地推进语音识别的准确性，让电脑可以更好地分析句子的意思。

　　同样致力于语音技术研究的麻省理工大学高级科研专家JimGlass也对“语音交互技术时机终于成熟”这一观点表示了赞同。“在当今社会，语音识别技术已经到达了临界点。从我的经验来看，人们将十分乐于不用遥控器，而直接语音操控设备。”JimGlass说道。

　　百度北京总部的科研人员正在夜以继日地研发具备对话能力的数字助手

　　去年11月，百度语音识别技术取得了里程碑式的进展，其位于硅谷的实验室研发出了一个全新的强大语音识别引擎——深度语音识别系统。这一引擎构建了庞大的，或者说“深度的”神经网络，能将声音与单个字或短语关联起来。百度为该引擎引入了数以百万计的转录语音，因此深度语音识别系统在识别口语方面有着惊人的准确性。有时它在识别汉语语音片段方面，要比人为识别更加准确。

　　这个深度语音识别系统的科研团队里很少有人会说汉语普通话或粤语。它是一个通用的语音引擎。

　　百度在深度语音识别系统上所取得的进步是惊人的，因为相较其他语言，汉语的语音系统更为复杂，甚至通过声调便可改变一句话的意思。而更令人敬佩的是，研发该系统的百度加州实验室中几乎没有几个科研人员会说汉语普通话、粤语或者其他中国地区方言。因此，从本质上说，该引擎是一个通用的语音识别系统，如果输入足够的英语语料，那么它也可以做到识别英文。

　　目前，百度搜索引擎所听到的大部分语音指令都是简单的问询——比如，“明天天气怎么样”或者“污染程度如何”。对于这类问询，百度搜索引擎准确度极高。然而如今，用户所询问的问题越来越复杂，为迎接这一挑战，百度于去年推出了自己的语音助手——“度秘”。作为手机(百度)APP的主要功能之一，“度秘”可以帮助用户查询电影上映时间，或预订餐厅位置。

　　当下，百度面临的一个巨大挑战就是教会其AI系统准确地理解更为复杂的口语指令，并做出智能回复。百度希望“度秘”最终能实现有意义的多回合对话，并且能在对话中纳入不断变化的信息。为了实现这一目标，百度北京总部的一个科研团队正在积极地改善“度秘”的用户问询理解系统，这需要运用百度在其语音识别中使用的神经网络技术，此外还要开展诸多重要工作。与此同时，百度还组建了另一组团队来分析“度秘”接收到的问询，并改正错误，以此不断优化系统。

　　吴恩达表示，“未来，我特别希望用户可以同所有的设备进行语音沟通，并让它们听懂我们的意思。到那时，我的孙子孙女们也许会惊讶地发现，在2016年，如果你对微波炉说‘你好’，微波炉竟会很没礼貌地静静呆在那儿，根本不搭理你。”

　　特别声明：本站注明稿件来源为其他媒体的文/图等稿件均为转载稿，本站转载出于非商业性的教育和科研之目的，并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题，请作者在两周内速来电或来函联系。