百度开放语音识别技术迎接动口不动手的时代_产业新闻

百度开放语音识别技术迎接动口不动手的时代

http://www.cww.net.cn 2013年11月12日 13:54

在“百度世界2013”大会上，百度宣布向开发者免费开放整个语音识别平台。近期这一承诺开始付诸实施：语音识别平台的一部分已经开始上线。未来，百度期望成为提供语音技术的平台供应商。

在键盘、轨迹球相继在智能终端上消失之后，有一天，或许虚拟键盘也将被淘汰，甚至连菜单功能项也一并会被取代，真正操控一切的，只是我们每个人的声音。

事实上，只要你够细心的话，就会发现其实整个 IT 行业的发展历程更像是人机对话的提升过程，虽然各种程序语音以及窗口式菜单已经可以让我们对机器的控制达到完美境界，但这并不能改变人类长期以来对于“动口不动手”这一“恶习”的偏好。不久前，百度对开发者免费开放了自己的语音识别技术，这为各类 App 的研发者提供了一个很好的契机—借助嘴巴的控制，来解放我们已经很忙碌的双手。

技术升级：打造识别语音的“脑神经”

语音识别的由来其实是和计算机的发展同步的。早在 1952 年，贝尔实验室的 Davis 等人成功研究出世界上第一个能识别 10 个英文数字发音的实验系统。大规模的语音识别研究是始于上世纪 70 年代，此后，语音识别技术在孤立词和小词汇量句子的识别方面取得突破。

就像一头隐藏在野马群之中的隐形大象，语音技术前进的步伐比较缓慢，尤其相对于过去几十年都处在高速发展状态的计算机行业而言，我们很容易忽视这些变化：在多年前，IBM 的语音识别软件在 PC 上就有不错的识别率了，而微软名为 Tellme 的项目也持续多年。两年前更新的腾讯 QQ2011 版就开始支持语音输入。

但即便达到 100% 的准确率，仅限于输入法功用的语音识别也无人机互动的意义。对于语音识别操控技术的下一阶段发展，搜狗 CEO 王小川曾表示，需要几个方面的配合：一是对自然语言理解，归纳为“懂”；二是在人机交互的过程中，需要反问确认来降低误差，这个过程称为“问”；三是人机交互还需要根据上下文进行判断和推测，这可以理解为“猜”；除此之外，整个软件系统还需要具备持续的学习能力和良好的扩展能力。

根据百度的构想，这一语音生态系统的开放包括三个层次，一是最底层的语音识别技术 API 的开放，二是百度语音助手 SDK，提供开发工具包；第三点则是面向能力弱的开发者，直接安装百度语音助手即可。

就好像打造一个听得懂人类语言背后隐藏意图的“大脑神经系统”一样，语音识别技术的升级对开发企业提出了几乎苛刻的要求。事实上，能做到这一点的公司屈指可数，比如苹果公司在 iPhone 终端上试水的 Siri 功能；比如在 Android 4.1 系统上，谷歌加入了被称为“神经网络”的技术，这种技术将语音识别错误率降低了 25% 以上。当用户对 Android 手机说出一个要搜索的关键字时，声音会转变成声谱图，被分成 8 段然后传送到不同的服务器上。Google 通过分析以前记录过的无数声谱图，来推测你究竟说了什么。

很显然，百度看到了这一市场的未来商机，并希望成为提供语音技术的平台供应商。在今年“百度世界 2013”大会上，百度宣布向开发者免费开放整个语音识别平台。近期这一承诺开始付诸实施：语音识别平台的一部分已经开始上线。根据百度的构想，这一语音生态系统的开放包括三个层次，一是最底层的语音识别技术 API 的开放，囊括了合成技术、理解技术、认证技术、指纹技术等，开发者可以调用 API 接口实现语音识别功能;二是百度语音助手 SDK，提供开发工具包，实际上是对语音识别标准化服务进行封装，识别结果做关键词抽取，搜索结果进行结构化数据返回，最终对接服务和应用。这一点是对应用开发者最具诱惑力的;第三点则是面向能力弱的开发者，百度语音助手直接安装在硬件上即可。

[1] [2]

关注通信世界网微信“cww-weixin”，赢TD手机！

来源：外滩画报编辑：于天娇

分享到：