首页 >> 手机世界 >> 产业新闻 >> 正文
 
百度开放语音识别技术 迎接动口不动手的时代
http://www.cww.net.cn   2013年11月12日 13:54    

单单从技术的升级层面来看,百度开放的语音 SDK 在核心技术上还是拥有很多优势的:它拥有深度神经网络声学建模技术,能够更好地令智能手机等终端听懂命令者复杂语言后的“语意”,同时这项技术还支持用户个性化的声音建模技术和海量数据的区分度训练技术,这一点也非常重要,特别是对于那些普通话发音不标准的用户来说,假如有一台机器能够听得懂你的“方言”的话,那么语音控制就不仅仅是播音员才能享受的专利技术了。

无论是苹果、谷歌还是国内的百度、腾讯,这些大公司所做的事情其实大同小异:在准确语音识别的基础之上,帮助机器进行语义的智能分析判断,并且实现系统功能和后代数据(包括个人偏好和历史记录)的调用,实现所答即所问与服务即所想—真正从识别,执行,再到人机互动之间的飞跃,

就好像打造一个听得懂人类语言背后隐藏意图的“大脑神经系统”一样,语音识别技术的升级对开发企业提出了几乎苛刻的要求。事实上,能做到这一点的公司屈指可数,比如苹果公司在 iPhone 终端上试水的 Siri 功能。

应用升级:从汽车到穿戴式设备

谈完了技术升级的内容,我们大可以再天马行空一番,回头再来展望一下这项技术的未来应用领域。

这的确是一个令人感到非常兴奋的话题,其实在 2 年前,当苹果公司在介绍 Siri 功能的时候,我们已经能够感到一个全新时代的来临:用户可“命令”手机读短信、询问天气、设置闹钟等,并且可以搜寻餐厅、电影院等生活信息,甚至是直接订位、订票。手机等掌上终端无疑成为了语音技术发展的第一批“受惠者”。

在语音识别的应用方面,苹果最大的竞争对手三星则是很好地利用了自己产品线更加丰富的优势来做文章,比如在三星的 Smart TV 上,我们已经可以简单地通过嘴巴来开机或者关机了,只不过相对于 Siri,电视机的语音识别功能还显得不那么“智能”,它仅仅只是可以通过嘴巴来下命令完成音量调节、频道切换、网络资讯搜索等功能,目前你还无法真正与自己的电视机实现更有意思的客厅“对话”。

按照百度的构思,将语音识别技术免费开放给中小规模开发者或是跨领域企业的一大好处,他们可以省下大笔精力和经费来好好考虑如何优化基于语音识别的操作体验,比如已经与百度展开合作的福特汽车,当福特汽车拥有完善的语音操控系统之后,驾驶员就可以做到用语音直接查询天气预报,而不是像过去那样听广播或者停车打开天气类 App 去查,对于一个需要将双手更多地安放在方向盘上的行业来说,语音识别技术的整体植入对于驾驶员安全操作的提升作用是不言而喻的。

除了汽车领域的语音时代即将来临之外,更具有想象空间的是未来的穿戴式设备市场,语音识别技术的意义更在于,它是未来移动终端和穿戴技术的入口级技术。在可穿戴式设备风行时,屏幕的作用必将弱化,因为无论是手表或是眼镜,它们的显示屏尺寸都局限了触摸操控的发挥,这一点,即使是不太懂得技术的普通人都不会反对吧!智能手表靠什么输入文字、传送信息呢?不及三个手指宽的手表屏幕,直接按键不靠谱;靠辅助设备好像也不现实,那就只能靠语言输入了,因此人机的语音交互需求会使语音识别成为移动互联网的新入口。

相比较手机、平板电脑、电视或是汽车,穿戴式设备市场更像是与语音识别技术唇齿相依的一个“小伙伴”,就好像电脑的诞生催生了键盘、智能手机的横空出世将触控屏技术推向顶点一样,据统计,到 2017 年,可穿戴式无线设备市场将由 2011 年的 2077 万台增长到 1.695 亿台,而语音识别技术一旦在眼镜、手表等设备上生根发芽的话,这样一项只有通过长期体验反馈积累才能进一步完善的技术,也终于有了最佳的实践平台。

很多技术的诞生并不难,难的是技术诞生之后如何实现大规模普遍商业化。恐怕这么多年来语音识别技术一直发展缓慢的最主要原因是,市场并没有认可这项技术。而现在,隐忍多年的语音技术开发人员终于有了大展拳脚的机会,在三五年内,他们需要做的事情只有一件—为人类嘴巴打造一个“控制生态圈”。通信世界网

[1]  [2]  
关注通信世界网微信“cww-weixin”,赢TD手机!
来源:外滩画报   编 辑:于天娇
分享到:
       收藏   打印  论坛   推荐给朋友
关键字搜索:语音识别  谷歌  百度  Siri  
猜你还喜欢的内容
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案

企业黄页
会议活动