首页 >> 通信新闻 >> 滚动 >> 正文
 
Siri引领语音识别技术成熟
http://www.cww.net.cn   2011年11月22日 08:52    新浪科技    
作 者:晓明

英国《卫报》周一发表分析文章称,语音助手功能Siri成为了苹果iPhone 4S的一项重要功能,但语音识别技术由来已久,如今该技术已经逐步发展成熟。

以下是文章全文:

一位男子在电脑前坐下,然后轻声说道:“计算机”。然而电脑并未作出任何反应,该男子对这电脑又说了一遍:“计算机”,还是没有反应。旁边的人已经没有耐心,对他说:“用用键盘”。该男子回应道:“键盘?真奇怪。”

以上场景出自1986年电影《星舰迷航记4》,工程师斯库提(Scotty)以及其他船员从23世纪穿越回地球。斯库提需要使用电脑完成一些工作,要知道他们在23世纪时全部使用的是语音命令,而不是上世纪80年代那样的复古操作。

如果上述电影场景发生在35年之后,也就是现在,斯库提仍旧会对电脑的毫无反应感到困惑。除非他拿起一款最新智能机,该智能机可以对人类声音做出回应,并成为了最新潮的人机互动方式,它就是iPhone 4S。

iPhone 4S

自从iPhone 4S十月份上市以来,人们开始购买并使用苹果新手机的Siri功能。Siri是一项语音导航助手,可以接收语音命令,确定或取消约会,发送邮件,电话呼叫,网络搜索。它能够完成秘书所做到的一切。

Siri并不只是一项语音识别工具,它可以将语音转化成文本,并以电邮或短信的方式发送出去。Siri可以对天气情况进行预测,进行汇率转换或提供股票价格,并对天气现象进行解释。

很多人认为Siri并不是一项新技术,我们多年前就可以进行语音电话呼叫,谷歌也已经提供了语音搜索应用。但是专家称,Siri可能代表的是一种更加精细的技术革命,就像iPhone在2007年1月推出时的多点触摸屏。它不仅能进行语音呼叫和语音识别,还可以将语音转化为文本,也就是“自然语言理解”(NLU)。

NLU

NLU连同图像识别、智能机器是多年来一直未能解决的计算问题,不过现在我们可以让机器强大到足以理解我们所说的话。NLU技术面临的第一个挑战就是语音向文本转换的复杂性,发音的类似将导致处理结果的不同。其次,机器需要理解字面信息和画外音。

IBM超级电脑沃森(Watson)今年2月震惊世界,它此前参加了智力竞赛节目Jeopardy,并与Jeopardy两位冠军进行PK。IBM工程师表示,参见Jeopardy节目肯定不是沃森的最终目标,它展示的是此前电脑从未展示的能力,并与拥有广泛知识词汇的人类进行互动。

沃森现在开始着手解决人类健康问题,并使用了Nuance的语音转文本技术,未来还可能用来解决一些医疗难题。

技术实现

NLU是人们多年来一直希望实现的一项技术。1996年,比尔·盖茨宣布,到2011年时,人们就能开发出具备人类语音和面部识别技术的电脑。就是在今年,如果把智能机算作电脑(最起码智能机功能能够达到2001年笔记本的水平),盖茨的预言已经实现。最新款Android智能机已经具备面部识别解锁功能,语音功能我们仍在努力实现。

然而现在的语音技术还不完美,Siri服务器已经出现了多次宕机事故。不过Nuance公司的尼尔·格兰特(Neil Grant)表示:“时间将会解决所有连接问题。”

[1]  [2]  
编 辑:葛逊    联系电话:
分享到新浪微博 分享到搜狐微博 分享到腾讯微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  论坛   推荐给朋友
关键字搜索:Siri  语音识别  谷歌  1986年  Android  
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案
企业黄页
会议活动