首页 >> 通信新闻 >> 互联网 >> 正文
 
揭秘百度声纹解锁技术 让君子动口不动手
http://www.cww.net.cn   2012年12月25日 14:42    

2012年12月,搭载百度云智能操作系统的联想A586手机上市,其也是全球首款具有声纹解锁功能的智能手机。《大话西游》中的“芝麻开门”成为现实——手机能够智能辨识主人的声音进行解锁,一根手指头都不用动。如此炫酷的语音智能控制功能,技术上是如何实现的?百度工程师将为我们揭秘。

声纹,每个人的声音身份证

什么是“声纹”(Voiceprint)?借用“指纹”去理解也许容易些,反正是每个人独一无二的。

我们都有这样的直观感受,每个人说话,语声都不一样。因为人的发声器官,包括声带、软颚、舌头、牙齿、唇等,存在着大小、形态及功能上的差异。这些差异会导致发声气流的改变,造成音质、音色的差别。此外,人发声的习惯亦有快有慢,用力有大有小,也造成音强、音长的差别。音高、音强、音长、音色在语言学中被称为语音“四要素”,这些因素又可分解成九十余种特征。这些特征表现了不同声音的不同波长、频率、强度、节奏。而语图仪可以把声波的变化转换成电讯号的强度、波长、频率、节奏变化,仪器又把这些电讯号的变化绘制成波谱图形,就成了声纹图。

总体而言,声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。成年以后,人的声音可保持长期相对稳定不变。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终相同。通俗来说,声纹就是人的声音的身份证。

百度声纹解锁技术原理:建立声纹VS声纹识别

实际上,百度声纹解锁的原理也牵涉到两个阶段的应用。第一是声纹注册,也就是通过用户的互动,建立一个语音的身份证;其二,就是声纹识别,通过既有的声纹模型与当前的用户语音对比,看看是不是手机真正的主人。

在声纹注册阶段,用户需要对着手机念一段文字或者数字,当然,为了排除用户情绪的失控(比如第一次玩声纹解锁的哥们、妹妹们),具备百度声纹解锁功能的手机会要求用户重复输入同样的语音三次,这有点类似于我们设定密码中的两次输入。

在声纹识别阶段,用户只需要输入注册时使用的语音,通过手机系统的验证,就能超酷炫的语音解锁登录了。这时,语音解锁是怎么工作的呢?它对当前用户的语音(姑且称之为这个家伙)进行处理,并对数据库中的模型(主人)进行匹配。结果其实就是两种:一,如果“这个家伙”=“主人”,放行;二,如果“这个家伙”≠“主人”,就给出提示要求他注册。

百度声纹解锁的绝招:噪音处置算法

大家一定想着,哇,超帅!开机不用手,动动嘴皮就行了。

不过,很多人就想到了,在这个人口爆棚的时代,充满噪声的环境无可避免,声纹解锁还能工作吗?

实际上,这正是百度声纹解锁技术的绝活所在——百度采用了先进的语音端点检测算法和信噪比估计算法,能够精确地判断用户输入的语音信息是否有效。

大家知道,即便在嘈杂的环境中,我们人类还是有一种超能力的——可以将噪音当做耳边风,将注意力集中在对方说话的声音上(尤其是面对辣妹或帅哥时)。但是手机相对伟大的人类来说,这种能力绝不是与生俱来的。当手机用户说话时,不管是人声还是背景噪音,手机没有办法挑肥拣瘦,只能照单全收。

所以百度的工程师在研发手机的声纹解锁功能时,给它赋予了两个超级的语音处理能力。第一个是使用语音端点检测算法,来探测到用户输入语音的起始和终止位置,也就是说,哪怕外面吵翻天,但用户可能一个字都没有说。这种算法可以精确探测到用户说话到底说了哪一段,因此分析起语音可以有的放矢。第二个是使用信噪比估计算法,来检测用户输入语音的质量是否满足需求。如果背景噪声太强,就会提示用户重新输入。比如您在汪峰的演唱会现场给手机下指令,这就有点太过了,“这么吵也叫手机我识别?你当我是你啊?”。

通过上述两种超级语音处理能力,百度声纹解码功能就能保障自己处于一个“能干活”的基础上了。

[1]  [2]  
来源:通信世界网   编 辑:葛逊    联系电话:15910953501
分享到新浪微博 分享到搜狐微博 分享到腾讯微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  论坛   推荐给朋友
关键字搜索:解锁  主人  声纹识别  语音对比  言语信息  
猜你还喜欢的内容
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案

企业黄页
会议活动