前言:深度神经网络(DNN)是近几年在工业界和学术界新型的一个机器学习领域的热点话题。DNN算法成功的将以往的智能识别率提高了一个显著的档次,可以极大地提高图像、语音识别的准确度,可以更快地推动智能人机交互(HCI)技术的进步。
自DNN发展以来,该技术已成功应用于语音识别技术领域,并取得很好的效果,在移动互联网中已实现广泛应用。近一年来,伴随语音质检系统在各在呼叫中心得到越来越广的重视,捷通华声通过与清华大学合作,成功将深度神经网络应用到灵云语音质检分析系统中,促进语音转写识别率达到实用化水平,从而使语音质检质量与效率得到大幅提升。
深度学习神经网络是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。2010年,微软雷德蒙研究院发现深层网络可显著提高语音识别的精度。此后,微软亚洲研究院在测试中发现应用DNN的语音识别模型识别错误率比最低错误率降低了33%之多,即绝对识别率提升了6.6%。
“使结果发生翻天覆地变化的是DNN,通过应用DNN,在日常对话中,最多可使单词识别错误率比之前降低42%。这意味着,以往10个错误,有4个能用这种方法解决。这是自HMM(隐马尔科夫模型)出现以来,单项技术使语音识别精确度获得的最大提升”,微软亚洲研究院研究员Frank Seide解释道。
显然,比起传统的混合高斯模型(GMM),DNN在识别精度上具有相当的优势。
在采用了最先进的第4代深度神经网络算法后,捷通华声灵云语音识别的通用语音识别率达到93%以上,定制模型的识别率达到97%以上,各项指标已经达到国内最好水准。然而,在对其他声源的识别能力上DNN是否会有所突破呢?2013年,捷通华声与清华大学合作,开始在灵云语音质检系统上应用DNN技术。该系统以识别“电话通道语音”为核心,将通话录音中的语音信息提取出来,通过灵云语音识别转换成文本保存在系统中,再通过提取关键词、静音检测、情绪检测、语速检测等方式对语音进行筛选分析,从而得出质检结果。通过灵云语音质检系统,可以帮助客户将客服录音数据进行各种分析,从而针对性地改善呼叫中心的服务质量。其中除对企业自身呼叫中心质检之外,这套系统还可以为企业分析客户的反馈意见,跟踪广大用户的热点问题,从而对公司的产品和服务提出优化建议,实现更加精准的市场决策。因此,“电话通道语音”识别的精度越高意味着语音质检的效率越高、客户体验越好。在应用DNN之后,客户普遍反映灵云语音质检的质量和效率已经有明显的提升,证明了DNN在多声源识别中的适用能力。
DNN的火热虽早已经引起语音企业的重视,而图像是DNN最早尝试的应用领域——它已经使 YouTube的视频分类提高了70%的准确率。而恰好图像识别又是灵云的另一条主打产品线:灵云智能图像。在语音识别和DNN产生化学反应后,我们有理由期待灵云智能图像识别&DNN在票证、车牌、人脸等图像识别领域的更新的表现。
捷通华声在语音识别、图像识别等技术领域全面应用DNN,得到了清华大学的鼎力支持。2013年,清华大学产业基金入资捷通华声,成为捷通华声第二大股东,也因此确立了捷通华声与清华大学的战略合作关系,并得到清华大学HCI领域中强大科研力量的支持。捷通华声凭借自身在智能语音、智能图像、自然语言理解等技术领域的技术积累,与清华大学HCI技术各领域实验室、专家教授建立起联合研究机制,为长期发展HCI技术奠定了坚实的基础。
捷通华声此次与清华大学在DDN领域的成功合作,也标示清华大学在HCI技术领域的雄厚科研力量通过与市场需求的紧密结合,开始全面服务社会。未来发展,捷通华声将发扬清华大学在国家科技进步、国民经济建设中的强大推动力与影响力,全面推进灵云发展战略,促进提升清华大学HCI技术在产业中的影响力,助力清华大学构建“学术超前、科研领先、产业化推广最强”的领导地位,从而共同实现“灵云科技 源自清华 服务全球”的战略发展规划,为中国HCI产业化发展做出更大的贡献。
|