首页 >> 2013第二届运营商终端与应用创新合作大会 >> 会议直播 >> 正文
 
捷通华声首席架构师陈明
http://www.cww.net.cn   2013年8月7日 15:08    

灵云平台第一个特点高度融合的平台,这个平台融合很多人机交互能力,我们接口是比较统一的接口,保持比较大的一致性,然后用户可以很容易访问其他能力,另外底层能力接口定义规范,新的能力可以很融入加入里边,现在跟人脸厂商讨论,希望把他们技术引入我们平台上边去。单一能力可能自己做自学、不断优化的工作,在统一平台做一些工作,试图多个出入模块里边,把用户数据进行统一的学习、数据挖掘,提高我们质量。

灵云平台第二个特点是云加端方式,本地处理各自有各自的优点,中国环境不是很好,互联互通问题情况下,除了提供云的能力以外,其实我们也提供本地端的处理方式,可以不依赖于网络,达到更好的可用性和更好响应时间,实际计算处理可以放在本地做,另外一些场景下边云加端识别策略,云识别场景下对于云端,本地端对本地通讯录、本地应用达到更好的识别率,可以进行协同识别策略两边结果进行判断,达到选择更好、更有可能的结果,使用户体验更好。

第三个特点可定制,除了提供公有云以外,可以根据客户需求定制云解决方案,前一段时间给百度定制云合成的私有云,根据他们运维和监控需求,把我们部署结构、日志输出都按照他们要求更改,当然针对其他客户也可以做这样的宏观。模型、音库、模板可以根据特殊领域进行定制,大大提高领域的识别率和合成效果,比如音库可以跟企业合作,为他们专门进行录音,制造专门企业自己用的音符,跟其他声音不一样,这是我们一些特点。

从核心技术方面,主要集中在云交互和图象识别两个方面,后期也跟一些厂商合作,希望将来能够拓展到生物特征识别、人脸识别方面,也把它加入我们应用平台上边去。

语音合成技术是捷通华声做了十多年,现在自然度、流畅度已经很高,我们提供多语种、多音色、多领域的优化,使声音基本上可以很好,这个公司在行业一半的市场份额,大家平时打电话银行、排队叫号好多都是提供服务的。

语音识别方面前期主要做嵌入词比较多,目前我们连续识别达到适用的水平,基本达到90%左右,另外采用图像压缩方式,使识别速度比较快,比较大提高识别率,我们测试结果基本能到41%以上。另外针对云服务收集上来的语料,一直进行模型优化训练,使识别率不断提高。

手写识别技术,行叠写是我们公司率先提出,极大的优化用户无线体验,另外手写技术支持语种非常广泛,目前支持27种识别。光学字符识别本人以前做这方面,近年来随着终端设备越来越强大,摄象头越来越好,实际拍照出来东西对它进行处理,有一些新的挑战,比如光照的影响或者拍的时候角度,包括复杂景物下文字处理,这是十年间做文档类字符识别不考虑,两年前主要做一些工作,主要集中图象识别上,包括证照、票据识别上。

自然语言理解技术,对自然语言进行分析然后进行意图理解,在这个基础上推出像智能客服、手机助手产品,另外也跟车载、智能家电厂商合作,做理解技术包括语音交互的产品。

三、灵云开发社区介绍

灵云平台没有正式的开放,主要销售小范围的推广,一方面不断优化自己的平台结果,增加功能,另外挖掘用户需求,为用户提供更好的服务,经过一年多努力,现在我们也觉得时机成熟了,近期准备计划推出灵云开发社区,在这个场合宣布一下我们开发者社区将于明天向广大开发者全面开放,任何用户都可以登录我们开发者社区网站里边注册用户,下载我们SDK,申请应用进行开发调试,最后申请上线流程我们社区都提供完整的流程,资源互换方式都是可以的。这是一个选择能力的界面,可以看到旁边有云合成能力,里边又分云端能力,本地能力有不同发音,用户自由选择。现在社区里大概400个开发者,包括百度地图用到灵云平台能力,为用户提供手写、语音支持,前一段打车软件,司机客户端收到用户请求的时候都是通过语音播放形式播放给司机听的,吸引更多的开发者把我们应用,带来更精彩的应用。希望桌面或者入口提供更加人性化的交互方式,车载终端可以做语音合成做导航、打电话、控制音箱工作。智能家电也是一样,智能客服提供很多种用户接入方式,电话端、APP、微信多可以支持,我们可以做到文字进文字出,如果语音进可以识别说的话,客户回答可以通过语音合成方式播给你听。

[1]  [2]  [3]  
关注通信世界网微信“cww-weixin”,赢TD手机!
来源:通信世界网   编 辑:高娟
分享到:
       收藏   打印  论坛   推荐给朋友
关键字搜索:捷通华声  
猜你还喜欢的内容
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案
企业黄页
会议活动