编者按:回顾2013,智能语音热潮整整嗨了一整年,最终以工信部牵头主办的中国语音产业联盟年会为此画上了一个圆满的句号。然而2014年国内整个语音产业开局却显疲软,热度呈下滑趋势,而智能图像、人工智能等新概念却逐渐兴起,为何?
一波三折的“智能语音”热
早在2013年底中国语音产业联盟年会上,北大信息技术学院智能科学系副主任吴玺宏教授就已抛出了“随意说”一词,他说:“现在的语音识别是否能在噪音环境中优先识别人声?是否真正能达到语义理解?……”并且着重强调产业界切勿过早过度宣传“语音识别”准确率、“语义理解”等大词,这容易拉高用户的期望值,其实对产业的发展有阻碍作用。而清华大学郑方博士也对北大观点给予了支持,表示产业界切勿过早热炒“语义理解”等热词,在语音热潮背后更需务实,技术与宣传应保持一致;同时也建议政府多多支持中小型创新企业,强调好点子多来自中小型公司,对于中小型企业而言没有创新突破就意味着马上被市场淘汰,生存就是一个很大的问题,而大公司可能更多地需要照顾整体发展,创新进度相比之下较慢于中小型企业。此外,也希望加强学院与产业的合作,政府给予支持,以此吸引流失在外的尖端科技人才回归祖国。
果不其然,一语成谶,一大批新兴智能语音技术公司拔地而起,拥挤进智能语音圈,百度、腾讯、谷歌、微软等大公司也纷纷进入这一领域,整体看上去一片大好的景象,然而实际情况却不容乐观。从用户的使用率和体验评价可以看出,大多数移动端和其它硬件上的智能语音交互功能基本还是一个你有我也有的“摆饰”,就连最著名的苹果Siri的使用率也低至15.2%。
进入2014年后,随着人工智能概念的崛起,语音热潮暂时脱离了大众和媒体的关注视野,这股热潮也随之“又”再次落去——之所以说“又”,是因为智能语音热潮早在几年前就已经历了几次起起落落,因此有专家笑称“智能语音五年火一次,经历着‘热一阵、死一阵’的轮回。”
追其原因,高AI智能语音的实现还是一个任重而道远的梦想,除了用户数据积累等技术因素,语音识别率、用户习惯与对智能语音单方面的理解仍然是不得小视的问题。
那么,借鉴国内最高学府两位教授的劝言,国内又有多少企业接纳并实行了以上建议了呢?
“ASR+TTS”智能语音的完整组合
作为国内智能语音圈数一数二的语音技术服务商捷通华声在中国语音产业联盟年会结束后,审时度势,借助在京城中关村软件园的“地利”之势以及核心团队人员来自清华大学的“人和”关系,积极联动清华学府,并成功吸引清华大学注资捷通华声,成为第二大股东。更重要的是捷通华声得到了清华大学的长年积累研究的学术和技术支持,打通了国内产、学、研三派互通有无的“任督二脉”,也成就了“TTS+ASR”双剑合璧的灵云智能语音完美展现。
纵观国内外语音产业发展规律,生存下来的企业无外有几种方式,国外首推美国Nuance,伴随语音产业的发展规律,通过全球范围不断的兼并,Nuance形成全球范围内的垄断得以生存发展。国内企业则以讯飞、捷通华声为代表,两家公司均以高校为支撑,捷通华声依托清华大学、讯飞依靠科大;讯飞长于调动各种社会资源,高打高唱;捷通华声相对低调,以务实为本,强调合作共赢。三家公司虽各具特点,却有一个共同点,均以TTS赢取市场与利润,ASR多为企业品牌知名度服务。国外语音市场相对成熟理性,Nuance经过不断的收购扩大实力,但终于在苹果Siri的高潮过后,先后传出将要被苹果、三星收购的传闻。如果Nuance出售收购,多少也标示着智能语音经过几起几落发展之后,进入到一个相对理性的发展阶段,也预示着人工智能一个新的时代的开始。
捷通华声虽为国内的老牌语音技术服务商,早在三年前即推出国内外第一个全方位人工智能技术云服务平台灵云(www.hcicloud.com),智能语音则为其人工智能整体布局中关键一环。
在这里不得不提的是,智能语音交互技术涵盖语音合成(TTS)和语音识别(ASR)两项技术——而2013年整整一年都在炒作语音识别——捷通华声灵云以支持13种国际语言的语音合成技术在国内独占鳌头,虽然语音识别技术在2012年的时候还稍逊于国际IT巨头Nuance、Google,但是在自2013年后,借助清华的力量,语音识别技术突飞猛进,迅速实现商品化,具有中国特色的汉语言智能语音体系崭露头角,灵云语音合成与语音识别相辅相成,形成一套完整的智能语音解决方案,目前已应用于国内众多产业中,并加速布局移动互联网应用。现在,灵云智能语音已成功为百度地图、搜狗导航、导航犬等经典应用提供语音服务。伴随灵云语音识别技术的升级,灵云语音技术在语音质检领域也取得突破,将帮助电信、金融等领域的企业大大提升客服的服务质量和效率。
捷通灵云智能语音交互技术目前已在全新改版的灵云全方位人工智能开放平台上免费开放,可供开发者、企业自由调用,而除了“TTS+ASR”双剑合璧的特性外,捷通灵云智能语音还提供“云+端”服务,既可提供私有云服务器解决企业内部服务器运行压力,也可以派遣专业技术人员前往企业内部搭建私人定制的智能语音技术平台,并且永久跟踪服务,响应及时,无后顾之忧。
壮志灵云,开启人工智能新时代
作为国内老牌语音技术民族企业,捷通华声立足智能语音,全面发展图像识别(OCR)、手写识别(HWR)、自然语言理解(NLU)、机器翻译(MT)等人工智能技术能力,率先突破传统语音范围,形成独特的“全智能”效应,2011年,捷通华声全面整合具有自主知识产权的多项智能人机交互技术,突破性地创建了第一个最大最全的人工智能技术云服务开放平台——灵云(www.hcicloud.com),率先拉开了中国人工智能产业化的大幕!
2014年伊始,人工智能在几大互联网巨头的推波助澜中成为产业焦点,而智能语音则为人工智能领域中不可或缺的组成部分。人工智能是一个由浅入深的智能化模型、机制和过程,智能语音处于较浅层次上;在深层次上,人工智能意味着基于机器学习技术的知识表达、归纳、推理等智能计算过程。可以说智能语音等人机交互技术是人工智能的触角,智能计算是人工智能的核心,二者缺一不可,共同组成一个智能网络。在清华大学各人工智能顶尖学科团队的支持下,捷通灵云智能语音等人机交互能力更加成熟。灵云语音识别,采用最新深度神经网络算法技术,识别准确率突破95%;语音合成方面,捷通灵云在国内率先推出支持中、英、德、法、阿拉伯等多达十三种国际语言的语音合成技术服务,在国内智能语音服务达到了50%的市场占有率,而灵云智能语音“TTS+ASR”使人与机器之间“说与听”两项能力的强化,让人与机器的自然交流变得更加通畅。
灵云OCR与手写识别等智能图像识别技术,又犹如人的“眼睛与手”。目前灵云手写识别已能够识别92种国际语言;灵云OCR更是在文档、票据、证照识别领域中异军突起,保证灵云智能平台拥有更全面的“视觉与感观”能力。
人类无论用语音交互还是通过文字传递信息,其获取信息的目的都是为了在相互理解之后进行彼此的沟通。灵云智能平台近日全面升级并推出的语义分析、意图理解及机器翻译,进一步推动灵云向人工智能更深层次发展,不仅让灵云“能说会听”、“能写会看”,也开始学会如何思考。如今,通过灵云语音识别不在仅是听懂人的话,同时能够对所识别出的文字信息进行分析理解,然后应用灵云语音合成技术将所要表达的信息以语音方式朗读出来,从而实现人与机器交流的一个完整应用过程。
随着人工智能在互联网产业中关注度越来越高,人工智能似乎一夜间成为产业的热点,捷通灵云智能平台凭借对人工智能产业发展的独特理念与执着信心,终于逐渐显现出其超前的魄力的魅力。
捷通华声创始人张连毅表示:“灵云智能平台的创建,不仅有力推动智能语音等人机交互技术在中国的发展与普及化应用,也改变了智能语音产业发展的趋势。伴随产业的需求变化、技术的跨越式进步,在清华大学的支持下,灵云智能平台已成功完成向多模态、全方位人工智能云平台的升级与发展。如果说捷通华声是中国人工智能产业的倡导者,那么捷通华声灵云智能平台就是中国人工智能产业的开拓者。”
|