作 者:CWW
通信世界网(CWW)5月17日消息,“2008世界电信和信息社会日”大会在北京国际饭店隆重举行,通信世界网作为直播媒体,将对本次大会进行全程深入报道。
中科院计算所计算技术研究所智能信息处理研究部主任陈熙霖博士做了题为“手语交互,沟通言行”的主题演讲。
下为文字实录:
陈熙霖:谢谢主持人,谢谢大家!上午好!
首先,我非常感谢大会给我们提供了这样一个机会,这个机会不是给我,而是给残疾人。我们做我手语已经很多年了,我们从92年开始做这个工作,到现在为止已经16、17年了。我们非常高兴在这个过程当中,对于残疾人的关怀,整个的社会在不断地进步。所以,这个社会已经有了一个很大的进步而且残疾人的生存环境得到了极大地改善。所以,非常感谢大会给我们这个机会。
图为中科院计算所计算技术研究所智能信息处理研究部主任陈熙霖
下面,把我们相关的工作和工作的近况做一个汇报,汇报的题目叫做“手语交互、沟通言行”。我们平常的沟通都是用语言和手语来的。大家过去都说十聋九哑,因为教育的限制使得聋人的语言没有得到开发,所以我们要帮助残疾人。
为什么讲信息无障碍?因为人类社会从最早的石器时代到青铜器时代,到电器时代到现在的信息时代,早期我们并不关心信息,为什么不关心?本身信息的语言很少,第二个信息本身在生活当中没有达到一个重要的程度。那么,现在我们回想一下这10年,如果大家还记得的话,99年我们的新闻媒体大肆报道的一件事,叫做72小时网络生存试验。当时,把这些人关在一个屋子里面,给你一台机器和一个网络,看这些人会怎么样。当时有很多人通过了这个测试,但是现在我们对于这个网络产生了很重要的依赖。我不知道在坐的人有多少有这样的问题,但是我有这样的问题。假如有一天我不收邮件,我真的心里发慌,即使是渡假,无论是找别人借一个环境,还是找一个网吧,我也要看一下邮件。我们已经产生了对于网络和邮件的依赖。
早期我们说这个是斯坦福综合症,80年代的时候谈斯坦福综合症觉得很遥远。但是,我们现在上网的人当中多多少少有这样的问题。但是从另一个方面来讲,这也反映了信息对于我们的重要性。我们可以一个星期足不出户,我们可以通过网络订机票、订餐,一个星期的事情可以在网络上搞定。
那么从06年的统计数字来看,在这里面肢体残疾的残疾人,大概占到所有残疾人数量的30%。但是对于信息获取障碍和交流障碍的残疾人,大概占到了40.55%。那也就是说,在现在的信息社会,信息如此重要但是这些人如此困难。比如说对于残疾人来讲,我们知道现在面临着对于日常生活来讲,可能衣食住行,那么衣食住是大家少不了的,那么从行的要求来讲,我们大概出去办事,不如坐在家里办得好。我们坐在家里,坐在网络前面。我不知道多少人还逛书店,还有多少做研究的人去图书馆。我遇到无数的学生都问我,陈老师,你们那么时候没有网络怎么办?我说去图书馆,但是现在很大程度上图书馆成为了藏书馆,这就是信息社会造成的。
那么,现在像残疾人,比如说肢体残疾和视力残疾的人都可以用语音辅助工具帮助。但是,对于听力和肢体残疾的人,对于他们需要用手语和文字。我想大多数的人看字幕的时候,由于人的眼睛的特殊的结构,所以你盯着字幕的时候,你看很多的东西看不到。第二个,和残疾人做手语的时候,发现手语的速度几乎是相当,但是文字却慢得多。所以,这是手语我们要做的工作很重要的原因。
那么,我们试想,我曾经有这样的感慨,但是也是跟很多的同事开玩笑,我说残疾人的数量少,因为大家都见不到。但是,到国外在大街上你可以看到很多很多的残疾人。我跟他们开玩笑说,那些国家的残疾人太多了,但是实际上是我们无障碍的设施缺乏了。比如说我们残疾人就医的问题,可能对于很多言语残疾人来讲,不到万不得已他不愿意就医。反过来讲,如果我们把手语的工作做好,让它能够和医生简单地进行交流,那么会简单得多。我们现在的手机已经无处不在了,但是我们如何把手语还有语音识别结合起来,让残疾人可以在手机上看到对方这是非常重要的事情。
那么,手语的识别,尽管国际上包括国内我们做了十多年了,但是这项工作仍然是非常有挑战性的,或者这么讲,是在一个小范围内能够使用的工作,还需要大家坚持不懈的努力。我们希望再有3到5年,能够把手语识别真正地推向市场,使得他们能够获益。
差不多从1983年开始,这是第一个数据手套的专利。当时是用纤维做了传感器,能够识别70多个单词。那么,这是新南威尔士大学的作为手势输入设备,实现了95个手势词的识别,正确率达80%。在没有真正推广以前,手语的方言和我们正常语言的方言差不多,不出市不出省。现在随着手语方面的普及,标准的手语语言提高了很多。
像乔治华盛顿大学它也把手语分成了手形、方向、位置等等做到了100多个单词。
除了国外之外,国内也有一些像自动化所等等做一些数据手套,那么我们自己做手语做了十多年,我们现在做的手语识别是国际上词汇量最大的。所以,国际上所有做手语识别的文章,都是以我们的工作为基础的。除此之外,还有其他的机构也在做,包括清华等等。
但是手语视频很容易中断,所以我们很想像正常人一样可以工作,所以想到了把摄像机戴道头上,但是这是从头顶上看,但是我们看手语实际上是从对面看,所以实际上从对面看才是最佳的角度。
那么在应用上,实际上日本的日立在96年的时候,把日本手语的识别和合成结合起来,做过一个自动售票的查询系统。那么,这是已经有应用的。另外,IBM实际上在去年,我不知道IBM的同仁知道不知道,IBM07年自己做了一个SiSi的系统,但是现在没有中国的手语。但是我们做的手语系统,我们向1300多个手语学校发放。包括有一个光盘也是我们推荐的,是用来推广手语普通话的工作。
我们的手语大概有550个手势词,另外包括了30个手语的字母和声调,那么还有手语分成了象形和会议等等。那么,这是正常人,这是手语人员,我们希望把语音通过手语合成的方式,前面的工作我们并不做,我们主要是做手语合成。让残疾人可以理解正常人的表达,反过来残疾人通过手语可以被普通人理解,转化成语音和文字。
那么,中国人的手语在配合的位置、动作、手形、朝向已经可以表达,但是为什么有棉布表情?因为这可以提高我们识别率大概20%到30%。那么,做这样的工作,我们前后做了两件事情,第一个事情是数据手套,加了一个摇控器。第二个我们用视觉的办法来做。
整个的识别流程包括手语动作、摄取、快速配备文本。那么,这是一个数据的一段话的流程图,这一段话里面有121桢,所以可能是10的8次方,那么如何做可能是很大的挑战。另外一个是手语的长度,简单地说一个房子,就是这个手势。那么,坐井观天就是这个手势。所以,长度是不一样的。那么,针对长度不一样的情况,匹配是一个需要解决的问题。这里,我给大家看一段视频,这是一个手语的识别过程。这是最后识别出来以后,通过语音合成软件,这个合成软件不是我们做的。
除此之外,由于手语的手套价格昂贵,而且容易损坏,所以我们做了基于视觉的手语识别,这相当于我们从两个摄像机看,它至今形成了一个对应关系。那么,如果它是符合这个对应关系,我认为这是同一个动作,那么如果这样的话,特征的匹配是一个非常复杂的过程。这方面,我们已经做了差不多做的3年了。实际上,它本身的过程就是把一个三维的动作,通过两个机器做匹配的问题。