也许你还记得影片《人工智能》里能和真人媲美的机器人,他们除了拥有与真人难以区分的完美外形,更拥有甚至能够超越人类的头脑。不知道你是否还记得一个场景,工程师问机器人“什么是爱”,她迅速回答“就是微张我的双眼,让我呼吸急促,体温略为上升……”电影中,智能机器人能迅速识别人类发出的指令,识别“机器眼睛”中捕捉的画面。但是,机器人没有人类所拥有的大脑,也没有上天馈赠的思维,它拥有的只是一个智能记忆芯片。
机器人怎么思考?它们的“大脑”就是我们使用的计算机,接收指令后,它“思考”的过程,就是根据所接受数据在数据库中搜索和分析的过程。现实中,科技的发展远没有达到《人工智能》的程度,但是,数据分析早已经在现实领域得到了广泛应用。搜索引擎就是一个例子,全球最大的中文搜索引擎——百度,已经开始朝着人工智能之梦迈进。
“百度一下”背后的故事
举个简单的实例,如果你百度一下“白加黑”,那么能够立刻得到包含“白加黑”这种药品所有信息的搜索结果,其中既有价格、成分、产地、生产商、相关新闻等直接关联的信息,也会有“感康”“板蓝根”等其他感冒药的关联信息,甚至还会出现“如何治疗感冒”“什么情况容易得感冒”“小儿感冒治疗”等大量信息。
对于用户而言,只是简单地输入关键词,查看结果,然而,背后包含的是“数据分析技术”中的“知识图谱数据分析”技术。什么是“知识图谱”?简单来说,可以理解成为计算机建立的知识体系,它把复杂的知识系统通过它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为数据库创立思维的路径。
所以,当搜索引擎的“知识图谱”越全面越细化,就相当于一个人的知识体系更加完善,搜索引擎也就越“聪明”,为用户提供的搜索结果就有可能越精确。但是,计算机并不会主动思考,如果仅仅有知识库而没有挖掘工具,再多的知识也只能石沉大海,于是,对“知识图谱”的“数据分析”(也就是我们所说的“算法”)就变得尤为重要,有了算法,才能把知识从库存中挖出来,算法越强大,挖掘出来的内容就越准确,越符合用户的搜索需求。
追求极致 百度发起“知识图谱数据分析”竞赛
百度搜索引擎是全球最大的中文搜索引擎,如上面所举 “白加黑”的例子,输入一个关键词,能够呈现出横向和纵向相关联的内容,这其实已经挺聪明。显然,百度永远也不会嫌弃自己的支柱产品更聪明,今年五月份百度开放研究社区将进行“百度知识图谱数据分析竞赛”,目标在寻找精准的算法。竞赛负责人百度校园品牌部石洪竺说:“算法的准确率就像给作文打分,可能永远也达不到100分,但是,要始终向着100分努力,让准确率无限逼近极致。”
比赛的进行方式也很有趣,百度给出了两个任务,分别是“实体相似度计算”和“实体关系推理”。百度针对两个任务各给出了11000个实体,每个实体没有给出名称,参赛者只能看到实体唯一的ID和相对应的十几个描述。
第一个任务,通俗来说,需要参赛者写出自己的算法,根据每个实体对应的描述,配对有关联的实体。例如,“白加黑”和“康泰克”便是一对,因为都是感冒药;“白加黑”和“百度”就风马牛不相及了。第二个任务,则需要参赛者通过算法,根据每个实体的描述找出有关连的实体,并推理出实体之间的关系。例如“汉景帝”和“汉武帝”两个实体,便应该根据描述推理出是“父子关系”。最终,参赛者中,所写算法准确率最高的自然就是胜者。
这个比赛考验的就是对搜索引擎知识库的挖掘能力,挖掘能力强大了,才能够准确识别用户搜索的关键词与知识之间的关系,才能提供更全面的搜索结果。
搜索体验“升级” 识图、识电影、识爱好
数据分析的应用不仅仅在搜索引擎。还是用《人工智能》来说,当机器人的“眼睛”“看见”一个画面,它如何进行识别?这用到的便是“深度学习(Deep Learning)”的图像分割技术,它将画面中的人和物从背景中“抠出”,进行识别,然后去数据库中找到答案。当它“抠”的越细致,那么便意味着识别准确度就会越高,那么搜索结果的准确度也就更高。现实中也有相关的应用,“百度图片”中的“相似图片”功能和“百度识图”就是对这一技术的应用,能够用图片搜图片或是用图片搜信息。重视技术发展的百度同样也有相对应的竞赛来寻找更精准的识别技术。
《人工智能》中,工程师向机器人提问“爱是什么?”机器人他也可能问“你认为什么是爱”或是“爱情怎么解释”。虽然语言表达不同,但是问题实际上是一致的,对应的答案也是一致的。但是,计算机却没有人类聪明,这时候,也需要算法来告诉计算机这几个问题应该对应一致的答案,这样,在我们搜索信息时才能增加效率。百度2013年专门为此发起了“QT语义一致大赛”,这个对人类而言本能的事情,对计算机而言也是一样高级技能。
电影中的机器人还能自主为主人选杂志、电影、运动,其实,通用依靠数据分析,我们的互联网也能做到。你在搜索引擎中输入的关键词其实显示了你的兴趣爱好、生活状态,你浏览的网页、网络社区中的朋友、发布的内容同样能够说明这些。根据用户提供的海量信息,利用算法,便能分析出你可能对什么电影感兴趣从而推荐给你。百度去年办了电影推荐算法大赛,也许之后还会有杂志推荐、运动推荐、商品推荐等等。
《人工智能》中能思考、能工作,甚至拥有情感的机器人也许只是科幻片中的主角,但是,其背后的数据分析工具已经不是一个遥不可及的技能。现实生活中,我们的互联网已经进入了智能时代,能够识别我们提供的词汇、句子、图片,并在努力让自己的识别变得更加精确。也许,就在不远的未来,“人工智能”将变为现实。
|