首页 >> 通信新闻 >> 互联网 >> 正文
 
云云搜索正式上线 刘骏称差异化实现颠覆
http://www.cww.net.cn   2012年12月19日 07:07    

云云搜索创始人刘骏

  云云搜索创始人刘骏

幼狮、幻影、雷电、米格……如果不是军事迷,可能很难马上意识到这几个词组之间的内在关系——实际上,他们代表的均是各国的知名战斗机。而这也是云云搜索(yunyun.com)所有内部会议室的名称,看起来就像是承载了某种成为“战斗机”的期冀。

差异

2010年,从谷歌中国网页搜索研发负责人任上离职的刘骏,带领十余名谷歌工程师,一起开始云云搜索的创业。关于搜索,刘骏一直有个想法。

谷歌不是第一家搜索引擎,但却通过在算法中引入网页之间的关系(PageRank),在搜索领域掀起一次革命。在刘骏看来,这之后再没有大规模提高搜索质量的技术出现,整个行业基本上处于维持状态。搜索该如何进化,下一代搜索引擎会是什么样?

“继续往前需要把人的因素加进来”,这是刘骏想要的结果。相对而言,搜索引擎不是轻创业,以至于前两年云云搜索一直都在搭建基础搜索体系,直到今年初,云云搜索才确定以何种方式将与人有关的“信号”与搜索体系结合起来。

昨晚(12月17日),经过半年多的内测,云云搜索正式上线。

与一般搜索引擎不同的是,注册用户(或者使用五家合作伙伴帐号)在云云搜索登录后,每个人都会得到一份不同的搜索结果,与社交结合的个性化结果。以关键词“泰囧”为例,某个页面社交网络上分享的人越多(尤其是你关注的),排名就越靠前。

刘骏从四个角度阐释不同:相关性层面,社交信号的引入提高了可信度;覆盖率层面,搜索结果提供的内容范围进一步丰富;时效层面,解决了搜索引擎对即时内容抓取呈现缓慢的难点;体验层面,增强了用户的搜索参与感。

“我们的时效性好一个数量级”,刘骏对新浪科技说质量是搜索的关键问题,他笑称自己通过云云搜索找到了很多原来不知道的东西。

试错

从想法到现实,是一个坎坷的过程。对于云云搜索团队而言也不例外。在把社交内容引入搜索的过程中,至少有两个最具代表性的难题。

第一个难题是关联。对于云云搜索的模式而言,既要处理来自社交网络的大规模实时数据,又要把这些实时数据和成千上万的网页关联起来。“这需要一个巨大的数据处理能力”,刘骏说其中的困难不是小规模实时数据处理可以比拟的。

第二个难题是结果变化问题。一个用户在社交网络中关注了多少人,这些人都发出了什么样的内容,全部都是处在无法预测的动态变化之中。而云云搜索正需要从这些动态内容中寻找结果,常见的缓存处理模式在这个过程中完全失效。

“一开始性能很糟糕”,刘骏回忆说当时要花费5~6秒的时间才能返回搜索结果,云云团队最初也对需要处理的数据量估计不足——有20%的搜索结果,会出现社交网络上的内容。解决这一问题需要对算法和机器架构进行改造。

5~6秒的时间,需要缩短到100~200毫秒。

改进的方法之一,就是采用闪存取代硬盘作为存储介质。硬盘的随机读写速度约为每秒50~60次,而闪存的随机处理速度可以达到每秒两三万次。

[1]  [2]  
来源:新浪科技   作 者:孟鸿编 辑:赵宇    联系电话:010-67110006-864
分享到新浪微博 分享到搜狐微博 分享到腾讯微博 分享到网易微博 分享到139说客 分享到校内人人网 分享到开心网 分享到QQ空间 分享到豆瓣 分享到QQ书签       收藏   打印  论坛   推荐给朋友
关键字搜索:谷歌  刘骏  搜索  
猜你还喜欢的内容
文章评论查看评论()
昵称:  验证码:
 
相关新闻
即时新闻
通信技术
最新方案

企业黄页
会议活动