|
云云搜索正式上线 刘骏称差异化实现颠覆
http://www.cww.net.cn 2012年12月19日 07:07
云云搜索创始人刘骏 幼狮、幻影、雷电、米格……如果不是军事迷,可能很难马上意识到这几个词组之间的内在关系——实际上,他们代表的均是各国的知名战斗机。而这也是云云搜索(yunyun.com)所有内部会议室的名称,看起来就像是承载了某种成为“战斗机”的期冀。 差异 2010年,从谷歌中国网页搜索研发负责人任上离职的刘骏,带领十余名谷歌工程师,一起开始云云搜索的创业。关于搜索,刘骏一直有个想法。 谷歌不是第一家搜索引擎,但却通过在算法中引入网页之间的关系(PageRank),在搜索领域掀起一次革命。在刘骏看来,这之后再没有大规模提高搜索质量的技术出现,整个行业基本上处于维持状态。搜索该如何进化,下一代搜索引擎会是什么样? “继续往前需要把人的因素加进来”,这是刘骏想要的结果。相对而言,搜索引擎不是轻创业,以至于前两年云云搜索一直都在搭建基础搜索体系,直到今年初,云云搜索才确定以何种方式将与人有关的“信号”与搜索体系结合起来。 昨晚(12月17日),经过半年多的内测,云云搜索正式上线。 与一般搜索引擎不同的是,注册用户(或者使用五家合作伙伴帐号)在云云搜索登录后,每个人都会得到一份不同的搜索结果,与社交结合的个性化结果。以关键词“泰囧”为例,某个页面社交网络上分享的人越多(尤其是你关注的),排名就越靠前。 刘骏从四个角度阐释不同:相关性层面,社交信号的引入提高了可信度;覆盖率层面,搜索结果提供的内容范围进一步丰富;时效层面,解决了搜索引擎对即时内容抓取呈现缓慢的难点;体验层面,增强了用户的搜索参与感。 “我们的时效性好一个数量级”,刘骏对新浪科技说质量是搜索的关键问题,他笑称自己通过云云搜索找到了很多原来不知道的东西。 试错 从想法到现实,是一个坎坷的过程。对于云云搜索团队而言也不例外。在把社交内容引入搜索的过程中,至少有两个最具代表性的难题。 第一个难题是关联。对于云云搜索的模式而言,既要处理来自社交网络的大规模实时数据,又要把这些实时数据和成千上万的网页关联起来。“这需要一个巨大的数据处理能力”,刘骏说其中的困难不是小规模实时数据处理可以比拟的。 第二个难题是结果变化问题。一个用户在社交网络中关注了多少人,这些人都发出了什么样的内容,全部都是处在无法预测的动态变化之中。而云云搜索正需要从这些动态内容中寻找结果,常见的缓存处理模式在这个过程中完全失效。 “一开始性能很糟糕”,刘骏回忆说当时要花费5~6秒的时间才能返回搜索结果,云云团队最初也对需要处理的数据量估计不足——有20%的搜索结果,会出现社交网络上的内容。解决这一问题需要对算法和机器架构进行改造。 5~6秒的时间,需要缩短到100~200毫秒。 改进的方法之一,就是采用闪存取代硬盘作为存储介质。硬盘的随机读写速度约为每秒50~60次,而闪存的随机处理速度可以达到每秒两三万次。 [1] [2]
来源:新浪科技 作 者:孟鸿编 辑:赵宇 联系电话:010-67110006-864
猜你还喜欢的内容
文章评论【查看评论()】
|
企业黄页 会议活动 |