首页 >> >> 信息发布 >> 正文
挺近千亿俱乐部背后:百度葡语搜索的新“土狼”打法
通信世界网 http://www.cww.net.cn 2014年7月28日 10:54
标签:百度葡语搜索
 

日前在国家主席习近平和巴西总统迪尔玛•罗塞夫共同见证下,百度高调推出葡语搜索进军巴西市场,这是百度继泰语搜索、阿拉伯搜索后的又一非中文语种搜索。随后几天,百度发布超预期的2014年Q2财报,双重利好引发股价一路飙升,市值已近800亿。

百度股价一路飙升,市值市值已近800亿。

一名贴近葡语搜索的百度攻城狮告诉笔者,我们用的是“土狼”打法,现在百度从数据收录到效果验证,只需3到4周便可推出一款新语种搜索引擎,阿拉伯、泰语和葡语之后,百度可快速且用很少资源推出更多外文搜索或者少数民族语言搜索。

看来,在推出一个又一个新语种搜索后,依靠此前的技术沉淀再结合“土狼”打法,百度势必将会拿下越来越多的“新大陆”,而这也可能助力百度以更快的速度挺进市值“千亿俱乐部”。

新“土狼”打法背后的Rank技术

搜索引擎是十分复杂的系统,但流程又可一句话说清楚:收录WEB数据,接入结构化数据,构建索引;理解用户搜索需求,查询索引找到一堆结果,排序并进行输出。

数据处理和用户需求理解靠的是NLP(自然语言处理)。经过十多年演进百度NLP技术已经处于国际领先水平。而百度WD团队则负责接入结构化数据、组织全网资源。还有一个关键环节并且是离用户最近的环节同样十分重要:RANK。

RANK排序是计算机算法里最重要的分支,也是搜索引擎最重要的环节。早期搜索引擎比拼结果集大不大(召回率),响应时间快不快。人类进入信息过载时代后,尤其是移动搜索的崛起则让搜索结果准不准成为最重要考量。“准”,即结果与用户需求的相关性。NLP理解用户需求,WD准备数据,决定结果相关性的是RANK策略。

整个搜索引擎技术体系就像一支足球队伍,排兵布阵上需要后卫、中场和前锋,如果说NLP/WD等部门是后卫和中场,那么RANK就是前锋。一场足球比赛的胜利,固然需要后卫们坚固的防守和中场灵巧的组织协调,但是想最终赢得比赛,最需要的还是前锋的冲锋陷阵。

作为支撑数亿用户的搜索引擎,百度RANK策略十分复杂和智能。但要理解RANK并不困难。通过海量参数和权重对不同结果的相关性进行打分,分数高的排前面。参数是文本相似性,语义相关性,用户特征,搜索历史,甚至用户位置。总之,RANK要做的便是让最前面的结果最接近用户彼时的搜索需求。

进军新语种 RANK的快与准

百度RANK部门为了更好支持国际化,对原有架构进行深度重构,实现了对新语种的即插即用。能做到这点与百度RANK新技术有关。RANK算法本身也在智能化,在国际化这块RANK部门利用内部代号为LTR的机器学习技术,对排序模型进行改造,包括样本训练,样本数据,本向算法和调优,都进行了深度改造。排序模型则面向不同语种自我进化。

在中文上,百度RANK能够根据不同用户、不同位置、不同时间等特性反馈个性化的结果排序,面向场景的RANK技术使得每个用户在不同结点都能找到自己想要的。譬如用户平时搜“马航”,一年前最可能想买马航的机票,了解航班和折扣信息,现在搜“马航”,用户就不大可能是买机票而是看新闻。但是这些例子是不能穷举的,海量搜索需求对应海量场景,因此百度工程师不可能穷举每一个场景进行算法优化,只能让RANK模型自我学习,智能起来。

实际上,百度RANK系统正是深度学习的智能系统,进入一个新语种搜索后,工程师把相关语料训练好,相关label标注好,放到RANK模型里自动训练后相关性效果非常好,在充分考虑国际化的RANK架构支持下,百度中文搜索的一些特有内容已经被集成到最新版的葡语搜索:直接在结果页展示表单、排序和筛选控件的知心搜索,直接在结果页面播放视频的直达搜索。不同用户,不同时间,不同场景搜索到的结果都不一定相同,随需而变。

让RANK在不同语种下智能化理论上是可行的。百度首席科学家吴恩达曾带领团队利用深度学习技术自动识别猫,要用深度学习让机器理解一门新的语言自然不在话下,目前百度RANK团队里没有葡文,泰文等语言专家,但对应搜索的相关性做得特别好,而RANK能够继续生效就在于深度学习排序技术的成功应用。

百度海外土狼战术鏖战Google

自从李彦宏在2012年底提出狼性之后,2013年百度种种动作已在体现其狼性文化,而在海外市场上,百度就要做一头土狼去抢食Google市场份额。土狼战术被华为证明。华为的国际化采用“农村包围城市”,先易后难,首先进入香港,然后是俄罗斯。1997年,华为进入非洲市场,紧接着是拉美和东南亚,最后是欧洲腹地和美国,就像中国解放后的外交战术。现在百度则是先打阿拉伯,泰语和葡语,日后再继续从“农村”包围欧美等Google腹地市场。

在五年前百度和谷歌曾在中国正面交锋。两个搜索引擎有着不同思路,百度更重视结构化数据,有阿拉丁计划,同时强化UGC频道如知道、百科和贴吧,Google过分信仰和依赖技术导致其对数据和运营的轻视。结果便是百度搜索结果页面内容更加丰富多元,有直达、知心、百科结果。现在百度搜索结果页右侧则是知识图谱应用,结合用户需求和结果数据挖掘相关知识并展示出来,从各种CASE来看百度知识图谱效果已经比Google更强。这说明百度RANK,WD,NLP等技术团队已经联手成功狙击Google,就算Google不退出中国,就算Google重返中国,依然打不过百度。

百度与Google再次在海外市场狭路相逢,在新语种上百度用类似思路逐个击破。譬如以知识图谱为例,巴西百度一方面与大量第三方合作接入结构化数据,另一方面在垂直类目上开展了大量的实体挖掘、清洗和合并工作,这样在短短的半年时间内便上线了几十个垂直类目、积累了几千万实体数据,从而在实体覆盖面上将google远远甩在了身后。因为Google面向全球市场,自上而下、全面覆盖。在战略上铺得太开只能打大战,百度则是逐个击破,是打游击战的土狼思路。在技术上Google倾向于通用方案以低成本,高效率覆盖,百度则在每个本土市场推出本土化的产品并精耕细作。在运营上尤其是数据运营一直是Google弱项,百度擅长。

即便Google已有先发优势,百度还是可凭借着垂直和本土策略攻破一个个海外市场,最终再到英文市场与Google交锋是大概率事件,那时候两个搜索巨头之争将更加好看。通信世界网

 

来源:互联网
相关文章
 
文章评论
 
    昵称:  验证码:
 
关注通信世界网
 
 
官方微信
“cww-weixin”(或扫描下图二维码),即可于获得独家的CWW视点分析、最新的通信资讯。
 
 
专家观点
4G时代当无线网络遇..
今年2014年GSMA亚洲移动通信博览会期间,孙曦光在接受媒体专访时表..
 
 
最新专题
  • 1

  • 1

  • 1

  • 1

通信百科
 
华为IDC/ISP信息安全管理..
IDC需要加强信息安全管理互联网接入服务管理是互联网管理的重要组成部分..
 
 
 
新浪微博 腾讯微博 微信 rss
人民邮电出版社
工业和信息化部
人民邮电出版社图书专营店
中国通信企业协会
中国通信学会
中国互联网协会
无线电频谱管理中心
工业和信息化部电信研究院
中国通信标准化协会
中国移动通信联合会
中国邮电器材公司
中国电信
中国移动
中国联通
中国信息协会信息服务网络委员会
爱购服务器之家
新浪科技
搜狐IT
腾讯科技
凤凰网科技
人民网无线频道
中国通信网
移动Labs
中华电子网
通信产业网
企业网
In-Stat
IT价值联盟
中国软件资讯网
通信人才网
慧聪通信网
CTI论坛
CIO选型网
CTO技术网
美通社
赛立信竞争情报网
CRS通信学社
ZDNet至顶网
和讯科技
博趣·兴趣门户
呼叫中心频道
运营与增值
信天下企业短信
新电子
OFweek光通讯网
中云网