十年前,第一次做个人网站时,就见识了robots协议的厉害,因为没有上传robots协议文件,网站的管理后台页面都被谷歌收录了,由于当时初出茅庐不注意隐私保护,为了方便自己登陆后台管理维护,就把用户名和密码都加了和页面背景色一样的颜色,每次登陆只需鼠标一滑,就可以拷贝到密码框里。被搜索引擎收录后后果可想而知。从此,养成了无robots文件不做站的习惯,也对robots协议渐渐有了更深刻的理解。
就像酒店提供的“请勿打扰”标牌,如果不想被服务员敲门甚至擅自推门进来打扫卫生,最直接的办法就是把这么个标牌挂到门外把手上。
如果哪个服务员对标牌视而不见,打扰了我
们的正常居住,那是必然要投诉一把的。当然,这只是举个例子而已,哪怕再没有素质的服务员也不可能故意给自己和别人找麻烦。
可是,在互联网这个大酒店里,却偏偏有这么一个愣头青服务员,光天化日的就无视“请勿打扰”的robots协议,冒天下之大不韪,去收录人家不允许收录的内容,人家把他告了,它还振振有词,死不悔改,仍然我行我素去抓robots协议明文禁止的内容。
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)由荷兰籍网络工程师Martijn Koster 于1994年首次提出。作为国际互联网界通行的道德规范,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
这种协议可以说对网民和互联网公司都是有利无弊,毕竟,没有隐私的互联网无异于不穿底裤裸奔。可是,偏偏有一些搜索引擎界后来者中的偷窥狂和露阴癖怀揣不可告人的动机去抓取被robots协议禁止抓取的信息,实乃是人人喊打的过街老鼠。
早在2012年,百度、360、搜狗等12家搜索引擎服务企业在北京签署了《互联网搜索引擎服务自律公约》。公约规定,对于本公约公布前违反robots协议抓取的内容,在收到权利人符合法律规定的通知后,及时删除、断开侵权链接。
然而,就是带头签署这份公约的前两家公司,却一个成了受害者,一个成了被告。
两年前的夏天,360推出独立搜索,搜索结果中包含着百度百科、百度知道等多个百度产品内容。当时,百度公司就表示,奇虎360违反Robost协议抓取大量百度内容,要求360遵守Robots协议停止收录使用百度产品的信息内容。
后来,工信部和互联网协会多次进行协调,并组织对搜索引擎自律公约、尤其是Robots协议进行研讨。这也就有了上文所说的包含百度、奇虎等互联网公司(包含搜索引擎和内容网站)共同签署《互联网搜索引擎服务自律公约》一事。当时,各家搜索厂商一致表示认可并遵守。
然而,在行业明确了Robots协议的有效性后,奇虎360却改变观点,认为百度设置Robots协议不合理,唯独对奇虎360搜索引擎进行排斥。百度则保持之前的观点和诉求,要求360遵守Robots协议停止使用百度产品的信息内容,坚持认为百度设置Robots协议具有合理正当的理由,面向市场主流的搜索引擎都开放,奇虎搜索上线后违反百度在先设置的robots协议违规抓取收录了大量百度产品内容,在此之前从未和百度沟通申请开放robots,这种行为构成侵权,应当立即停止侵权行为。
再后来,虽然互联网协会又进行了多次调解,但是涉及到双方核心利益,无法达成妥协方案。目前360依然没有遵守Robots协议,继续违规抓取收录并使用百度产品内容。双方争议已经进入法律诉讼途径,宣判也该快有动静了。
这个例子之外其实还有很多故事,比如自360搜索推出以来,其违反robots协议,窥探用户隐私的问题屡屡遭到各方的质疑和反感。曾有微博网友zeracker指出360抓取用户账户、密码及订单、优惠码等信息,并晒出图片,让360浏览器抓取很多国内知名网游的后台订单、优惠码等敏感记录的行为尽显无遗。
更让人吃惊的是,360的抓取不仅让用户账户信息存在风险,邮件等信息也难逃厄运。细心的网友发现在使用360搜索时,360搜索居然会抓取IBM lotus domino 邮件系统后台和个人邮件文件存储地址。360违反robots(拒绝抓取)协议的抓取行为,将使用户邮件信息的内容,可以被搜索引擎抓取,更可以被网民搜索。
在360搜索违反robots协议的抓取下,不仅用户隐私受到威胁,公司的商业机密更是无法保证。IBM国际商业机器中国有限公司的黑客老鹰在微博中指出,360搜索能抓取公司内网信息,而这些信息在正常状态下仅能通过VPN+动态口令才允许访问。这也就意味着公司所有的内部信息、商业机密等将在360面前暴露无疑。随后该微博立刻被删除,不禁让人猜测,该微博碰到了360的痛处。
当然,这些故事大家可能早就有所耳闻,但之所以这里再次引用,为的就是警钟长鸣,提醒大家时刻注意防护好自己在网上的底裤,且不要被过街老鼠窥探到隐私。尤其是做网站的,不管是大公司的CEO,还是个人小站长,切不要做人人喊打的那一类生物。
|