大数据，为什么不是宣扬的那样精彩？_云计算

大数据，为什么不是宣扬的那样精彩？

http://www.cww.net.cn 2013年7月29日 14:52

人权组织也指望利用大数据来帮助理解冲突和危机。但同样存在数据与分析的质量问题。迈克阿瑟基金最近为卡耐基梅隆大学的人权科学中心提供了为期18个月17500美元的资金，用于调查大数据分析如何改变人权实情调查，比如通过“可信度检验”对来自危机地图仪Crisis Mappers, 目击者Ushahidi, 脸谱Facebook，YouTube等网站的声称侵害人权的事件进行分类。中心主任Jay D. Aronson指出“研究机构和人权组织使用数据时，出现了严重的问题，对数据来源钡有责任。很多情况下，报告事情的人们的安全是否由于新技术的应用而进一步得到保障还是因此受到威胁，并不清楚。”

“大数据不存在不同社会团体间的歧视。”

很难。大数据声称客观性的另一个保证是大数据中对少数群体的歧视较少，因为原始数据不受社会偏见干扰，使得分析在量级很高的数据中进行，因此避免了群体歧视。但大数据常常就是为了这个目的而进行的——将个体分离并划到不同的人群里——因为它有能力声称不同人群的行为如何不同。例如，最近的一篇论文指出科学家们如何运用他们关于人种的假设来设计大数据基因研究。

正如阿利斯泰尔克罗尔所写，用大数据分析价格歧视分析的可能性引起了有关民事权利的严重关注，这种行为历史上称为“划红线注销”（将某些顾客划出贷款对象范围）。在“个性化”的红色标题下，大数据可以用来隔离特定社会人群，并区别对待，这是法律明文禁止企业或人们去做的。公司可以选择通过在线广告向那些家庭收入可观或银行信用记录良好的人推广信用卡，而其他人完全不知道能够获得这种有选择性的信用卡。谷歌甚至有一项动态估价的专利：因此，如果你过去的购买记录表明你很有可能购买昂贵的鞋子，下一次你在线购买鞋类产品的起价可能会相当高。现在雇主们试图将大数据应用到人力资源管理，通过分析雇员的每一个敲击行为和拍打行为，评估如何使雇员的生产效率更高。雇员或许根本不知道有关他们的数据有多少正在被收集，用来干什么。

歧视也会发生在人口统计领域。比如，纽约时报报道说Target几年前即开始收集其顾客的个人档案，现在拥有的采购趋势方面的数据量很大，某些情况下足可以仅仅根据一个女人的采购记录来预测她是否怀孕了，并且有87%的把握。文章中提到的Target统计人员强调这将如何帮助公司加强对准父母的市场营销，可以想象，这些结果也会以其它的歧视方式被利用，可能严重影响社会公平，当然不有隐私。

最近，哥伦比亚大学对58000个脸谱网的好恶数据进行研究分析，分析结果用来预测非常敏感的用户个人信息，比如性取向，种族，宗教和政治观点，个性特点，智商，幸福程度，使用上瘾药物，父母婚姻状况，年龄，及性别等。记者汤姆·福斯基注意到这个研究，说“雇主，房东，政府机构，教育机构，私人组织能够轻易地获取敏感度如此高的信息，他们有办法歧视对待和惩罚个人，个体却没有办法反抗。”

最后，想想在实施法律条文过程中的隐藏的事情。从华盛顿特区到特拉华州的纽卡斯尔县，警察开始使用大数据的“预防性监控”模型，希望能给未破的案子一些调查线索，甚至有助于预防新的犯罪。不管怎样，将警力活动重点放在大数据检测到的“热点地区”是冒着另一种危险，进一步指责社会群体是可能的罪犯，将不同的警务行动制度化成常规作法。正如某位警察局长所写，预防性监控尽管确定地避免了种族和性别歧视，但使用该系统而不考虑各种影响的实际后果可能是“恶化警察与社区的关系，让人感觉缺少程序上的公正，被控告按种族定性，对警察的合法性造成了威胁。”

“大数据是匿名的，因此不会侵犯隐私。”

完全错了。尽管很多大数据的提供者尽力把个人信息从人群数据集中去除，重新鉴别身份的风险还是真实存在的。手机数据总体上规模大，看起来没有个人特征，但最近有一项针对欧洲1500万手机用户数据的研究表明，只要四个控制点就足以识别出一个人95%的信息。研究员注意到，人们在城市间穿梭的方式有其独特性，但考虑到可以从大量的公众信息数据中导出很多内容，使得隐私“引起更多关注”。多亏有Alessandro Acquisti这样的研究机构，我们知道如何通过交叉分析公共现有数据直接猜出个人安全社会保险号。

[1] [2] [3]

关注通信世界网微信“cww-weixin”，赢TD手机！

来源：国脉物联网编辑：王熙

分享到：

打印

论坛

推荐给朋友

关键字搜索：大数据

猜你还喜欢的内容

文章评论【查看评论()】

昵称：验证码：
评论内容..