大数据在什么情况下不靠谱

总的来说,数据没有错,错的是我们采集和对待数据的方式。只有正确抓取和利用数据的人,才能通过它们提供的各种线索,接触到事物的本质和真相。

现在大数据离生活越来越近,我们也越来越依赖大数据做决策。但前几天看到一篇文章,它就说,大数据这东西看起来挺好,但有时也会误导我们。这可不是说大数据本身有什么问题啊,它是没问题的,有问题的是我们采集数据的方式。一旦这个过程出了问题,大数据就反而会帮我们的倒忙。那采集数据的时候究竟可能会出什么错误呢?下面咱们来具体说说。

大数据在什么情况下不靠谱

第一种错误叫选择误差,如果选择的样本不平均,就会出现这类错误。比如说,美国大选前都要做民意测试,但根据这种方式预测的结果并不准确,因为测试的方式有问题,调查民意时需要选民支付30美元才能参与,能来支付这笔钱的人也许是热衷政治,也许是中产阶级,总之不能代表平均水平。这类错误还有很多其他案例,比如说在机场做消费问卷调查就可能有偏差,因为坐飞机的人相对来讲比一般人更富裕些。所以说,一旦选择的样本出错,那得出的结论肯定有问题。

第二种错误叫幸存者误差,就是说,选择的样本里有过高或者过低数据,那得出的结论就会有问题。打个简单的比方,一个屋子里如果坐着姚明,那屋子里人的平均身高肯定就会偏高嘛。美国的一所大学曾经有个报告,说他们学校地理系的毕业生平均年收入水平最高,这就很让人费解了,因为地理系不是这个学校的热门专业,也不是社会上的高薪职业,怎么会出现这样的结果呢?原来啊,这是因为,NBA超级球星乔丹就是这家学校地理系毕业的,他一个人就拉高了整个学校的平均水平。所以,为了避免出现这种幸存者误差,有时候做统计往往要去掉一个最高分,去掉一个最低分,再把平均下来的分数作为最终得分。

第三种错误叫回忆误差。什么意思呢?就是说,你选择的数据样本,会受到大脑回忆的影响,从而产生误差。这个误差的形成完全是心理作用,我们都愿意将现状理解为过去发生的必然结果,就是喜欢把现状和过去用因果关系对应上,尤其是对一些特别糟或者特别好的情况。比如说,哈佛大学曾经做了一个心理实验,找来一组患有乳腺癌的女性,还有一组健康的女性,让她们共同回忆自己早年的饮食习惯。结果发现,那些患病的女性回忆过去的时候,觉得自己摄入的脂肪含量比实际上要高很大一截,但健康女性那组就没出现这种情况。这就是回忆误差。如果你根据这个研究得出结论:患乳腺癌的妇女在年轻的时候摄入了太多的脂肪。那就太荒谬了。

第四种错误叫健康用户误差,这个说法源于一个逻辑比喻,就是每天按时吃维生素片的人身体更健康,但并不代表吃维生素这个举动就可以完全决定一个人是否健康。比如说曾经有个研究证明,幼年时期穿紫色睡衣的孩子,长大后成才的概率更高,98%的哈佛毕业生在小时候都穿过紫色睡衣,因为紫色更有助于幼儿大脑发育。这种说法听起来很有道理,数据看起来也无法反驳,但事实上犯了健康用户误差这个错误,最终能决定一个人成功的因素多种多样,年幼穿紫色睡衣可能只是其中很小的一个。

如果你逃过了以上四个错误,还有第五个最不容易察觉的在等着你,叫发表错误。以上那些都是我们在选择数据样本或者数据分析时容易犯的毛病,而最后一个却跟发表研究成果的“潜规则”有点关系。从认知角度讲,人们更喜欢正面的结果,所以传播领域也倾向于发表这样的东西。比如说医学界研究玩游戏和患结肠癌之间的关系,抽样调查了100个数据,前99个数据都是没什么关系,但有一个数据显示可能有点联系,从传播的角度来看,99个没有关系的数据没什么可吸引眼球的,但如果说玩游戏可以在一定程度上预防结肠癌,相信会有更多人愿意看到。所以说,发表错误的问题不在于数据本身,而是你向公众传达的时候会以偏概全,这也是为什么现在打开网页满屏幕都是标题党的原因了。

总的来说,数据没有错,错的是我们采集和对待数据的方式。只有正确抓取和利用数据的人,才能通过它们提供的各种线索,接触到事物的本质和真相。

本文来自信息化观察者网,转载请注明出处。