Notes on Big Data

《大数据时代》这本书强调了这个时代数据的重要性,所谓大数据,即全体数据而非抽样数据,大数据强调混杂性而不追求准确性,注重相关关系而非因果关系。在商业中,不仅需要得到大数据,而且需要知道如何利用大数据。例如,如何筛选自己需要的信息,了解自己真正需要什么。在这个过程中重视产生的结果,却不要过分纠结于产生这个结果的原因。本书作者似乎是业界翘楚,书中旁征博引,很有说服力。可以看出来作者Viktor Mayer-Schonberger是Taylorism的坚定信徒,他相信任何事情都是可以用数据测量和表述的。这一点跟《The Shallows》的作者Nicholas Carr的观点不一样,Carr认为并不是所有的东西都是可以测量的。当然Schonberger在书最后也提到了这一点,他也认为我们处理的信息不过是世界的某个投影,大数据也只是一个工具,我们在使用大数据的时候不要自负,要“铭记人性之本”。

《删除》是《大数据时代》作者Schonberger的另一本书,作者这次从用户的角度出发,讲诉在大数据时代中应该做出对自己有利的事情。计算机和存储介质的发明,就意味着数据会被永久存储;特别是近年来各种软件和在线服务的出现,使得人们越来越没有能力控制自己信息的散布,流动,以及存在的时限。很多信息一旦公开(甚至是对少许几人公开),你就没有在将它控制住的能力了,颇有“覆水难收”的味道。书中举了一个在MySpace上贴出自己饮酒照片被上司发现而最终被取消教师资格的女孩的故事;而我前几天发现我的网站被另一个网站做了历史镜像的经历也同样让我不安。一旦信息公布,就不能再收回了。作者在书中给了很多建议,如节制数字化信息的使用,知道自己应该公开那些信息,重视公开信息的后果;重视隐私法律的建立以及提供相应的技术支持;调整大众对数字隐私的认知;等等。同时作者最后还抛出了一个给所有信息都加上一个存储期限的想法,这个不管从技术上还是用户体验上都难以在近期时限。但是,最近确实有类似的在线服务出现,如阅后即焚的聊天服务snapchat,在线文本存储与共享工具pastebin等,同时Google等巨头也一再缩短存储用户信息的时间。随着大众对隐私的觉醒,相信在不久会有更多的服务在信息存储期限上下功夫。下一个会不会是email呢?毕竟我们需要的只是一小部分对我们有用的东西,如果我们都根本不记得邮件里有哪些内容,就让它们被慢慢的遗忘吧。

《爆发》从行为预测的角度讲诉了大数据的用途。这本书看到一半时我觉得这是我看过的最好的业界趋势读物,因为作者巴拉巴西的写作手法很奇特:全书每一章都分为两个部分,前半部分讲技术,后一部分讲历史故事。每看完一章我都想迫不及待的看下一章,颇有章回体小说的味道。但是等我把全书看完之后却还是云里雾里,完全不理解作者的观点是什么,到底人的行为是否可以被准确预测。不过确定的有一点,如书名所诉,我们的行为充满爆发性(Bursts)。我们可以很长时间不写邮件,但是同时也有可能在短时间里写很多邮件;我写博客也是,可能好几个月都不写一篇,有时候又连续几天都写;我好几个月都不看书,一看就连续看好几本;甚至花钱也是,好几天一分钱都不花,也有可能一天花好多……作者认为我们之所以会有这些行为,从根本来讲是因为我们的生物特性中即有爆发性,细胞生成的过程即是由一个又一个的爆发组成的。从行为学上讲,我们会给自己要做的事情安排一个优先级,只有优先级高的事情才会被完成。由此生成的优先级队列就隐含了爆发性,导致我们实际完成事情的时候也是一组一组爆发式的完成的。因为我们的行为不是一个随机过程,所以我们不遵循泊松分布。书中的历史故事也很精彩,讲诉了16世纪发生在匈牙利的一个农民起义的故事。起义领袖赛克勒从发起起义到被捕都发生在很短的时间内,按作者的说法他的起义过程实际上是一个快速燃烧完的爆发点。赛克勒并没有经历太多就变成了起义领袖,由此就注定必败的命运。一切来的太突然了,不是每个人都能把握好自己。所以“天将降大任于斯人也,必先苦其心志,劳其胫骨,乏其体肤”也是不无道理的。一个人需要蛰伏很久,才能从容的面对破茧而出的那一刻。

Leave a Reply

Your email address will not be published.