《当我们变成一堆数字》书评

当前位置:首页 > 经济 > 经济学理论 > 当我们变成一堆数字

出版社:中信出版社
出版日期:2009-7
ISBN:9787508615868
作者:贝克
页数:222页

我们目前不缺少数据，缺少的是看得懂数据的人

数据挖掘，机器学习——作者抛出了一个时髦的话题，描述了各种领域的状况及未来的应用空间。不过可能和作者的背景的局限有关，书中却没有介绍一些可行的实现方式和具体可操作的研究趋势。我们目前不缺数据，缺少的是看得懂数据的人！

初涉大数据的阅读惊喜

出自《商业周刊》资深记者的一部关于数据挖掘和应用的书，是我第一次阅读类似的内容，淋漓畅快！通过作者的引导，我了解到人类在真实和虚拟世界中的行为痕迹能够被数学、统计学、行为认知学和心理学家收集并用来建模，从而预测人类行为，并进行“助推”，恍如进入了一个全新的数字世界，心情在惊喜和惶恐之间。注重保护自己的隐私，并且学会利用数据就是读完此书最大的收获吧！

做一个特立独行的人是多么困难

斯蒂芬·贝克是位观察家，他注意到我们现代人的每次活动，都被无声无息进入数字统计。比如你从一个网页进入了另一个网页；比如你从一个频道切换到另一个频道；比如你一次又一次掏出银行卡消费时；比如你开车穿过一个又一个收费站时；比如你打开手机拨通一个一个号码时：... ...所有这些行为，都被不同的系统无声无息地进行记录着。斯蒂芬·贝克的《当我们变成一堆数字》就企图告诉我们哪些我们没有关注的行为已经在被记录，而一群相信统计数学的人，正在从这些海量数据中研究，如何可以通过统计科学分析出我们行为模式的规律，你知道，但凡能发现规律的地方，就有人想利用它，无论是影响你的思想还是影响你的行为。比如斯蒂芬·贝克告诉我们公司可以通过分析一个员工长期发送和接收的邮件来统计你的发送对象路径和内容关键字，判断出谁是这个公司有影响力的员工，谁在工作中大量讨论和工作无关的事情，谁是那个出工不出力的人。无论是工薪族、购物者、选民、博主、恐怖分子、病患者、恋人，都逃不脱数字统计和数字化分析。作者正是通过这七种不同角度告诉我们哪些人在背后关注着我们的一举一动。想想看，这算不算侵犯隐私？可是假如你做任何动作，在信息化时代不论主动还是被动，你就已经被记录，除非你不选择对应的服务，可这不可能也不现实。那阻止你的信息被滥用？这样也很难，任何信息只要能挖掘出巨大的商业价值，那么被滥用是迟早的事情，这不是以你的意志为转移的。了解这一点，并非能让我们免于统计，而是可以让我们在面临各种事情时能冷静想一想背后的真相。比如某天你在卓越网上购物，发现它为你推荐的新书是如此对你胃口，你就明白了，你被统计了。比如你的gmail邮件总是看到你感兴趣的广告，你就明白了，你又被统计了。不仅仅是网络，任何规模运动（不仅仅指消费）背后都有人在统计人类的行为模式。也许将来有一天我们要给你植入一个想法没有那么困难，只要我对你进行足够多的统计就可以了，只要顺着你的想法去统计，植入和符合统计规律的想法没有什么难的，可怜诺兰为了一个想法要发明一套盗梦规则，我们天天接受的一切广告都在依据统计学为我们植入想法。比如孩子要优秀就得上好学校；比如美女要祛痘就得养颜排毒；比如要健康就得喝绿豆吃泥鳅；比如要获得幸福你就得相信党；等等等等，诸如此类这让我想起做一个特立独行的人多么困难，假如你真的是统计样本的大偏差，你要么是高高在上的精英，你要么是穷困潦倒的流浪汉，你的行为没有统计学意义，但一定深具情感或道德上的刁难。假如有一天，你做任何事情，都有某个方面专家跳出来，告诉你你有75%的统计概论做某件事，这是个怎样的世界？这就是我们正在发生的世界。这本书能满足你的好奇欲，但要说这本书多么优秀和出色，那到未必，这和作者讲故事的能力还不够好是有关的，至于思想深度，显然也不是这本书的长处。不过作为路上的消遣，这本书能合格。

数据化的现状与未来

副标题：数据化与被数据化作者描述了一个数据化的世界，或者说数据化得世界，什么都用数据表示，甚至在校内上经常会提醒你多久没给好友留言了，其实该好友就睡我对床，我有必要给他留言么？说说数据的应用。作为营销人员，要利用消费者的购买数据来判断他，为他提供近乎个人化的服务；作为银行从业者，我可以了解他的引用记录、财产状况以及个人风险偏好，以此来为他推荐适合他的金融服务；作为广告制造者，我迫切的想知道什么能引起人们的兴趣，以此作为自己做广告的一句；作为一个职位的竞聘者，我要用数据吧自己描述出来，顺便把面试者数据化，他们在面试我的过程何尝不是我在面试他们呢？面试者在对我做出判断时我也在作者同样的事情。我我们一直在数据化中生存，也一直在被数据化。数据化的现状是这样的，那么，数据化的未来是怎样呢？数据化的未来，就想科幻小说里说的那样，智能化，数据化，甚至我们自己都会被做成一份数据存放在国家数据馆以便于我们死于意外时父母或者其他人可以复制一个我们。真的会那样么？我不知道，数据化的未来是一团迷雾，但是我们可以在智者的指引下看到未来的道路，我们在等待他，等待中国的领航者，也许，在不久的将来，他就会出现。也许他是个哲学家或者数学家，也许单独的++家不能完全描述他。。。

寻找规律的线索

记得不久前一位教授在课堂上说过一句话：“一切事物，只有抽象成数字，上升到数学研究的层面，才能称之为科学；否则都只是艺术。”在我看来，数学最神奇之处，在于它几乎可以帮助人们寻找出所有规律的线索。我们需要做的，是将待探索的事物化作数字的形式，输入这个庞大的数字机器王国；让机器在一次次学习与调整的过程中，得出一个个模型，并通过过去与现在的数字，预测出未来。这正是《当我们变成一堆数字》一书想要告诉我们的。刚开始读这本书时，给我带来最大的感觉是恐惧。这是一种个人隐私被无情窥视后的恐惧。最近有消息称，北京市将用数千万的北京移动用户信息构建在京人群的活动图谱，这引起了相当多人的反对，最重要的一点莫过于大家感觉自己的隐私受到了侵害。书中所描述的情况也如此。潜伏在网络中的大量的数字科学家每时每刻都在获取着我们的信息，从网络浏览足迹到消费记录，从政治立场到个人情感爱好……他们把我们分为不同的类，再贴上标签。而我们，就好像在一间布满了监视器的房间里生活，一举一动都感觉不舒服。随着阅读的继续，作者介绍的数字王国开始在我眼前呈现出迷人的一面。虽然，我比较反感将员工变成“数字”的公司——之前在某外资咨询公司的实习经历让我对上司监控下属工作的行为有深刻感受。但不得不承认，拥有海量的人类行为数据，建立起模糊分析模型，对未来行为进行预测和引导，是一件非常诱人的事。超级市场通过给购物者贴标签，将其分为“寄生虫”到出手大方的有钱人，并分别将他们诱导至不同的购物线路，从而获得最高的利润；公司通过将庞大的消费者群分为不同的“种族”，即细分市场，再有针对性地投放广告，实现自己的营销目的；政客们通过对选区居民的分析，找出最有可能也最有必要进行说服的人群，为自己赢得最多的投票。这一切，都是基于将芸芸众生抽象成了拥有多个元素的集合，通过将相同或相似的元素归于同一类，这些集合也就分散成一个个集合群。不同的群拥有其显著的特征，如何找到最合适的标签来描述，如何找到最合适的特征来分组集合，如何最大程度地区别出某个集合是否拥有某类元素……这一切都依赖数学科学家强大的数据挖掘和分析能力。关于“病患者”的研究，让我对人类认知行为分析、概率学和统计学产生了无比崇拜的感情。由于自己现在正在做一项与人类认识心理有关的眼动实验项目，这部分内容引起了我的兴趣。人类的行为在一定程度上的确拥有某种趋向性与规律性，如何寻找出这些若隐若现的规律线索，并预测出潜在的危险——无论是内在健康的危险，还是可能引发的外在危害——对人类社会的发展都具有很深刻的意义。尽管每个个体存在必然的差异，但大量的个体行为在宏观下呈现出的规律性令人惊讶。只是，如果将来的某一天，我们真的能构建出人类行为DNA图谱，建立起关于我们的疾病、行为和遗传的数学模型，“对我们将会罹患的疾病进行概率的预测，我们是否能承受这些预测的带来的沉重打击”？“恋人”这一章，让我看到现阶段计算模型在对个体分析匹配时略显的幼稚——这从另一方面也说明这一领域存在巨大的可挖掘性。基于对个体不同性格与相应爱好的统计，将人群分成不同群体——就好像星座分析，好像中国的生辰八字（人们似乎很爱好谈论自己，因而对这一类的分析也很喜欢“对号入座”——我是金牛座，那么我的性格和金牛座特征似乎挺相似的）。其实现在所有的心理测试题目都是基于大量的统计分析工作的结果，一个个匿名的被测试者同时也是这个测试题目的继续完善者，像滚雪球一样，计算人类心理特点的数学模型被不断完善。也许有一天，我们真的可以获得一个完美的“恋爱公式”，算出谁是谁的百分之百的另一半。但爱情的变量如此之多，不知道理性的数家科学家们是否真的能把握住它变幻莫测的线索？PS：此篇为某堂课教授要求而写。

开心地活在数据挖掘时代

信息化正在进行，而信息化之后将给我们剩下一堆二进制数字。如果不利用这堆数字，它们就是堆在机房里的垃圾；如果利用得当，它们就是堆在机房里的金矿；如果利用不当，它们就是堆在机房里的恶魔。该书描述了很多信息背后的故事，是一本有意思的科普性读物，看完之后，你也许会在日后刷信用卡购物时，迟疑片刻；或者会更加向往数据挖掘给我们呈现的新鲜世界。无论你是什么想法，都不重要，只要记住：我们已经在被数字化，我们既是试验品，也是受益人，所以不要想太多，开心地活着就好。本书缺陷：行文比较拖沓，一些本来有趣的故事，被描述得有些僵硬；更多地是叙述故事，缺乏作者自己的理解和总结，不过却给读者留下了更多的想象空间。

很不错的一本书，值得做统计的人一读

我们正在做一个电子商务垂直分析工具——小艾分析fenxi001.com从这本书中受益匪浅，强烈推荐。下面这段话是我写在别的地方的，沾到这里。我们每个人其实都可以打上数据的标签，比如你在家乐福的每次购物数据泄露了你是一个雀巢咖啡爱好者或者是浪莎丝袜的品牌粉丝。这些数据都代表了人的主观意识和爱好，可以将这些数据分析建模，掌握了交易数据、流量数据等超过几十个指标之后，加上亿级的分析和海量挖掘，加上时间的积累，加上持续深入的用户行为研究，我想只要努力，早晚有一天，会有人窥得那丝从宝库中散射出来的光芒的。当然，我希望我们小艾分析能够成为那个幸运儿。现在做不了全行业的分析，所以现在只从一个领域内下手，那就是电子商务垂直领域。专注，或许能够帮我们一下吧。电子商务在细分，横向的是行业比如衣帽、鞋袜、消费数码、茶叶（举例啊），纵向的是大小比如日ip500以内，日ip3000以内，日ip20000以内，纵横交叉之后，把店铺打到不同的格子中去，然后这个小格子内的数据就可以结合长期研究出来的主观提示进行显示了。

数字泡沫

谈发展，必谈互联网，研究互联网，必将数据挖掘，这似乎已经是定律。这个本身没有错，但是你付出了成本，挖出来的东西，可能未必有用。超市真的需要知道每一个客户想买什么吗？问题不是那些数据能够得出什么结论，而是如何去建立自己想要的数据模型，让他最低成本的运转。这不是始终在讲数字有什么用，能贡献什么，但是却没有任何成本方面的考虑，所以只能说是观察家的说法，而不是实际运营的总结，可读性低了些……

从三次元向二次元：我们的第二次进化

这本书类似于《大数据》的姊妹篇，但没有大数据写得那么范围狭窄，作者涵盖了数据和数字这两个方面的。不知是作者的问题还是译者的问题，总觉得有些文字读上去佶屈聱牙，虽然意思能理解，但总不是那么个味儿。从互联网1.0时代到2.0时代，现在又到移动互联网的时代，姑且称之为3.0吧，人类就是不断与机器和数字融合的一个进程。这是人类的第二次进化，根本属性上的进化。第一次的进化是人脱离自然，成为自然以外的一个独特的群体，第二次的进化可以概括为人融入机器，三次元向二次元的进化。随着一切都在数字化，人的思想、习惯、语言、行为等也变得越来越可以量化，最关键的是，这些量化后的数据能够还原出几近于百分之百的我们，让我们在互联网的时代无处遁形。有人欢呼，说这是人类的一大进步，以后人与人之间的隔阂会更小，沟通会更方便，世界之间的差异会更不明显，最后天下大同。有人忧虑，说这是人类地位被动摇的标志，当一个人已经不成为人，他的所有价值都可以由一台冰冷的机器通过无数个0和1来构建的时候，人的主体性已经不复存在。作者是倾向于后者，但是行为上他是消极抵抗，或者说是顺应潮流地被融入进前者。而我个人也是偏向于后者的。我无法抵抗时代的大潮流，那至少可以被潮流席卷得慢一点，再慢一点。突然想到一个酸腐的段子：在古代，我们不网聊，不短信，不漂洋过海，不被堵在路上。如果我想你，就翻过两座山走五里路，去牵你的手。也许这样才会在过程里体会到结果的美好。现在数字化的结果可能会是：在现代，我们找Wifi，上微信，不看书读报，不出门郊游。如果我想你，就发即时消息发iMessage，立刻找到你。哈哈。当我们都变成数字。

笔记：阅读的价值

“因公阅读”么，所有拿到手第一意识就是寻找值得推荐的“阅读的价值”……从封底的推荐词中找到如下：1、“在Google时代领悟生活、洞悉商机”；前半句没感觉，后半句还有点吸引力，但整个图书通篇翻下来，觉得最大的感受也就是惊叹，现在统计、分析做到这么厉害的水平了！2、“了解和预测人类行为”；可惜书里没给我们详细的方法，现实中我们也无从得到这样的数据支持；3、“那些杰出的人物以新的、魔法般的能力，预测……你将惊叹、惊醒，以至深受启发”；前半句就是我的阅读体会，但似乎不能成为阅读价值；4、“改变你看待生活的方式”，知道了自己的所有都是可以被人统计、应用的之后，我们会是怎样的看法呢？最浅薄的意识：学统计、做市调的人读了可能会受点启发，对我们普通人，就像看一群高手在那里拿着刚从我们身上拿走的什么东西变魔术，很花哨，很惊叹。这样的价值值不值得买这本书呢？

扩展思维

本书只能起到一定程度上扩展思维，了解行业动态的作用。没有具有实际作用的方法论。书中结语戈德曼讲到他曾花费12小时来整合材料，然后1小时来进行思考。服装商品分析日常工作中可能需要提前建立好适当的模型，自动化的程序，更多的时间用来思考，更多的去了解市场实际状况，结合数据来发现问题，解决问题。

数字没有告诉你

我曾经觉得，二进制的世界是如此单纯。在这个世界里，所有的事情都被0和1绝对地量化着，清晰而明了。精确与理性支配着每一个动作，因为计算机的语言中没有感情，只有是与否的回答。于是我们已经渐渐习惯在心情大好的时候在人人网上发一条状态，在抑郁感伤的时候在qq空间写一篇加密的私人日记，或者在看到明星的时候赶紧拿出手机照下来并且在街旁网签到，随后同步到新浪微博。这些信息，有我们想让别人知道的，有我们不想让别人猜透的。不过，对于《当我们变成一堆数字》书中中提到的搜客而言，这些只不过是一坨0和1，看上去毫无意义，因为数字没有告诉我们任何信息。可实际上，数字将我们的一切都告诉了别人。搜索博客的系统可以在千千万万博文中，搜索到有用的数据。对于某一位博主，例如书中提到的这位“欲望的眼泪”，数字可以告诉我们这天晚上她都去做了什么，她有哪些朋友，她的大约年龄等等。当这些琐碎的细节被拼凑到一起，然后通过计算机卓越的统计能力，便可以勾画出这位博主的爱好、性格、朋友圈，甚至体貌特征。看到这里，其实我有些害怕，假如我是这位倒霉的“欲望的眼泪”呢，当我的隐私信息被当成被研究的对象，这是多么可怕的场景啊。可是我们在互联网上留下的足迹偏偏就能在任何时候出卖我们的隐私，即便在页脚的地方写着“隐私保护”。上班族每天坐在电脑前，八个小时或者更多，他们完成着一件件公文，更新一张张报表，或者偶尔开个小差，去团购网站转转。在公司或不在公司他们所作的一切，也会被无数个0和1记录下来，再被编译成一个个动作传送到老板那里。老板会看到哪个员工工作效率高，哪个员工在打酱油。正如书上说的，“在办公室电脑上敲下的文字并不属于我们”。员工的一举一动在“网管”们看来只不过就是一组组数字。于是，他们的工作成果被量化，工作态度被量化，潜力和晋升都被数字量化着。这样看来，作为员工，“打工”的色彩真是越来越浓了。数字能够这样窥探着我们的生活，真令人毛骨悚然。高科技环境下这些社交、沟通媒介，究竟是方便了我们还是出卖了我们呢。我们平时和密友发的短信，是不是通信公司想看就能轻松看的到呢。也许有的数据挖掘者说，他们这么做只是为了研究，或者为了商业价值。又比如超市里的会员卡。我从未思考过这东西的真实作用。感谢斯蒂芬贝克的阐释，我终于认识到了自己原来一直在廉价出卖着自己的信息。超市方只用了少的可怜的优惠和一张看上去还挺好看的PVC卡片就了解到了我们的购物习惯，个人喜好。即便他们说在他们的研究中，顾客不会有真实的姓名，只会被数字代号代替，可是谁又能真的去求证超市会不会把我们的喜好信息转让给别人以牟利呢。我们没说一词一句，却已经告诉了别人自己的好多隐私。想想，自己的手机为什么总能接到广告短信呢，是谁出卖了我们的信息？数字其实诉说着很多事情。不过，也并不全是坏事。比如，在预防恐怖分子的时候，数字就成为了一个重要的线索。在数据中挖掘恐怖分子留下的信息，做好提前预防的工作，确实可以保障国家和民众的日常生活安全。再比如，在医疗系统中，我们的健康信息被计算机分析着，反馈而来的是我们的健康情况。在越来越忙碌的工作接踵而来的时候，我们常常忘记善待自己。可能在我们身体的“零部件”即将“罢工”的时候我们却浑然不知。这个时候，我们应该感谢数字在我们忘记体检的时候，提醒我们要去医院检查一下了。总之，读了这本书之后，我对这个能告诉我们一切的数字，真的是又爱又恨。

帮助还是窥探

我们的世界正在数字化。正如作者所描述的，巨大的数字化浪潮把我们推向了一个不同寻常的时代。书中，你能够认识到人们的一举一动，心情起伏是如何被捕获并如何被“傻傻的”计算机分析的。信心满满的科学家们对这项事业有着前所未有的渴望和热情。统计学无疑是这项事业的核心，而人类学、语言学、行为学成为了计算机理解人类的翻译器。这一切都在有条不紊的进行，持续大量数据的搜集以及各项科技的成熟都将使项事业日臻完善。在这个讲求效率的时代，计算机快速的运行机制引诱着人们从事着这项事业。每个人都被模型化，使得预测的可能性大大增加，自信满满的人类却不知道这是通往奴役之路还是通往自由之门。科学之旅是坎坷的，而道德之旅则更加充满荆棘。当闪耀诱人光辉的时代向我们招手时，并非所有人都愿意大踏步地投入它的怀抱。人们开始担心自己的隐私在无意间就被泄露，而且永远不知道什么时候泄露了什么事情。这个世界就是这样，天才们正逐步把一个个“傻瓜”产品发送到你的身边，让你醉心于科技带来的无限甜蜜之中，也许忘记了生活已经逐渐被别人所掌控。每一个人都应该成为数字时代的主人，而不仅仅是数字科学家，不仅仅是当权者。真正的参与，需要大家去了解这个时代的运作机制，构筑道德的防火墙，而技术的创新此时才能真正推动人类的进步。

当我们变成一堆数字下载精选章节试读

《当我们变成一堆数字》书评

类似图书

相关图书推荐