《赤裸裸的统计学》书评

出版社:中信出版社
出版日期:2013-9
ISBN:9787508642154
作者:[美]查尔斯·韦兰
页数:308页

却在灯火阑珊处

这是一本很适合我的统计学入门书本。研究生的专业是数据挖掘，常常要用到一些统计的知识，但是由于当时急功近利的不求甚解，只求知道怎么用，不想深究为何用，以至于在这个崇尚大数据的时代，让我不能长时间地深入地全面地忽悠他人。哎，黑发不知勤学早，信口方悔读书迟！买这本书是因为专业相关，而且封面很符合我的口味。翻开一读，就像打开了一个新世界的门。这个新世界首先很有趣。作者的行文风格属于生活轻幽默（突然想到的一个词）。近年来我已经很少被作家们逗笑了，不知道是见多识广还是麻木不仁，总觉得他们做作刻意。但是本书作者的文字风格确实很逗，常常让我忍俊不禁，也是让我不住读下去的动力所在。这个新世界也不难懂。实例丰富、简单，而且引人入胜，通过实例能够很好的理解统计学的概念，然后又通过更好的实例讲解公式原理。这种方法让我很受用，起码我现在很清楚标准差和标准误差之间的区别，当然还有前一段很困扰我的置信区间。甚至还让我解决了我写论文时候存在的一些疑惑（当然这些疑惑没有在论文中体现）。有一种忽如一夜春风来，千树万树梨花开的豁然开朗感觉。这个新世界也很广阔。我看这本书的同时，旁边放着一本统计学的专业书籍。每次看到统计学的只是概念，我感兴趣的，就去翻一翻专业书对应的章节，由于作者讲的简单易懂，勾起我的求知欲，让我意犹未尽，于是就要在专业书中把遗憾补回来，读完这本书，专业书竟然也看了不少，惊讶之余，暗暗得意，以后夸夸其谈有资本了。遇到这本书，是早就期盼而始终未得的，看完后莫名满足。众里寻他千百度，蓦然回首。

能力越大,责任越大

阅读本书，是为了更好掌握“大数据”基础。没想到，作者稍微提及下大数据的划时代好处后，就自顾自的讲起了统计学的使命。我则感觉被乞丐推销《如来神掌》，明明感觉没意义，却舍不得离开。别的不说，能把枯燥的知识讲的如此天花乱坠，作者好有一套！质量上，因为是中信出版社，天然有好感。不过书中涉及的公式因为印刷问题确实不太标准，好在都是浅知识，上学时基本都学过。而相比副标题的“数字之美”，我更相信是作者的“有趣语言”吸引我。对了，稍微介绍下作者：正常来说，你绝对猜不到他的年纪。语气上看，更是关注当下流行文化（古墓丽影等动作大片的场面描写恢弘异常），略自负（本书实际上向20世纪50年代的经典畅销书《统计数字会撒谎》致敬，作者也期望本书能经典50年）。我确信他能达到，因为作为科普入门类，本书优势实在太大了！对了，若不是作者说它1988年去了趟苏联，我还以为他刚三十而立呢~这个1966年生人的有趣的骗纸！————————————————谈谈武器发展史：我相信目的动机论。每个人都渴望自身价值的体现，于是开始拼搏，进步，乃至夺去，独权。当然，这是战争产生的必然。而本书中，“统计学”就是作者手中武器，天方夜谭般的案例就是诱饵。外加循循善诱的劝导。可以预见，大片读者将沦陷在有趣的统计学里不能自拔。读过本书，我确信将来会用统计学让生活更舒适真实，你们也一样~那些有趣的故事：初中第一堂政治课，老师提问了3个谜题，并宣布毕业时公布答案。实际上，我早忘记谜面了。类似的，作者在书的开篇就提问许多有趣问题。你该买彩票么？为何商城比家人更早知道你怀孕？哪些人更容易成为恐怖分子？家里电视的多少会影响学习成绩？随即，作者标注了这些答案所在的章节，没错，想知道的话只能继续阅读。而当你被通篇公式折腾的发狂时，作者又俏皮来了句“假如你没冲动的把书扔到角落，或者又走过去把书捡回来。你会发现....”没错，我继续读下去了，也确实发现...会撒谎的统计学：作为一个能让大众明白的学科，统计学对外必须是简单且有说服力的。但影响统计学的因素很多，除了比较大众的说法，还有更多“小技巧”让发布规则的人更加获益。好在书中彻底说明这种骗局是如何瞒过我们的理智勾起欲望的，不过，面对诱惑，我猜自己会再次沦陷。这才是有趣的世界。当然，互联网让统计更加便捷外，有些古老的要素也需要被证实。譬如，连续观察药物对人类的持久影响，就需要常年统计特定人群的身体状况。此外，也有许多更高深的概念等我们掌握。但从“入门级”来看，本书的吸引力搓搓有余~

不懂这本书能评分这么高

不是认为这本书有多不好，只是远远没有心理期待的那么多。首先，不否认这本书写的通俗易懂，举了挺多生动的例子。但是，令人失望的是，作者摆弄了半天，讲的还是那么点事情，确实浅显。把这么浅显的道理讲的通俗易懂，并不是难事吧？读了整本书对统计学并没有更深的理解，最多只是稍微概念化了一点，如果去读一段统计学的定义和标准差方差等等计算，远远比这本来的更简洁。唯一收获就是这本书内关于数字会撒谎这部分内容，不同的说法基于不同的立场。（但是，这不是我读这本书的重点啊。。。）除此无他。

书摘

比如以州考成绩为主要依据的高中排名，排在前几位的都是一些选择性招生的学校。进入这些高中必须提出申请，其中很小一部分人（州考成绩优秀的）能入学。这一逻辑就像是给篮球队颁奖，因为篮球队在促进队员长高方面贡献卓著。不同学生的背景、能力不同，他们的考试成绩哪些是因为自身的原因，哪些是因为学校和老师，又或兼而有之？在

适合作为高中生的科普读物

本书适合作为高中生的科普读物。倒是深入浅出地讲解了统计学的基本特征与作用，能够勾起学生们学习统计学的兴趣。本书不适于专业人士。不过看这本书的过程中，结合自己最近的一些思考，倒是别有所得。关于书中所说的偏见与采样误差，最近倒是有一个很有趣的例子可以作为佐证。前段时间，被老婆逼着一起看了《小时代》。看完不禁大倒胃口，什么烂片，无情节，脑残逻辑，一堆所谓的帅哥靓妹在各种名牌的包装下，搔首弄姿以掩盖其空洞的大脑。后来跟朋友们吐槽，凡是看过的大多也是同样的评价。于是，我很诧异，这样的烂片，凭什么能有5亿的票房呢？直到前一阵跟一位做影视剧发行的朋友聊天，才恍然大悟。当时，我把我的疑惑向她提了出来。她给我的答案很犀利：这部片子本来就不是拍给我们这些人看的，其目标群体很明确，就是那些还在崇拜名牌、帅哥靓妹，对爱情、友情充满了憧憬的初中生、高中生、部分大学生看的。我们这些人觉得烂，不代表他们那个群体不喜欢。原来，我所询问的朋友，基本上都是与我有同样的价值观，差不多的年纪，所以大家对影片的观点也偏于一致。我的询问对象中，还真没有她所说的那些观众群体。在不知不觉中，我已经犯了选择性的采样偏差了。这就是问题所在。事实上，从投资的角度来讲，在这个市场中存在的时间够长，经验够丰富，当然是件好事。但对新事物的接受速度往往会下降。13年投资业绩最好的那批人，很多都是玩游戏的80后。也许在投资的生涯中，扩大自己的调研年龄层次也是很重要的一环。多问问新东西的吸引力到底在哪里，多尝试些新玩意儿对投资真的很有帮助。帮助自己克服各种偏见，能够更加端正地去看待很多问题。

深入浅出的统计学

稍微对本书一些在意的地方做个总结。一、数据与偏见1.选择性偏见。样本选择存在偏见。2.发表性偏见。肯定性的研究发现比否定性的研究发现更容易被发表。3.记忆性偏见。记忆会“由果推因”，没有记忆性偏见是纵向研究优于横向研究的原因之一。4.幸存者偏见。让表现差的退场。5.健康用户偏见。用户之所以健康，是因为他们本身更关注健康。二、中心极限定理中心极限定理的核心要义是：一个大型样本的正确抽样与其所代表的群体存在相似关系。虽然每个样本之间可能存在差异，单任一样本与整体之间存在巨大差异的概率是较低的。应用场景：1.如果我们掌握了某个群体的具体信息，就可以推理出从这个群体中正确抽取的随机样本的情况。2.如果我们掌握了某个正确抽取的样本的具体信息（平均数和标准差），就能对其所代表的群体做出令人惊讶的精确推理。3.如果我们掌握了某个样本数据，以及某个群体的数据，就能推理出该样本是否就是该群体的样本之一。4.如果我们已知两个样本的基本特征，就能推理出这两个样本是否去自同一群体。三、假阳性与假阴性零假设为“阴性”。1.如果检测结果推翻了零假设，而事实上并没有患病，那么即是“假阳性”，犯假阳性错误的概率即犯第一类错误（去真）的概率。2.如果检测结果没有推翻零假设，而事实上患病，那么及时“假阴性”，犯假阴性错误的概率即犯第二类错误（取伪）的概率。四、回归分析错误1.用回归方程来分析非线性关系。2.相关关系并不等同于因果关系。回归分析只能证明两个变量之间存在关系，仅凭数据无法证明其中一个变量变化就一定能导致另一个变量也发生变化。3.变量A与变量B的因果倒置。不应该使用受结果影响的解释变量。4.变量遗漏偏差。解释变量A可能会“覆盖”解释变量B，内生性。5.高度相关的解释变量。多重共线性，解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。6.脱离数据进行推断。7.数据矿。变量过多，如果取显著性水平0.05，那么每20个变量就可能出现一个假显著性。五、项目评估与“反现实”—对照组即是“反现实”1.随即控制实验。安排实验组和对照组。2.自然实验。3.非对等对照组实验。实验组和对照组之间存在一些难以察觉的差异，这些差异影响了小组成员的分配和组成，从而产生和现实有偏差的结论，这就是”非对等对照“，可以这样设置实验组和对照组：实验组为”进入名牌大学学习的同学“，对照组为”凭才华和实力可以进入名牌大学却选择去竞争没那么激烈的高校的同学“。4.差分类差分实验。首先，对某个群体接受某项介入因素或治疗之前和之后的数据进行比较，其次，将这些数据与另一个没有推出就业政策的同类组同样的指标进行比较。重要的是，用于分析的两个对象除了是否有介入因素之外，其他方面的情况基本相似，因此若两组结果之间存在显著差异，则可以认为是所评估的项目或政策的效果。5.不连续分析实验。将那些刚好符合介入或治疗条件的对象，以及以毫厘之差错失治疗机会的对象进行比较，即取两个群体的边界值。

书还不错

昨天终于把书读完了，总的来说内容不错，翻译的也可以，毕竟是一本统计学的科普读物。觉得书的最大闪光点是把以前学的概率等统计知识与具体案例联系在一起，能够更深入的理解统计学的意义、算法和用途，能够加深对概率、相关性、极限定理、回归分析这些之前半懂不懂的知识的认识。统计学的用途就是预测未来可能发生的事情，今天成功预测了老板查岗的时间，哈哈！

【笔记】用数据说谎容易，但是用数据说出真相却很难

0p 安德烈斯：用数据说谎容易，但是用数据说出真相却很难。3p 无论什么问题，统计学都极少提供唯一“正确”方法。但是，基尼系数确实以一种便捷易懂的形式为我们提供了一个重要社会现象的一些宝贵信息。8p 统计学的一个核心功能就是使用手中已有的数据进行合理推测，以回答我们还未掌握所有信息的“大”问题。简言之，我们能够使用“已知世界”的数据来对“未知世界”进行推断。8p 统计学存在的意义就是简化，因此不可避免地会丢失一些内容和细节，任何一个数字工作者对此都要心知肚明。过分依赖会带来误导性的结论或导致不良行为。11p 概率就像是武器库里的一件武器，需要使用者有较强的判断力。当然，有时候判断和赚断的界限就是那么模糊。15p 战争是为了与真实存在的敌人作战，而不是与假想敌作战(唐纳德·拉姆斯菲尔德)。学习的意义不是做题和炫耀，而是用来认清我们的生活。23p 数据越多，事实越模糊。信息过量的表格其实相当于什么都没有告诉我们。因此，我们需要简化。59p 百分率不会说谎，但它们会夸大其辞。62p 虽然“你无法管理你无法衡量的事物”，但你最好要保证你所衡量的，正是你努力想去管理的。62p 学生父母的教育程度和收入会对孩子的成绩产生不可忽视的影响。64p 提供有意义的信息与将这些信息浓缩成一个权威排名完全是两码事。在某些时候，统计学的功能仅仅是让数据看上去更顺眼。68p 利昂·波特斯坦：人们喜欢看到简单的答案。什么是最好的？当然是第一名。111p 蒙提·霍尔悖论告诉我们，对概率的本能理解有时候会将我们引入歧途。117p 金融市场的潜在风险并不像抛硬币那么容易预测，VaR这样的模型所呈现出的“伪精准”会给投资者带来虚幻的安全感。117p 失准的速度表对司机来说比没有车速表更危险：对于失准的测速表的信任或“参考”会忽略其他提示车速的不安全信息；但如果车里压根儿就没有车速表，你反而会小心地注意四周，寻找能够告诉你车辆当前行使速度的参照物。134p 绝大多数的统计学书籍都想当然地以为读者使用的都是好数据，就像每一本烹饪食谱都觉得你不会购买不新鲜的肉和腐烂的蔬菜一样。但是，如果基础数据本身就有问题，那么再缜密严谨的分析也是徒劳。136p 从直觉出发。就像从一锅汤舀出一勺进行品尝，如果之前搅拌得充分均匀，那么这小小的一勺汤足以告诉你整锅汤的味道了。144p 发表性偏见：无论在医学还是其他领域，否定性的发现都显得单调乏味。150p 如果把统计学比作侦探工作，那么数据就是线索。优质的数据就是好的线索，但首先我们必须熟悉到优质数据，而这要比看上去困难得多。218p 并不是那些“权力越大、责任也越大”的压力置你于死地，而是那种等着上司给你布置任务，但自己又没有权力决定怎么完成、何时完成这些任务的压力把人压垮了。换言之，高官们所承受的风险远远小于其秘书，因为这些助理对自己的工作任务“缺乏控制力”。218p 回归分析：在控制其他因素的前提下，对某个具体变量与特定结果之间的关系进行量化。也就是说，我们能够在保持其他变量效果不变的情况下，将某个变量的效果分离出来。239p 样本越小，结果就越分散。246p 不要用你的研究杀人。292p 每一样东西都有一个重要的功能，每一样东西都能让我们的生活变得美好，但每一样东西如果被滥用都会造成严重的后果。

学学统计学让你不盲目

《赤裸裸的统计学》阅读心得1. 统计学是怎么预测事情的？这件事和那件事相关，我们就可以统计这件事预测那件事。2. 当我们都无法解释原因的时候，统计学是怎么找到真正原因的？通过统计的数据规律发现结果，从结果中倒回来找原因。知道结果找原因要比什么都不知道找原因要快得多，因为我们天生喜欢给结果找原因，有动力又有方向。3. 平均数是怎么骗我们的？因为受到了强大“异常值”的影响，强烈拉高或拉低了平均值。解决方法是同时看中位数和平均数，“中间位置”往往具有“集中趋势”。二者差距异常必然有问题。4. 百分数（相对数）是怎么骗我们的？百分数必须考虑基数大不大，基数太小会显得提升/降低的百分数很惊人，基数太大会显得提升/降低的百分数很平常。我们要看的不是增长了多惊人的百分比，而是具体从什么数增长到了什么数。只拿出惊人的或平常的百分数又不告诉你基数的，也许在忽悠你。5. 中位数是怎么骗我们的？与平均数相比，中位数没有考虑强大“异常值”的影响，也许你就是偏向强大“异常值”呢，这种情况中位数就反映不出你的信息。解决方法是同时看中位数和平均数，二者差距异常则想想强大“异常值”。有人只拿出中位数或平均数一个给你看有可能是别有用心的。6. 与金钱有关的数据（票房数据增长、福利数据增长和最低工资数据增长）是怎么骗我们的？与钱有关的都要考虑一个重要问题——通货膨胀的影响。考虑了通货膨胀调整的实际数据和没有调整的名义数据差距非常大。给你的钱多了别高兴，也许购买力还下降了。7. 机构排名是怎么骗我们的？有些统计项目没有意义（比如优秀学生统计，有些学校只招优秀学生）或者有意义却难以统计（比如高校排名的“学术荣誉”），导致机构排名不合理，可能排名靠后的机构反而让你以较小成本获得较大收益。8. “盲品测试”为什么风险不大？所谓“盲品测试”是摆出相似产品（比如两种品牌啤酒），让某一品牌忠实客户在事先不知道的情况下测试自己喜欢哪一种。这种测试风险不大，因为大部分客户其实很难分辨两种产品的细微差别，结果就是抛硬币50%的概率。而商家只要表示另一品牌忠实客户有近50%喜欢自己的就达到营销目的了。9. 为什么赌场永远是最终的赢家？博彩业的每一种玩法规则定下来，概率就定了下来，定下的概率对赌场有利，长远来看赌场就是最终的赢家。足够长的时间足够多的次数，概率总是最终的赢家。（同样，保险公司也会是最终的赢家）10. 有人找我们玩“游戏”，该不该冒险？面对不确定，看期望值。把每一种可能与其对应的概率相乘并把所有结果相加汇总，得出玩这个“游戏”的期望值。付出的成本小于这个期望值就玩，大于就不玩。次数越多，结果越趋向于期望值。（推荐学习一下决策树形图）11. 统计学本身存在什么偏差？不负责任的数据使用：某些机构的“伪精准”数据、不知道事件之间的联系：有联系的事件连续发生的概率比独立事件大得多、选择性偏见：调查的对象拥有强烈的主观意愿、发表性偏见：给人们看的都是好的、记忆性偏见：回忆得到的是印象深刻的，不一定是真实的、幸存者偏见：走了一部分低端值，幸存的高端值拉高了平均值。还有诸多偏见等等。

亲民的科普

通过生动的故事和生活化的语言，介绍统计学的几种基本方法，让人发现用统计学的观念去看待社会生活中的现象原来是这么有意思，潜移默化地告诉我们，大数据时代，各种花花绿绿的数据和学说是否欺骗了我们？或是否作者自己也拿不准就在那里信誓旦旦？

赤裸裸的统计学下载精选章节试读

《赤裸裸的统计学》书评

类似图书

相关图书推荐