《女士品茶》书评

出版日期:2016-8
ISBN:9787210085254
作者:[美]戴维·萨尔斯伯格
页数:348页

引领我们测量上帝旨意的方法

《女士品茶》是著名统计学家大卫• 萨尔斯伯格撰写的统计学通俗作品。本书以“女士品茶”的故事为开始,但与喝茶和女士没什么关系,只是用“品茶”故事作为引子,通过生动有趣却不失严谨的实例论述了统计学原理,并使用大量的大众化的语言通俗地阐述了统计学的最大似然估计,假设检验,中心极限,大数定律等基本概念和方法,深刻地揭示了现代统计学发展的过程,展示了统计研究的工作方法。作者使用平和亲近的表述方式,让我们体验了一场关于统计学的奇妙认知之旅。在社会高速发展的今天,各行各业的发展都同统计学有着千丝万缕的联络。统计学可以为行业反应真实数据,帮助行业管理人员梳理出其中所需要的数据,从而根据专业的整合分析,能够宏观把控事态的发展方向,从而使得决策更加具有相对科学的预见性。比如城市交通拥堵的治理、人口普查等等,都少不了统计学的参与。有了统计这个定量分析的工具,很多科学研究就更加有效,结果也更加有说服力,更便捷地确定问题是什么。直到现在,大部分的研究都还是需要统计分析的过程,统计对科学研究的进步发展的意义是里程碑式的。南丁格尔有一句名言:如果要想了解上帝在想什么,我们就必须学统计,因为统计学就是在测量上帝的旨意。通过《女士品茶》,我们能够清楚地看到统计学的巨大威力:——费歇尔在农场里计量农作物与气候,雨量,杀虫剂,肥料之间的关系,在发表了《研究工作者的统计方法》这一系列举世著名的论文的同时,也改善了农业生产。——戈赛特先生在吉尼斯酿造公司通过解决测量在麦芽浆发酵是其所用的酵母数量,确定了泊松分布在现实生活中的实例和统计分布新观念的应用,同时也解决了该公司生产上的一个重大问题。——蒂皮特在棉花工业研究协会为找出最脆弱的纤维强度,发现了极致分度,也找出了最脆弱的纤维强度,从而提高了棉花的产量。——为解决靠近前线的军火补给站的最佳选址,以及解决军队的食物补给问题,产生了运筹学。战后又将其应用到了商业上,提出最优解,均衡有限资源,改进生产和提高产量等问题。当然,统计学的用处数不胜数,不能穷举,只能用大数定律来做简单的涵盖。统计学作为一门学科,同时也是一项重要技能。在生活、物理、社科乃至商业活动、政府决策,都能找到统计学的影子。随着互联网时代的发展,数字化进程不断加快,人们越来越多地希望能够从大数据中总结出一些经验规律从来为决策提供重要依据。1.应用于政府决策。人口学中的统计学应用、社会发展与评价、持续发展与环境保护、资源保护与利用、宏观经济监测与预测、政府统计数据收集与质量保证等都依赖于各类科学的统计方法。最常见的就是人口普查和交通流量监控。近年来,CPI指数、PMI指数等宏观经济指数,也都为国家宏观调控提供了重要依据。2.应用于金融行业。在金融业行业,统计学被广泛应用于金融风险研究,既为管理层宏观调控金融市场提供科学的理论依据,又对投资个人和机构实施风险控制进行指导。常见于利率、汇率以及债市等。3.应用于企业管理。利用统计学知识可以对企业进行财务风险分析、顾客行为分析、商品市场的变化趋势及经济环境的研究等。特别是在顾客行为分析方面,利用大数据进行产品营销,提供顾客满意度。每年淘宝、天猫、京东等大型平台均利用大数据进行顾客分析;搜狗输入法通过个人录入进行相关统计,为客户提供一手资料,等等。4.应用于旅游行业。随着旅游行业的不断拓展,统计学已经广泛应用于旅游行业,通过对旅客流量、宾馆入住率、餐饮收入等指标,进行预测,有效调控景区人流量,提高游客体验度。等等,等等。统计学不仅仅是统计数字,还具有调查、收集、分析、预测等功能。对于我们研究社会,研究世界;改造社会、改造世界具有非常重要的意义。想要学好、用好统计学,建议认真研读这本被称为“关于统计学历史与变革的书”——《女士品茶》。这里没有僵化枯燥的数字公式,有的只是统计学瑰伟的魅力。PS:大名鼎鼎的中统、军统的全称分别是:中国国民党中央执行委员会调查统计局、国民政府军事委员会调查统计局。

统计学与概率论

如果只是看看书名还真要让一大帮粗心男士错过,通过女士对奶冲茶和茶冲奶的判断来引出大量统计学的研究背景,学术和生活有时候真的是分不开,而大家耳熟能详的永远是物理学那个顺从地心引力掉下来的苹果,却不那么关注和数字密切相关的数学理论,当然,数学这门课程对于大部分人来说也确实足够枯燥。记得大学时候首先学习的是微积分,这是一门太过于恐怖的学科,大部分文史类学科的学生一定都是这门认为的,在度过漫长又痛苦的两年微积分学习后,紧随而来的是统计学和概率论,这两门学科总是让人觉得应该配套起来学习,尤其是在概率论中统计学是它的实验基础。数学类知识的实验远远没有物理化学那么生动和实际,永远都是枯燥的建模和数字计算。《女士品茶》深入浅出地描绘了统计学不断变革的发展史,带领读者一一回顾“统计”这门应用范围最广的科学,了解若干重要理论的发展过程与应用,亲近那些隐身幕后的统计学家,看看统计学究竟为今天这个世界,带来了什么样的改变。这是一部大数据时代不容错过的实用之书,大数据时代,一切以数据说话,如何解读数据便与每个人的日常生活息息相关,统计学的本质就在于解读数据,读懂了本书,你就是大数据时代的明白人。——内容简介《女士品茶》作者戴维·萨尔斯伯格,康涅狄格大学统计学博士,原辉瑞公司资深统计研究员,美国国家统计学会会员,先后任教于哈佛大学公共卫生学院,康涅狄格大学、宾州大学、罗德岛学院及三一学院,著有多部统计学专著,本书是其代表作。该书由刘清山翻译,译者同时还译有《横向领导力》、《物种起源》等作品。有的时候确实无法理解数学家们的生活状态,总觉得他们的世界里所有的一切都是由数字组成,就好像我们不再是一堆化学元素或者生物细胞,而是密密麻麻的数字,这种数字甚至可以跨物种的比较,除了数字就是各种曲线图和计算公式,好像这些数字一旦进入到公式中,就可以以一定的几率开始变化,而每一点细微的变化对公式的推导成功,都能让他们欣喜若狂。从偶然一天的下午茶,到自然灾害的出现,甚至已成文明的现有技术,都可以成为统计学重新推翻或者深挖掘的对象,我甚至在想那些已经成为其他科学领域的经典实验,统计学是否曾经或者现在都在质疑并重新测量确认着,即便是同属于数学领域里的概率,统计学是否也还在不断地计算和实验着?这个是在说不好,统计学质疑着一切也在证明这一切,这些原本不确定的因素因为统计学而变得确定,同样那些被坚定确认的情况也因为统计学而变得不确定,这就是统计学的严谨和权威。说实话我不算是严格的数学爱好者,但是相比之下,我还是比较喜欢统计学和概率论,它们在生活和工作中太具有可实践性,如果想对世界进一步的从数学角度认知,这本《女士品茶》不妨一读。

看完这本书,我的世界观都改变了

这本书讲什么?最近我在看《心理测量学》,被什么显著性检验、正态分布、方差分析搞得云里雾里的时候,看到了《女士品茶》这本书。如果只看这个大标题很容易引起大家的误解,还以为这是一本女性读物,或者是专门讲茶的读物。其实,这是一本不错的统计学发展史。一、这本书好读吗?作者想把这本书写得通俗易懂一些,好让我们这些外行们都了解统计学的革命意义,所以浓墨重彩地讲了些统计学家的八卦。皮尔逊的固执,戈塞特的低调,费希尔的天才,在作者的笔下,这些人就像一个个武林高手,演绎了一场跌宕起伏的统计学革命。二、外行也有读此书的必要吗?对外行来说,这本书有没有阅读的必要呢?或者说,外行看这本书的意义在哪里呢?1、了解统计学是一件工具这本书就像《苏菲的世界》一样,只是对统计学勾勒了一个轮廓,让我们大概了解整个统计学是做什么的——一门对数据进行处理的方法论和工具性质的学问。但如果我们想希望通过这本书提高统计学能力,那么作用基本为零。我在读这本书的时候,有一种似曾相识的感觉。原来心理学实验上用到的这个检验,那个公式,里面都蕴含着统计学的思想。如今,大多数的科学都在使用这些统计学数学模型对自己的数据结果进行处理、分析。如果你也正在学某一门自然科学,应该也会有相同的感觉。统计学是一个工具,我知道用这些公式的目的是什么,功能是什么,处于什么地位,拿来用就可以了。甚至,实在不行,我可以去求助统计学专家来解决我要解决的问题。就像现在计算机很重要,但也不是非得知道计算机底层结构是怎样的才行,我们知道计算机怎么用就可以了。这本书使我们知道统计学是做什么的,在哪里可以派上用场。这是我认为看此书的一方面的意义。另一方面,这本书也使我了解到自己在科学素养上是多么的无知和欠缺。2、冲击我的世界观此书给我最大的震撼,是用概率的观点来看待世界。这是在对科学规律的认知上给我带来的一大冲击。我一直以为科学都是确凿的规律,是本质的、精准的东西。科学就应该像牛顿经典力学一样,把一个世界用这么几条定理就概括了。但竟然不是。《女士品茶》:人类对模式规律很敏感,他们常常会在数据中看到某种模式规律,但实际上这些数据只是随机噪音而已……皮尔逊掀起的这场革命为我们留下了一份宝贵的遗产,那就是科学研究的对象不是观察到的事物,而是描述观测值概率的数学分布函数,今天,医学研究用精妙的数学分布模型确定各种治疗方法可能对患者产生的长期影响;社会学家和经济学家用数学分布来描述人类社会的行为表现;物理学家在量子力学中用数学分布描述亚原子粒子,有哪个科学领域能够躲过这场革命。2.1我的知识都过时了读了这本书后,我才知道原来我对科学的这种认识可以叫还原论或者决定论,存在200年了,早已经过时了。现在科学研究早已发现,研究对象不是一种精确的真值或者事实,而是一种概率分布,真值是并不确定的。只要掌握了牛顿运动定律,就能预测一切的那种思维方式已经被称为机械式的世界观。《女士品茶》:人们发现,牛顿和拉普拉斯使用过的定律只是一种粗略的估计,科学逐渐开始使用一种新的模式,即现实的统计模型。到了20世纪末, 几乎所有学科都已经转移到了使用统计模型的阵营。大众文化没有跟上这种科学革命的脚步。现在回想起来,我在上学的时候做物理实验,确实总也测不准像g这样的常数的值。现在通过这本书,我明白了,g值就是测不准的。看来,像我这样只接受过大学以前理科教育的文科生,知识早就陈旧了,完全跟不上现在科学的发展了。《女士品茶》:老师常常教导我们,科学就是我们通过仔细的测量发现了描述自然的数学公式。在高中物理课上,老师告诉我们,物体自由 落体的距离与时间的关系可以用一个公式表示,公式中包含一个符号g,表示重力加速度常量。老师告诉我们这是一个确定的值。不过当高中学生为确定g的值而进行一系列实验——让小型重物滚下斜坡、测量它们抵达不同位置所需时间时,发生了什么现象呢?他们很少能测出正确的结果。学生的实验次数越多,他们就越困惑,因为不同的实验测出了不同的g值。这时,老师从高高的讲台上探下身来, 安慰学生们说,他们之所以没有得到正确的结果,并不是因为他们马虎粗心或者抄错了数字。老师并没有告诉学生们,所有的实验都是不准确的,即使是最仔细的科学家,也很少能测出准确的数字。每个实验都会出现无法预测、难以观测到的干扰。室内的空气可能过于温暖; 下滑的重物可能在滑动之前停顿了―微秒,一只蝴蝶经过时产生的― 丝微风可能也会产生影响。我们真正从实验中得到的只是一堆数字, 其中没有一个数字是正确的。2.2 用概率的观点看世界心理学的很多实验,大多是基于一种统计上的相关性。这是一种概率分布,而不是大家期望的那种确凿的因果关系。比如说吸烟和肺癌的关系,我们能明显地看到它们之间的统计相关性,但我们不能说它们是因果关系。人们能很容易地找到身边的反例进行反驳,那个谁一辈子吸烟还活到了90岁。这就是没有用概率的观点来思考的表现。人们对概率的天生感知能力是很弱的,我们都喜欢用因果关系来判断两个事物之间的联系,却不习惯用概率的观点来处理事物之间的联系。《女士品茶》:凯恩斯在《论概率》中提出……人很难分辨72%的概率与60% 的概率之间的区别 。在制定决策时,我们很少需要知道某—事件的精确概率,能够为事件的概率排序通常就已经足够了。2.3统计相关性和因果相关性传统的理解认为,在得到统计相关之后还需要进一步分析因果性。如果持有这个观点,很难说真正理解了统计革命,因为讲因果性还是还原论、决定论的思维。本书给我一个想法是,有没有可能,本来就不存在什么因果性,本质上就只有一种统计相关性呢?《女士品茶》:20世纪30年代早期,罗素有力证明了常见的“原因与结果观念是 一种不自洽的思想。我们无法根据同—种推理过程将原因与结果协调在一起。实际上,这个世界上并不存在什么原因与结果。原因与结果是大众的幻想,它是一种模糊的观念,经不起严格的理论推敲, 它包含一些相互矛盾的、不一致的思想,在科学上几乎没有任何意义。2.4无序和有序的关系最近我也在读薛定谔的《生命是什么?》,里面讲到,原子级别的微观世界的运动是随机的布朗运动,是没有倾向性的。只有当天文数级别的原子组合在一起,才能产生一种规律性,产生某种确定性。有一点感觉自己要陷入不可知论了,但其实不是。这种概率的思维也许更符合实际一点,因为如果我们认为这个世界,什么东西都存在一个因的话,那么我们很可能像牛顿一样非要为了找出那个终极的原因而只好搬出一个上帝来了。对自己的要求最后按照惯例,我要思考一下如何运用这本书的读书所得。我的感想是,我们要适应这种用概率的观点看世界的思维方式,这样就不会轻易给科学研究结论下因果判断,也不会轻易用因果关系去解读科学研究成果。文/逆水行舟

拉一拉统计学的衣角

  在读完这本书之前和之后,分别看到了两个颇有意思的事儿。  某个读书群的群主发话:请各位书友注意,《女士品茶》的副标题是——统计学如何变革了科学和生活,这不是一本教你如何品茶的书,请看清楚再约评!  另一个是读完书以后,在出版后记里看到“先加奶,还是先加茶,哪一种方式冲泡的奶茶口感更佳?”……要回答以上问题,你就必须懂统计学方面的知识。……  《女士品茶》是一本撰写统计方法变革以及发展的书,更偏向于历史。封面上写着“科学松鼠会推荐统计学领域入门必读书”,在我看来,科学松鼠会对于统计学的入门门槛似乎略高了。虽然作者在后记里写到“我并不是要写一部全面的统计方法发展史。本书的目标群体是几乎没有经历过数学培训的读者。”但如果没有一定的数学基础和统计学知识,要想通读这本书是需要相当的耐心的。所以作者花费了相当大的心血,为了吸引读者,做了两个重要的安排:  一是作者大致按照时间的顺序来讲述统计学发展的历程,这与普通读者阅读历史书籍的理解模式基本一致。任何一本科学发展,都是新理论的发现不断更新与迭代过去的理论。统计学也一样,按照作者的写作顺序阅读会发现,后文会多次出现引用前文的内容,后来的统计学家也多半是站在前人的肩膀上不断探寻得到统计学的新内涵。  二是作者为了照顾阅读体验,在每章开始挂上一个吸引人的标题,然后介绍这个篇章里的主人公遇到或者解决了一个什么现实问题,统计学如何在其中发挥作用云云。如同书中提到的,许多统计学家对于发展到后来越来越脱离现实的某些数学领域持有一定的批判态度,统计学就是务实的、贴近生活的,是在生产、医疗、环保、农业等方面实实在在去解决现实问题的一门学科,对于背景的介绍和生动举例能厘清统计学发展的原因,增强读者的阅读兴趣,这也是作者把这本书定位在统计学入门读物的原因之一吧。  作为一个对于统计学略懂一二的入门者,在读这本书时,很遗憾没能看到一些简要的数学推理证明或者表达式。其实也很容易理解,无外乎上文提到的照顾初学者的阅读体验,以及全书的篇幅问题,字典一样的入门读物通常不会太受欢迎。但这本《女士品茶》着实带来了一些收获:  一是补充了许多学到过的统计学知识背景,诸如t分布、中心极限定理、置信区间等在解题和实验时经常运用,现在更明白了它们从哪来,加深了对这些学习内容的理解。  二是得以窥探各个时代诸位统计学大家的风采,虽然他们也有派别之分、各执一词,但对于科学的奉献精神令人赞叹。  三是书的最后附有大事列表,是日后反查和搜索更多详细资料的绝佳索引。  最后,回到一开始的那两个事儿:  1.这本书真的和教你如何品茶没有半毛钱关系;  2.这本书不是通过统计学得出哪种煮茶方式更好喝,而是书中的一个实验引发的对于统计学中概率的思考:一位女士号称能品尝出一杯茶到底是先加茶还是先加了奶,具有科学精神的统计学家们不以为然,但是凭借科学实验精神设计了测试方式,真的冲泡了N杯让这位女士一一品尝。这位女士是真的能分辨出来?还是靠猜?多少的正确率才能确认这位女士真正有能力分辨一杯茶的冲泡顺序?想知道答案的话,看看《女士品茶》就明白了。  至于哪杯好喝,又有哪个统计学家在意呢?

天天生活在大数据统计里,总得懂点什么吧!

有一天我要给客户介绍微博的各个推广位,右边及底部的广告位一直跳出我昨晚搜索过的蕾丝内衣。性感的肉体不停的闪现。给客户介绍的那几分钟是我为数不多的人生尴尬之一。后来我知道这是网页的抓取功能,有专业的名称——“爬虫”。只要你在淘宝或者别的网页搜索过特定名词,不管你打开什么网页,广告位总是你刚搜索完的物种。这是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,搜索引擎优化很大程度上就是针对爬虫而做出的优化。以上,可以俗称大数据统计。我曾经服务过的一家公司是“海关数据”的整合公司,用海关编码可以查询到这款产品的进出口数据,包括中国的每年的出口数据,美国、俄罗斯、加拿大等各国的进口数据。通过中国的海关出口单据、海外的到港数据及各种提单进行完美整合的一款产品。这有什么用呢?举个例子,你是生产毛绒玩具的生产商,通过毛绒玩具的HS编码,你会在平台上找到这款产品在之前的5-10年每年的出口数量是多少,进口国最大的国家是哪一国。进口这些产品的商家是什么公司,运气好的可以找到这些进口商的联系方式。进出口知识丰富的可以通过一张提单的数据反推出一款产品的成交价格是多少,这家企业一年的进口数量是多少。接下来,针对这个企业的报价单就可以完美呈现自己生产的毛绒玩具有多符合这个客户的需求。《货币战争》早就告诉我们提前知道一些数据对自己有多管用。通过数据统计分析得出自己想要的信息,这就是大数据的魅力。我可以再举个例子,购买过这款产品的有一个客户,他们是几个开外贸公司的年轻人,购买了一款产品的海关数据,涵盖该产品的各国概况、准入标准、各国政策、以及10年内产品的进出口数据。经过一段时间的潜心研究后,他们发现了在某洲的一个地区led灯的进出口数量都为零。但是这个地方的周边地区都已经在大量采购led灯泡了。他们直接买了机票飞到该国,实地考察当地市场,一家一家商超及经销商的去洽谈led灯泡的销售。一年后,他们收获了这个地区的2000万订单。有些人可能觉得统计没有这么强大的能力。那么说个最简单的,一家餐厅刚开始营业,并不能确定自己每天的销售数量,但是第二天,店主可以通过第一天的销售大致预估准备第二天的食材,第三天可以通过前几天的销售准备当天的食材,一个月之后是不是可以通过数据统计分析得出餐厅下个月的备货数量了?这就是统计学啊!一家超市卖薯片。他想知道哪个口味的薯片卖得最好,那么最好的办法就是整理自己的出库小票。用一个月、一年、三年的数据来得到最接近事实的数据。同理也可用于薯片生产商。现在做电商,各大平台都会提供相应的数据分析,可以让你看到你想销售的产品在该平台一年有多少销量、你设定的关键词有多少搜索量、这款产品主要分布在哪些区域、价格区间是多少,购买对象集中在哪个区域,什么年龄段。这似乎已经成为了做好电商的必备工具。这就是大数据分析。虽然我们现在把大数据、统计、分析说的很神奇,但是这其实始于20世纪20年代的一位女士,她提出将茶倒进牛奶与将牛奶倒进茶中所产生的味道不一样。罗纳德.艾尔默.费希尔听到了这个说法,他决定用一组实验来验证这位女士的这句话。第一次统计分析便是记录在册的这次:提出论点——提出假设——进行实验验证。数据统计、实验统计是怎样改变我们这个世界的运作和生活的呢?我还有很多例子可以举,但是要知道这段历史和其中的故事大家可以来阅读这本《女士品茶》,书本会告诉你统计学是如何变革来科学和生活。书中介绍一个新的概念时,穿插了大量的背景介绍,再辅以相关奇闻异事。就算你对概念一窍不通,但读完一个章节,你就能明白其中的特定概念。书里讲的故事,可比我前面讲的内容有趣多了。天天生活在大数据里,总得知道点什么吧!比如:大家都知道“概率”的意思吧,但是在这本书里非常细致了讲了概率的出现,各种大拿提出的理论,以及最后“概率”的各种野史。最后我想说句,我一直觉得能写这种书的人特别牛,不仅要博览群书、逻辑清晰,还要是个特别有耐性的人,唯有将读者都当成“弱智儿童”才可以将这些概念介绍得如此细致,如此不让你接着提问为什么。

统计学是建立在沙土之上的摩天大厦吗?

前几年曾在面试时遇到一个统计学的毕业生。据他说,每一场面试中他都需要向面试官们解释统计学是什么,可即便如此还是有很多面试官认定他学的是数学,提出一堆高等数学的问题来考他。当他打不出来的时候自然就会被扣上个“学渣”的帽子。说起来很多人分不清统计学和数学的区别也算是情有可原的,统计学本身也就是20世纪才发展起来的新学科,而且统计学中使用的很多计算涉及高等数学。对于没有接受过专业学习的普通人来说要分辨其中的不同还是有难度的。戴维·萨尔斯伯格的这本《女士品茶》通过对统计学界大师们的介绍串起了统计学的发展历程,书里虽然没有高深莫测的数学公式,但真读起来也不是那么轻松的。与其他任何一门科学一样,统计学起源于生活。下午茶时一名女士提出将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。听到这话的人们大多认为是这位女士的偏见,只有费希尔教授认真思索了这个问题,并尝试通过实验进行验证。听起来只要做实验是件挺简单的事儿,可难就难在实验如何设计。这应该是每一个统计学家面临的难题。统计学的研究是建立在对数据的搜索、整理和分析之上的,使用哪些数据舍弃哪些数据,这些数据如何采集,需要考虑哪些变量和因素。对这些问题的不同回答都将引导出不同甚至完全相反的结果。做过实验的人都会知道,每一次实验得到的结果并不必然相同。因为每一次实验涉及的不可控变量有很多。而统计学家们只能对实验得到的数据进行分析进而制造出统计模型。而当我们将统计模型用于剖析现实预测未来时则迎来了统计学中最重要的一个难题——统计模型可以用于制定决策吗?戴维选择了“吸烟会致癌吗”这个大众很熟悉的论断来解释统计学面对的难题。医学界实验研究表明吸烟会导致癌症,这激怒了大烟民费希尔。不巧的是,费希尔是统计学界的天才,他不仅怀疑研究人员删减或改动了实验数据,而且还质疑实验使用的实质蕴涵不足以描述大多数科学结论。医学研究人员使用的实质蕴涵是由哲学家罗素提出的。罗素早在20世纪30年代就已经证明常见的“原因与结果”观念是一种不自洽的思想。这个世界上并不存在什么原因与结果。原因与结果是大众的幻想,它是一种模糊的观念,经不起严格的理论推敲。罗素提出我们可以使用符号逻辑中一种明确定义的概念代替因果关系,这就是“实质蕴涵”。费希尔认为吸烟与癌症的因果证明过程中需要使用的并不是实质蕴涵,而应该使用对实验对象进行随机处理的实验方法。而另一位统计学大家康菲尔德则认为,有些事情不允许你进行随机实验的设计,证据的积累也可以用于证明结论。费希尔与罗素的分歧在于,统计学是概率体系,有些命题很可能为真,或者几乎为真。而在逻辑世界中,一个命题要么为真要么为假,两者之间存在清晰的界限。科恩提出的“彩票悖论”更能直接显示出,根据概率观点制定的决策并不是符合逻辑的决策。20世纪统计学几乎在所有学科中击败了决定论。在21世纪,统计学会不会步决定论的后尘呢?让我们拭目以待!

统计学离我们普通人的生活有多远?

统计学是什么?如果不是专业人士,是不是可以一辈子避而不见?最近因为要写论文,开始啃各种大数据的书与论文,各路大牛竞相争论大数据究竟是统计学的发展,还是站在了其对立面,开启了全新的数据处理方式?而身为一个没有学过高数的文科生,对于统计学的知识同样匮乏,还停留在划正字统计的初级阶段,面对数字公式与符号更是迅速阵亡。作为一个文科生,在与统计学狭路相逢时,最初是抗拒的,十分期待遇到一本界面友好的入门书。在戴维·萨尔斯伯格的《女士品茶》的开篇,作者便表达了对妻子的感谢:“她一直督促我将这些故事整理成一部不涉及数学符号的书籍”。这本由一位同样不擅数字的妇女监督而写成的统计学科普书,给文科生靠近统计学带来了一线生机。统计学中最为核心的概念无疑是“概率”。在现实生活中,概率意味着什么?萨尔斯伯格同样在书中提出了这样的问题并试图解答。在我们并不知道“概率”为何方神圣时其实早已在不自知时使用了它,可更为通俗地表达为可能性,比如我们觉得下雨的可能性超过一半(概率大于50%),便会备上雨伞,如果更为谨慎,大约会先听一下天气预报,如果听到降水概率为75%,自然而然会想到带伞出行。这很日常,也很统计学。在《女士品茶》中,萨尔斯伯格同样援引了萨维奇在《统计学基础》中的观点:“人们天生就知道用概率来管理自己的生活。在从事一项冒险之前,人们凭借直觉判断各种结果出现的概率。如果一个人认为遇到危险的概率非常大,那么他就不会采取这种行动。”然而,尽管早已不知不觉使用了概率,但我们未必真的理解概率。萨尔斯伯格对于“个人概率”概念的一致性假设进行开炮,引经据典,形象犀利。所谓一致性假设,需要保证人们对各种事件的概率做出一样的判断,即“保持内在一致性”,在数据足够多时,有理性的人将最终达成一致。举例而言,不同的人对于同一个地方的降雨概率应该有一样的判断,面对相同的数据,不会导致两个人分别估计此地下雨的概率为70%与90%。从凯恩斯开始,便对这一假设进行了反驳,个人概率受到文化环境的影响,而非由内心直觉直接决定,同样,更多时候,作为普通人,我们无暇分辨68%与70%之间区别所带来的巨大差异,在我们的想法与实际运用中,概率的排序比精确的数据更为实用,“在制定决策时,我们很少需要知道某一事件的精确概率数值,能够为事件的概率排序通常就已经足够了”。在绝大多数场合,我们无法获知足够的数据,所谓概率的判断不过反映了人类量化不确定性的模式,其中反映出了粗略的特点。最终,统计学家略带沮丧地发现:“没有一个人的表现符合萨维奇的一致性标准”,“只能对50%的概率和‘几乎一定’的含义保持一致的感觉。”概率似乎因此被拉下了神坛。那么,概率究竟有没有用?即使粗略,概率中所反映的数据的分布即使在统计学与社会发展到今天,依然被我们所研究所看重。随着大数据时代的到来,传统统计学中的抽样概率也许会渐渐失去其垄断地位,但统计学仍然是我们遭逢数据的法宝。无论在哪个领域,大数据均以将我们裹胁,作为决策的基础,概率乃生存之道。也许,就如书封所言:“了解统计学的人,运气都不会太差。”

懂点统计学

最近一年多来,每当处于美国议息会议前夜,美国即将公布的非农就业数据就备受关注,我们以为这个数据是经济学家的事情;你我都做个几个心理测试,例如几个问题下来,将你初步划分为绿色、红色或黄色型人格的性格测试,我们以为这个测试都是心理学家的事情;在报纸上,经常看到一些社会数据公布,例如男女比例、离婚率等,我们以为这些都是社会学家的事情。 其实以上3个问题的答案,都大可商榷。的确,这3个问题可分别划分为经济学、心理学及社会学的范畴,但它们又同时运用了统计学的知识。我们身边,从不会出现独立的统计学数据,统计学总是与各种学科结合,让我们通过大数据洞悉具体领域的情况。美国统计学家戴维•萨尔斯伯格,所写的《女士品茶》一书,讲述的恰是你我这些非科班学生感到陌生的统计学的故事。一位女士品茶的事件引申出一个问题——如何科学地设计实验,才能获得证明该女士品尝茶能力的数据?正是由这些实验设计开始,统计学逐渐独立于数学、数据,成为一种处理问题的科学方法,并渗透到生物学、医学、心理学、社会学、计算机学等所有需要整理、描述、分析数据的学科。它的重要性不言而喻。几个重要的统计学概念1、实验设计“尽管科学的发展来自仔细的思考、观察和实验,但从来没有人能说清应当如何做实验,而且人们通常不会把完整的实验结果告诉读者。”费希尔通过女士品茶这个实验衍生开来,写下《实验设计》一书。他的结论是科学家在实验之前需要为实验结果建立数学模型。数学模型指的是一组等式,其中一些符号代表实验中收集的数据,另一些符号代表实验的总计结果。科学家需要根据实验的数据,计算出相应的合理结果。在最初,统计学是用来指导科学、合理地设计实验的。2、相关与回归“均值回归”这个现象,相信你我都不会陌生。例如如果父亲非常高,孩子往往比父亲矮;如果父亲很矮,孩子往往比父亲高。似乎有一股神秘的力量让人类身高远离极端,朝着所有人的平均值靠拢,维持了人类物种的平稳?英国科学家高尔顿发现了对这种关系的一种数学度量(我只能惊叹,这都能找到!),称之为“相关系数”。他给出了一个具体的公式,可以测量均值回归现象的一个参数,虽然这个参数不能告诉我们回归现象背后的原因。“相关”这个词便是首先出现在这,然后慢慢融入了大众语言。在统计学里,“相关”是有特指意义的,生活中你误用了吗?3、概率在数学书上第一次接触概率时,经常会举的一个例子是如果你无限次抛掷一枚硬币,那么得到正面与反面的概率都是无限接近与50%。一个事件的概率,是指长期来看该事件发生次数的占比。上述重要的概率定理称为大数定律,即如果某一事件拥有固定概率,如果我们不断进行相同试验,该事件发生的比例约来越接近于该概率。4、引申一个有趣的概念:个人概率以上是统计学中的“概率”概念,而我们在生活中,通常是用“概率”描述我们对不确定性的感知。例如看着窗外的一团乌云,我觉得50%会下雨,而同事可能觉得80%会下雨。我们得出不同的概念与我们以往的经验有关,我的经验是,以往出现类似乌云时,只有一半几率是下雨的。而我同事以往看到相似乌云时,大部分情况都真的下雨了。所以,我们看到相同的一片云,但得出了完全不同的概率。于是,在我犹豫着下班要不要带伞时,我的同事已坚定地带着伞走出办公室门了。看,指导我们行为的不是客观概率,是个人概率哦。以上,只是列举了一些我们经常接触又比较容易理解的概念,《女士品茶》里还有许多重要的统计学故事及它如何影响了其他学科的发展,我在此就不班门弄斧了,留待对统计学感兴趣的你逐一去发掘。看完全书后,我的一个想法是,统计学其实也不像一门独立的学科,而更接近于一种方法论,而且是应用性非常强的方法。这个问题,留待科班学生替我解答了~~

人人都可拥有的上帝之眼

俗话说的好“爱笑的女生,运气都不会太差”。 科学松鼠会推荐的统计学领域入门必读书——戴维•萨尔斯伯格所著的通俗统计学“史书”《女士品茶—统计学如何变革了科学和生活》一书的封面上将这句话稍作改变变成了“了解统计学的人,运气都不会太差。”这句话很好的映证了南丁格尔的观点:“若想了解上帝在想什么,我们就必须学统计 费希尔所提到的后人不断证明前人过时或错误的观点 ,因为统计学在测量他的旨意。”试问,掌握上帝旨意的人,运气又怎么会差呢?《女士品茶》绝对称得上是大家小书,作者戴维•萨尔斯伯格本就是统计学博士,在本书中你可以看到一部统计学的发展史,有传奇人物,传奇故事也有个人恩怨,思想碰撞。神奇的是作者却能深入浅出地运用文字而非数学语言将一部伟大的统计学史诗展示给非专业非数学领域的普通读者,而不致使他们觉得困惑迷茫。对我而言尤其兴奋的是在阅读过程中发现了很多我以前不知道的事:1-蝴蝶效应源于 1963年混沌理论学家爱德华•洛伦茨发表了的一篇演讲,题为《扇动翅膀的巴西蝴蝶会引起德克萨斯的龙卷风吗?》。这篇演讲后来被很多人引用,其中洛伦茨的主要观点是:混沌的数学函数,对初始条件非常敏感,初始条件的微小差异在经过多次迭代后,可能导致完全不同的结果。他的这种蝴蝶效应思想,已经被混沌理论的推广者当成了深邃而明智的真理,并且远远超出统计学的范畴,表达了更丰富的哲学内涵,最常见的恐怕要数万物是普遍联系吧。2-凯恩斯大多数人提到凯恩斯,第一个想到的就是凯恩斯主义,强调“看不见的手”,主张政府对经济的干预。人们往往认为他是经济学家,是凯恩斯经济学派的创始人。但其实,凯恩斯本人是一位哲学博士,他于1921年发表的博士论文《论概率》是数理统计哲学基础发展过程的一个重要里程碑。在他看来,概率衡量的是所有接受某种文化教育的人为某种情形赋予的不确定性。概率是由一个人所处的文化环境决定的,不是由他的内心直觉决定的。简单举例就是对一个中国人而言愿意裸婚的概率肯定远远低于西方人。这是概率问题,更是由文化环境决定的。3-南丁格尔弗洛伦斯•南丁格尔是英国维多利亚时代的一位传奇人物,是护理行业的开创者,“5-12”国际护士节就是设立在南丁格尔生日,用以纪念她对人类所做的无私奉献。但同时,她也是一位自学成才的统计学家。为了迫使英国军队设立战地医院,在战场上为战士提供护理和医疗服务,她发明了饼图,用以处理数据和向议员和军方展示自己想要传达的信息。4-约翰•图基你可能没听说过他的名字,但你一定听说过“比特”(bit)和“软件”(software),这两个单词都是图基发明的,前者表示二进制位,后者表示与电脑“硬件”相对应的计算机程序。他不是计算机领域的从业人员,这只不过是他众多纷繁的思想在计算机领域的应用。他被戴维•萨尔斯伯格称为统计领域的毕加索,用以描绘图基丰富的想象力以及无穷的开拓创造力。5-“鞅序列”法国数学家保罗•列维为他提出的一组数字序列命名“鞅”训练。其中“鞅”源于赌博术语,是指赌徒每次失败时加倍下注的做法。这个词还有另外两个意思。一是法国农夫用来让马低头,不让马回头的装置;二是从帆船的吊杆上垂下来的,用于防止吊杆晃动过于剧烈的重木。当然这个词本身来自法国马提克的吝啬居民。除此之外,《女士品茶》主要讲述的是统计学的发展史,这自然离不开发展的主体了。俗话说的好有人的地方就有江湖。虽然都是以发展科学,追求真理为目标,但每个科学家在他们的位置和学说领域都时不时会体现出一种固执的“偏见”。卡尔•皮尔迅的自傲和在《生物统计》中所表现的偏执的理念使得他和费希尔水火不容,面对卡尔•皮尔迅的打压,费希尔回应的是一系列的研究专著,最终他的统计估计法取得胜利,最大似然法统治了世界,皮尔逊的方法被人们丢尽了历史的垃圾堆。在一次受邀讲话中,费希尔说道,从某种程度上,前人阐述的观点,可能会被后人证明是过时或错误的,这是不可避免的事情,但却并非人人都能理解并做到尊重。为此他还专门对年轻的科学家提出提醒和建议:当你想要为人类的知识宝库献上一颗宝石的时候,你一定会受到某些人的攻击。在很大程度上这段讲话是意有所指的。但当他的学说暴露出问题,面对年轻学者内曼的挑战,他几乎是歇斯底里地重复了和皮尔迅一样的态度,对新学说大加批判。看来虽有点讽刺,但也确实映证了费希尔讲话中的观点:这是这个行业固有的问题。对前人思想的继承和发展,加上 费希尔所提到的后人不断证明前人过时或错误的观点共同构成了《女士品茶》的叙事脉络,这绝对是统计学史的经典入门读物,大家写小书,不可错过。

不确定?这很统计。

作为一名女士,我喝过的最难喝的茶,大概就是同事一脸贼笑递过来的号称『欧洲带回来的』高级茶,老外真的是什么都敢往茶包里面放,玫瑰、柠檬、薄荷、迷迭香、八角、大料……(喂喂)。在撕开《女士品茶》这本书的塑封之前,我想过无数种由女士品茶切入统计学的角度,比如茶的成分、水的颜色、异常好闻的香气和异常难喝的口感之间的关联等等,等打开书一看,哦,居然只是简单的放牛奶顺序啊,看来老外真的是不懂喝茶。话又说回来,怎么样的契机无关紧要,关键是,就从这样一件小事开始,科学家们两眼闪闪发光,充满干劲地为之设计实验,其中最为起劲的可能就是后来因『最大似然法』而闻名于世界的费希尔(Ronald.Aylmer.Fisher),他在一本名叫《实验设计》的书里提到了这个实验,带出了『科学家应该在实验之前为实验结果建立数学模型』的观点,这个观点也是二十世纪上半页横扫所有科学领域的统计革命的重要组成部分。在这之前,科学家们已经孜孜不倦地在各种领域钻研了几百年,他们仔细而勤奋地观察、思考,并且着手进行各种各样的试验,以现代的眼光看来,他们尽管工作的非常努力,却并没有比那些靠天吃饭的占卜师或者是炼金术士高明多少。原因在于他们的所进行的实验产生出大量的数据,但是这些数据却充满了随机性,完全没有办法从中整理出什么可以被证实的规律。科学家们左一篇右一篇地发表论文,比如『第一年使用硫酸钾、第二年使用硫酸钠,就可以让某些土豆增收』,之类充满了仪式感的结论,最终被证明不过是美好的愿望或是错觉。当然了,也并不是所有的实验都充满着那么多的随机性,比如我们都已经非常熟悉的天王星的轨道,尽管存在着扰动,但也不至于就会飞成方的。现在人们知道天王星轨道的实测值与计算结果存在偏差是因为有海王星的存在,然而在统计模型被提出来之前,科学家们即使测到了不一样的数值,可能也只会抱怨一声然后把这些数据丢掉,好确保论文的可信度和逻辑性。统计学对于现代科学的意义深远,而他本身却并不像理论物理或是理论数学那样『硬气』,相比于探究宇宙空间、探索地球内部之类高大上的课题,统计学更像是一门新兴的边缘学科,很多人可能学过了正态分布,玩过赌徒掷骰子的趣味游戏之后就宣称自己懂得处理数据。并且看完全书可能就会发现,对于很多实验,科学家们无法提出一个确切的结论,所有的工作只是在无限逼近真相,而我们并不知道真相距离我们到底有多远。童话故事《随风而来的玛丽·波平斯阿姨》里提到过一头非黑即白的牛,对于这头牛来说,世界要么是黑色,要么是白色,不存在深灰浅灰;青草要么是好吃,要么是难吃,不存在什么马马虎虎。现在看来,这头牛简直就是『理想情况』的隐喻,就像是逻辑与非门,要么为真输出1,要么为假输出0,然而真实的世界却并不如此,有98%的黑色,也有80%的深灰,这种不确定性至今仍然是盘旋在统计学上方的一大片阴云。谁也没办法知道什么时候又会出现一场新的统计革命。于是我们可以说,是的,这很统计。《女士品茶》这本书,是由康涅狄格大学的统计学博士所著,封皮上还印着『了解统计学的人,运气都不会太差』这样的宣传语,然而,如果说你想从这本书里面学到一些统计的方法或是掌握一个万能的模型,从而掌握人生路上的所有不确定,那么你注定要失望而归。但是如果你愿意花一个下午时间,和作者一起八一八统计学发展史上那些科学家,顺便了解统计学,那么我想你一定不会后悔。和国内那些半宣贯半糊弄的科普作品不同,这本书真真正正是由专家写就,翻译水平也相当可以,你可以看到统计学史上那些大师们,或者任性、或者狡黠、或者谦逊,却又都十分认真,十分努力,甚至还能从字里行间里听到早期那些笨重的计算机运行时候的喘息,以及计算员们摇动机械计算器时候发出的咔嚓咔嚓声。

开学读物

这是一本历史书,讲统计学及其科学应用的发展,目标群体作者在后记写明是"几乎没有经历过数学培训的读者"。写得如何我读书少无从评判,读起来体验是好评的。就"有趣"来说,这本书是一个恰当的例子,我们可以轻松地跟着作者的编排走。副标题"统计学如何变革了科学和生活",对应原文是How Statistics Revolutionized Science in the Twentieth Century,框了一个时间范围。背景是科学的哲学观念和实践从19世纪的决定论向统计模型的转移。作者在自序里从"机械的宇宙"引入统计的基本概念,并明确了以人物为关注点的大众视角。不过20世纪发生了很多事,略微标题党。全书有350页29章,篇幅不小,好在章节轻盈,便于翻阅 。上半部分出场人物有限,下半部分较为分散,大致是群英录。早前的the Bernoullis,Fermat,de Moivre,Pascal 只偶尔提到了,主角列表有Karl Pearson,天才Ronald Aylmer Fisher,大宗师Jerzy Neyman,罗刹国Andrei Kolmogorov等,主要讲轶事,八卦之余讲学术话题。标题来源于一个实验,发生在剑桥的一次下午茶,"实验设计"的统计学方法论。进化论科普读物《自私的基因》第一章Why are people?作者Richard Dawkins 引用"著名动物学家辛普森(G. G. Simpson)"的说法"现在我要讲明的一点是 ,1859年之前试图回答这一问题的一切尝试都是徒劳无益的 ,如果我们将其全部置于脑后 ,我们的境遇会更好些 ",介绍Darwin 的工作。本书里也有一个类似的起点,标志性人物是Karl Pearson。"我个人倾向于认为统计革命始于19世纪90年代卡尔 皮尔逊的工作",并且根据作者的介绍,Pearson 是兴趣在"科学和数学模型的本质上"的政治学博士(Marx 的迷弟,为了男神改了一样的名字)。男一与Darwin 除了同为英国同胞之外,还有一位重要的共同中间人Sir Francis Galton。Galton 是Darwin 的表弟,追随他的学说,从事生物测量、统计等工作,按照作者的说法,"他是一位独立而富有的业余科学家"。而男一Pearson 的统计学工作正是受到Galton 的影响,并接手了Galton 的生物统计实验室。故事围绕着工作背景,期刊论文,告诉读者学的那些东西发现的情形。从英国,到欧陆,最后到美国,伴随着战争、经济、公共卫生、工业等方面的应用。在末章,作者引用了Thomas Kuhn的《科学革命的结构》,"建立在沙土上的摩天大厦"暗示着学科并不坚实的基础和潜在的危机。饶有趣味,不明觉厉。我在友邻的豆列看到这本书。大概是5年前,买不到,学校也没有。过了这么久现在出了这一版,我也是闲。这种书给学生看嘛。

上帝掷骰子吗?

很多人都认为统计学是如此的高深莫测,让普通人难以下手。记得本科时参加全国数学建模时有道题是根据土壤,阳光,肥料等等条件评价葡萄生长情况,当时折腾SPSS统计软件,也用p值处理我们的问题。考研时,重新看概率论和数理统计时仍然觉得云里雾里,很多术语也只是虚知其表。遗憾当年没有邂逅《女士品茶》这本书,不然想来也能让我在学习数理统计时多几分乐趣呢。初次拿到这本书时,相信很多人和我一样会被《女士品茶》这个书名所吸引,如果你也以为这是一本讲述品茶或者茶道的书,那么倒不妨多看几眼。原来这本书只是借女士品茶这个小故事带领我们翻开统计学的史诗,一起去看20世纪统计学的风云人物怎么演绎这场史诗。19世纪,科学的大厦好像已经建设完毕,科学界也形成了一种坚定的科学观念,这种观念被称为“按时钟前进的宇宙”。科学家相信,只要少量的数学公式,他们便可以描述,预测这个世界。从天上的行星到地上的石块,万物都毕恭毕敬地遵循着这些公式。1846年,科学家用牛顿数学定律预测了海王星的存在,更是科学的胜利之一。人们似乎相信,上帝造物的秘密已经完全被掌握,剩下的工作只不过是修修补补。然而正是这些修修补补发现了大问题,让这座大厦轰然倒塌。当时的实验者们发现观测的数据与计算的数据总是不吻合,有误差,一开始只是以为大气扰动,人为差错导致的。但是随着测量精度的提高,这些误差不仅没有消失,反而变大了。人们越来越多的发现,以前的公式只是一种粗略的估计,数据上越来越多的显示出随机性。至此,科学开始走向一种新的模式,即现实的统计模型。统计学开始逐渐走上舞台,成为20世纪的主角,并在21世纪依旧熠熠生辉。统计学的天下“父母越高,孩子越高?为什么长久以来人类的身高没有大的变化?”在《女士品茶》中最先出现的就是Galton做的这段研究。似乎有某种神秘力量让人类身高远离极端,朝着所有人的平均值靠拢。高尔顿把这个现象称为“均值回归”,很多领域都运用到了这个模型。人类的身高基本维持稳定,物种在代与代间维持相似性,不过最先以公式表现的确实他的学生Karl Pearson。从这里开始,统计学的一个个大神们悉数登场,Karl Pearson提出了用偏斜分布思考测量出来的数据,揭示了科学研究的对象不是可以观察到的事物,而是描述观测值概率的数学分布函数,从而掀起了统计学的革命。Gosset在吉尼斯酿造公司通过解决测量在麦芽浆发酵是其所用的酵母数量,找到了泊松分布在显示生活中的应用,大大提高了产品的稳定性。Karl Pearson在测量时都使用的大样本,Gosset在寻找小样本测试方法的过程中又提出了t检验,由于在公司就职的关系,用student的笔名发表了一系列论文。与此同时,Gosset还担当两大天才Pearson与Fisher之间的调解人,这位Fisher就是主持了女士品茶的英国男子,检测女士通过品茶猜测是茶先倒进奶里还是奶先倒进茶里的。Fisher对统计学的贡献是无与伦比的,也是这本书里给我印象最深的。他在农场里,通过过去90年的数据,分析了农作物与气候,雨量,杀虫剂,肥料之间的关系,发表了一系列的《收成变动研究》,引入方差分析,提出最大似然方法。Pearson的方法被丢入了垃圾堆。《女士品茶》中描述了许多Pearson与Fisher斗争的细节,比如Pearson早期拒绝发表好几篇Fisher的论文,不过后来还是Fisher不断提出的方法占据了学术界的主流,Fisher后来提到当他想要为人类的知识宝库献上一颗宝石时,他一定会受到某些人的攻击,学术研究就是不断的用最新的研究成果推翻前人的,不是说谁的是正确的,只能说谁的理论在当时最符合事物所展示出来的特征。当然,统计学的巨变不仅仅发生在英国,在俄国,有天才的Kolmogorov,在Fisher影响下,统计学的方法传到了美国、印度、澳大利亚和加拿大,指导着各行各业的生产。统计学学科也在各国大学发芽生根,产生一大批著名的统计学家,持续地研究新问题,为统计学提供新的理论血液。书中最有趣的地方莫过于统计学家们研究的一个个问题,从开篇的女士品茶,到大烟民Fisher固执地用统计学的观点反驳吸烟与肺癌之间的关系,再到研究杀虫剂的致死量,一个个鲜活的故事,将统计学的各种概念串联起来,最大似然估计,假设检验,中心极限定理,大数定理,p值,一个个概率论与数理统计中的术语悉数登场,却褪去了往日学习它们时冷冰冰的样子,变成了一个个精彩的故事。同样精彩的还有统计学家们的故事,天才中的天才,或固执或谦逊,共同演绎了一幅精彩的统计学史。时至21世纪,统计学依然发出其耀眼的光芒,看似高深的统计学,其实与我们的生活有莫大的关联。大数据的流行,使越来越多的行业以数据作为驱动工具,分析数据,看到数据背后隐藏的秘密。统计学的思想大有勇武之地,如果你也对这一切有兴趣,倒不如也看看这本书,也许在做数据分析时,看到的不仅仅是繁复的数据,也能想到一个个统计学方法背后有趣的故事~上帝掷骰子吗?我们不得而知,但唯一能描述宇宙的语言也就是数学,因为上帝一定是数学家。时代虽然在变迁,但人们对自然的好奇与向往却终究不曾变化。

女士品茶——统计学照进现实生活里

20世纪20年代末,夏日午后,一群剑桥大学教员和他们的妻子围坐在一起。他们谈天说地,品下午茶。一位女士,突发灵感,认为将茶倒进牛奶与将牛奶倒进茶中所产生的味道不一样。在座的每一位科学家都轰然大笑,两种液体的混合物在化学成分上没有任何改变。味道能有什么区别呢?此时,一位又矮又瘦的男子,表情变得严肃起来。在这位男子的建议下,在座的科学家纷纷参与到实验设计中。01回到夏日的午后,这名其貌不扬的男子叫罗纳德.艾尔默.费希尔,做这个实验还不到40岁,后来一举成名。1935年,他写了《实验设计》这本书,在书中第二章详尽地讨论了女士品茶。他对茶的测试数量,测试顺序,以及对这位女士该透露的顺序信息都有确切的描述。他还计算出女士在有辨别力和无辨别力出现正确结果的概率。这让费希尔重新回归到实验与实验设计本身,他开始关注如何建立一个好的数学模型,如何收集数据,如何设置“对照要素”。慢慢地,他的重心转移到统计学。02回到第一节,我们的主人公费希尔,命运比较坎坷。他自幼体弱多病,视力不好。但六岁的他,就对天文学、数学产生了浓厚的兴趣。八岁那年,他就听了著名天文学家罗伯特.鲍尔的讲座。随后,他顺利考入哈罗公学,在校期间表现出惊人的数学天分。由于视力差,他晚上不能用电灯看书,也无法用笔、纸验证数学课上的作业。结果,他培养了极强的几何抽象思维能力。1909年,学霸费希尔进入剑桥大学学习。3年后又拿到了受人尊重的“牧人”头衔。每年拿到这个头衔的人不超过两个。03毕业以后,费希尔潜心做数理分析研究,写了《收成变动研究一》、《收成变动研究二》。在第二篇文中,“方差分析”四字首次与世人见面。1924年,他又写了《收成变动研究三》,文章开头是这样的:目前,我们对气候影响农作物的知识认识有限。这个主题对国家的某一大型产业极为重要,但还没有一个清晰的结论……最重要的因素是缺乏实验条件下获取的大量数据。041934年,费希尔获得了英国皇家会员理学博士的殊荣。大会上,费希尔提出了良好统计量的几个标准:1.一致性:获得的数据越多,计算出的统计量越有可能接近参数真实数值。2.无偏性:对不同数据多次使用某个统计量,这个统计量的平均值越接近参数真实数值。3.有效性:统计量的值不会与参数真实数值完全相等,但在众多的统计量中,大多数统计量与真实数值的差异不会太大。在费希尔的三个标准中,无偏标准吸引了公众的注意力。因为“偏差”就有某人无法接受的暗示,似乎没有人愿意获得总有“偏差”的统计量。05读了以上四节,你可能认为统计革命只发生在英国,这也是事实,但不确切。英国人和丹麦人最早将统计模型应用于生物学和农业研究中。在费希尔的影响下,统计法很快传到了美国、印度、澳大利亚和加拿大。各国的数学家们认真研究与数学模型相关的理论,得出了最重要的定理:中心极限定律。中心极限定理很容易理解,就是不管数据来自哪里,数据的分布以呈正态分布。用大众的观点来说,就是“钟形曲线”。06最后又回到正题,假设开头提到的女士想区分哪杯是加了牛奶的茶,哪杯是加了茶的牛奶。我们给她两杯茶,她能猜出的概率为1/2。如果再给她两杯茶,概率就变成1/4。又假设她在第24轮错了4次呢?在第24轮错了5次呢?这时候就要用到费希尔提到的“p”值。p值对显著性结果研究意义重大。如果p值非常小(小于0.01),可以确定一个影响因素。如果p值很大(大于0.2),可以宣布检验出一个影响因素。如果p值介于两者之间,可以宣布下一轮实验,以更好的了解真正的影响因素。后记21世纪,科学领域的统计革命仍然保持着前进的姿态,统计思想几乎在所有学科都战胜了决定论。统计方法得到了广泛的应用,也给我们生活带来了实质性突破。然而,在未来某个时刻,另一场革命蓄势待发,随时准备推翻统计学的专制,而这场革命的领导者就有可能出现在我们中间。作者简介:言西小熊,新浪微博书评人,简书作者,微信公众号:yanxixiaoxiong.

如何了解统计学的发展史? 《女士品茶》是一个不错的选择

前几天亲戚聚餐,在谈到生男生女的问题时,一个接近1米8的姐姐高声阔谈:“上天没有让我生女儿是正确的,因为我妈1米6左右,我居然快1米8,如果再生个女儿快2米,那到时就要因为身高太高而愁嫁了!”说完大家就哈哈大笑起来了。“如果父母越高,孩子就越高,那为什么长久以来人类的平均身高没有大的变化?”一个爱钻研的弟弟适时提了个问。我想起在《女士品茶》这部关于统计学的书中,也有这么一个故事。高尔顿在伦敦建立了一家生物统计实验室,征集家庭成员来测量。在生物统计实验室,他收集了家庭成员的身高、体重、特定骨骼数据以及其他特征,然后和助手将这些数据制作成表格,反复研究。他希望找到某种方法,根据父母的测量数据预测孩子的测量数据。例如,高个子父母显然更容易拥有高个子后代,但是否存在某种只用父母身高就能预测孩子身高的数学公式呢?通过这种方法,英国科学家高尔顿发现了一个现象,他称之为“均值回归”。实际上,如果父亲非常高,孩子往往比父亲矮;如果父亲非常矮,孩子往往比父亲高。似乎存在某种神秘力量让人类身高远离极端,朝着所有人的平均值靠拢。均值回归现象可以维持物种平稳,确保一个物种代与代之间保持基本的“相似性”。当我说出这个故事时,好奇的弟弟妹妹们都要求我介绍一下这本有趣的书。赌博、炒股、买彩票,哪种方式更能让你一夜暴富?丈母娘究竟与房价涨落是否存在因果关系?抽烟真的有害健康吗?这些问题与我们的日常生活息息相关,但是我们根据什么可以回答出正确的答案、做出正确的选择呢?护理行业开创者弗洛伦斯•南丁格尔,这位英国维多利亚时代的传奇人物,自学成才的统计学家说了一句话:“若想了解上帝在想什么,我们就必须学统计学,因为统计学在测量他的旨意。”对于数学知之甚少的人来说,系统地学习统计学的知识是个漫长的过程,但是了解一下统计学的简史以及基本概念则容易得多,那么应该从何开始呢?套用作者戴维•萨尔斯伯格自序中的一句话:我觉得《女士品茶》是一个不错的选择……《女士品茶》是一部关于统计学学霸的传奇故事书,书中通过一位位在统计发展史上叱咤风云、改写观念的统计学家,你方唱罢我登场,站在伟人的肩膀上解读数据,从数据中总结出规律,继而预测乃至改变未来的方向,在统计学的不断发展过程中,知识的更新换代也在不断刷新人们对世界的认识以及在各个领域的推广应用。在英国剑桥的某个午后,有位女士声称,把茶加到牛奶里,和把牛奶加到茶里,两种方法调出来的下午茶喝起来味道不同。在座的科学家都对她的说法嗤之以鼻,但有位来访的瘦小绅士,R.A.费希尔,却对这个问题陷入了沉思,并且提议在来检验这个命题。普通人都会觉得这绝对是吃饱了撑的,但是优秀的科学家很少会考虑他们的工作是否具有重要意义,他们投入到研究中去,是因为他们对结果感兴趣,并能从工作中获得知识性的乐趣。这就是现代数理统计学的主要奠基人之一——费希尔,他在实验设计上所做的工作引出了一大批描述不同实验设计的科学文献,应用到包括农学、医学、化学、工业质量控制等各个领域。由于孜孜不倦的用统计方法对这些领域进行研究,作出了许多重要贡献,他曾多次获得英国和许多国家的荣誉。本书以英国女士品尝下午茶的故事为起点,带领读者一一回顾了“统计”这门应用范围最广的科学,了解若干重要理论的发展过程与应用,偏斜分布、极值分布、概率、钟形曲线等概念的了解;亲近那些隐身幕后的统计学家,从高尔顿到卡尔•皮尔逊再到费希尔、内曼等大师级的对立博弈,看到了统计究竟为今天这个世界带来了什么样的改变。统计学原来是一门枯燥的学科,但是经过本书作者对伟人们思想的碰撞乃至革新的讲述,叙事风格既简单明了又不失幽默风趣,阅读起来非常生动有趣,在不知不觉中就能轻松汲取养分、略窥堂奥,学到不少关于统计学的知识。科学松鼠会甚至推荐本书为统计学领域入门的必读书,对统计学一无所知的人读后可以成为这个时代的明白人,而科班生更能系统地了解统计学史的的发展历程,领略前辈先贤的风采。

做大数据时代的明白人

拿到此书时,我的内心是澎湃的——听说它是一本有着女士品茶典故的统计学书本;读到此书时,我的内心是纠结的——原来它是一本是摆脱了晦涩数学符号的统计学发展史;读完此书时,我的内心是平静的——在大数据时代,我作为数据样本的提供者和获益者,依旧不具备统计学头脑。《女士品茶》译自《Lady Tasting Tea》,由戴维·萨尔斯伯格(David Salsburg)著。从每一章标题和内容的分节,我们可以感受到David有很努力地尝试将统计学先驱们的故事讲述得通俗易懂,使它成为一本摆脱了晦涩数学符号的书籍。1、现实生活中,概率意味着什么概率,简单地说,就是一件事发生的可能性的大小。而概率作为数学的一个重要部分,同样也发挥着重要的作用,如果能够掌握一些统计学知识,懂得概率的性质,在生活中也会受益匪浅。举一个十分具体的例子:某公司推出如下促销活动:本公司为答谢广大顾客长期以来对本公司产品的支持和厚爱,特推出免费抽奖活动。 抽奖方式 :箱中有20个球,10个10分和10个5分,从箱子中摸出10个球,把各球的分数相加,按总分设置奖项如下:一等奖:100 分,电脑一台二等奖:50 分,电视一台三等奖:95 分,MP3一个四等奖:55 分,电饭煲一个五等奖:90 分,XX 洗发水两瓶六等奖:60 分,XX 洗发水一瓶七等奖:85 分,毛巾 两条八等奖:65 分,高级香皂一块九等奖:80 分,牙膏一盒十等奖 : 70 分 , 牙刷一把十一等奖 : 75 分 , 以成本价购买 XX 洗发水一瓶 。大多数人都会认为抽奖结果共11个, 其中10个结果可免费获得奖品,中奖率为10/ 11≈90. 9% , 因而很容易受到诱惑。但如果你站在一旁观察就会发现中十一等奖的人较多,而且就算中其他免费奖项,也大都是一些价值较低的奖品。那么问题究竟出在哪?用概率的知识来分析 :设随机摸出的10个球中10分的球有x个,则5分球的个数为10-x, 易知服从超几何分布, 即:从这一结果可以看出,问题的关键在于每个奖项出现的概率不同,摸奖者中十一等奖的概率超过了1/ 3,而且价值越高的奖项被抽中的概率越低,特别是中两个大奖的概率只有十万分之一。因此,看似免费抽奖,实为商家推销产品,获取利润的手段(张芳. 日常生活中概率的应用[J]. 山西财经大学学报: 高等教育版, 2007 (S1).)。对于个人而言,每个人都会凭借自觉判断各种结果出现的概率。概率作为一个普通又普遍的概念,除了抽奖,彩票、保险、巧合事件、股票、抽签等各种独立事件中,都涉及到概率。统计学方法也常被应用于天文学、生物学、社会学、流行病学、法律或者天气预报等观测性研究,只是不同的数学模型不会得出不同的结论,因此也常常引起争议。故,理解并掌握统计学方面的知识,能够帮助我们深入窥得在科学变革及生活应用中的基础内涵。2、做大数据时代的明白人那么,在21世纪的大数据时代,统计学以一种十分不明显的方式,紧密联系到我们日常生活的方方面面。在这个数据信息大爆炸的当下,乱花渐欲迷人眼,数据的手机已然不成问题,但如何把数据的效用最大化便成为当务之急。热门美剧《纸牌屋》,相信大家都有所耳闻,它之所以如此走红,是背后团队(Netfilx)利用统计学方法深入分析,精准把握观众喜好。在TED演讲集中,2015年有一集《如何利用大数据做出正确的判断》,介绍了这个事件的过程。原来罗伊·普莱斯(Roy·Pirce)和他的亚马逊的团队,通过竞赛的方式集合了各类题材的视频,免费放映评估人们看测试电视时候的反应,记录他们喜欢的历史、任务、情节等等,他们发现了观众喜欢参议员,喜欢喜剧,于是设计了一个四位参议员的情景喜剧——《阿尔法屋》,反响平平。而泰德·萨兰德斯(Ted Sarandos)及他的Netfilx团队用了类似的方法,他们也发现了观众喜欢参议员,但是他们走了不同的风格路线,他们集合了更多的元素,做出了《纸牌屋》。两家公司用了类似的方法,都用了几百万个数据点,结果到最后一个的效果很好,一个却不是很好。作为21世纪人,我们有200年的统计经验,有强大的数据和电脑,我们常常认为有了这些就可以得到正确的结论和决策。但更多时候,还需要专业的头脑和思考:从这里我们可以看出,Netfilx不仅懂得利用大数据和统计学,而且懂得运用头脑。毕竟20分钟的电视,它不论好坏,都不会太影响到国计民生,但当我们将大数据和统计学运用到医疗、制药、法制建设等影响力更广大的方面,就不能太依赖和信任数据,还需要用更多的巧思和对概率本质的理解。3、女士品茶到此,我们再次回归到这本书的引子上,作为大家读此书前的热身预读。20世纪20年代末一个夏日的午后,在英国剑桥,一群大学教员,他们的妻子及一些客人围坐在室外的一张桌子周围喝下午茶。剑桥的统计学家Ronald Fisher也在其中。喝茶中,一位女士坚持称,将茶倒进牛奶里和将牛奶倒进茶里的味道是不同的。Fisher开始设计实验来检验这个命题。如果给这位女士一杯茶,即使她无法判断出区别,她也有50%的机会猜对茶的种类。于是他们做了个实验,冲多杯配方一致的奶茶,只是先倒奶和先倒茶的顺序不同。当我们一直继续给她递茶,样品量达到24杯的时候:①24杯茶的说服力有多少?我们是否应该相信她有分辨力呢?假设24杯茶她凭靠猜对的概率是x,那么她有(1-x)的概率是凭借能力分辨而不是靠猜的。而这个概率(1-x)就是传说中的置信度。如果置信度有95%,则代表我们有95%的把握相信她真的能分辨一杯奶茶。②如果在24杯中全答对了,我们可以说她具有判别能力,如果24杯中错了2杯呢?如果错了6杯呢?错多少杯为分界点的时候,才能说她具有判别能力?假设这位女士不具有判别能力,Fisher可以通过显著性检验(概率P值)进行统计,如果P<0.01,说明是较强的判定结果,拒绝假设,说明这位女士具有判别能力;如果0.01<P值<0.05,说明较弱的判定结果,拒绝假设,同样说明这位女士具有判别能力;如果P值>0.05,说明结果更倾向于接受假定的参数,说明这位女士不具有判别能力。这个故事最早出现在Fisher发表于1935年的著作《the design of experiment》中被用来描述原假设(null hypothesis)。后来,Fisher大哥在1956年针对女士品茶又发表了《6 Mathematics of a Lady Tasting Tea》,继续讨论了随机试验的重要性,增加样本数量和重复实验会带来的益处,以及实验设计中为什么“茶”和“奶”的数量应该相等……时隔半个世纪,遥望先驱者的思想,以及他们探索性的发现、认真的实验、严谨的探讨,让生活在统计学普遍日常世界的我,再看当前大小公司各种平台对“大数据”的“大”的盲目追捧,感触颇深。不知,五十年后,现在大家干个啥都要拿来吹捧情怀的“大数据”,又会演变发展成什么状态?

明天,太阳还会照常升起吗?

20世纪初,法国数学家Emile Borel提出了一个让人觉得些许心寒的理论:猴子与打字机。即:如果无数多的猴子在无数多的打字机上随机的打字,并持续无限久的时间,那么在某个时候,它们必然会打出莎士比亚的全部著作。猴子与打字机的理论一出,立刻引发了强烈的反对风潮,当时的一位著名知识分子甚至给Emile写信,用粗鄙的语言攻击他这一理论是对人类智慧的公开侮辱,要求他公开发表申明,说明猴子远逊于人类,而Emile的回应只有短短的一句话:“先生,你说的是规律,而我说的是概率,这是两码事。”回到二十一世纪的今天,先来问问自己以下三个问题:已知:太阳每天都会升起,问:明天太阳还会照常升起吗?用平均智商判断一个学校的学生聪明程度是否合理?已知:一项社会调查显示,学生群体约有11.2%的人都患有不同程度抑郁症,而社会平均率仅为4.8%。问:这意味着学生群体更脆弱吗?(注:此比率仅作举例,不代表实际情况)你的回答是什么呢?你又是否知道自己选择背后的原因?这本统计学的书,或许可以帮到你。统计学博士戴维·萨尔斯伯格在《女士品茶》中写过这样一个小故事:英国剑桥的某个午后,有位女士声称,把茶加到牛奶里,和把牛奶加到茶里,两种方法调出来的下午茶喝起来味道不同。在座的科学家都对她的说法嗤之以鼻,但有位来访的瘦小绅士,R. A. 费希尔,提议要用科学的方法,来检验这位女士的假设。他们在女士看不见的地方按照不同的顺序配茶并让该女士品尝鉴定,那么问题来了,如果这位女士猜对了三次呢?五次呢?十五次呢?五十次呢?绅士们的研究并没有仅仅停留在这位喝茶的女士身上,他们在金融,农业,企业管理,军工等领域做出了大量的统计学研究,并将统计学的基本原理总结为以下几点:1. 万事皆有概率回到《女士品茶》开头那位喝茶的女主人公,假设她成功的分辨了五十次,是否可以说明两种配法的茶的确有所不同?相反,如果她在第五次就失败了,是否意味着这两种配法的茶完全一样?谨慎而严谨的统计学家们给两个问题的答案,都是大写的否。成功五十次,并不代表第五十一次也会成功。没有特殊情况的出现,并不意味着特殊情况不会出现,前者是规律,而后者是概率。同样,影响品茶结果的并不仅仅是茶的味道本身,还有品茶人的心情,前一杯茶的余味,周围人的误导等等。因此,我们无法得到一个“必然”的结果,最好的答案是,“截至目前正确”。2. 大数理论和正态分布如果一个实验的样本足够大,偏离正常结果的实验数量就可以忽略不计,在大数理论中,概率通常呈现为正态分布(即我们常见的钟形曲线)。举第二题中的平均智商为例,如果这个学校的人数足够多,那么平均智商的数值就可能越接近大多数人(即下图中钟形的凸处),智商极高和智商极低的人都在钟形的底部,为偏离正常数值的少数派,其所占比重在参与人数达到无限多的情况甚至下可以忽略不计。正态分布曲线3. 机会样本的偏差机会样本意味着:你获取这一群体的样本数据要比获取其他群体更加容易。在第三题中,学生群体的抑郁症发病率远高于社会平均水平,并不能代表学生群体的心态比较脆弱,实验结果如此很可能因为学生群体是最好统一起来进行实验的群体,而其他群体比较不好集中;学生群体因受到的压力较小,更容易对问题做出诚实的回答,而其他群里更倾向于掩饰...一个基于机会样本而得出的结论是不可靠的,同理,它也不可以用于预测未来。想要得到准确的预测,就需要先保证不同实验因素的可控。4. 假设带来的先验如果我们认定书中品茶的女士会失败,那么她只要失败一次,我们的设想就会得到验证。相反,如果我们认定她会成功,她只要成功完成了三次鉴定,我们就会先入为主的认为她的确可以判断不同配法的茶叶味道。统计学家告诫我们,一切带有假设的结果都容易掉入先验的陷阱,试想一下,有多少人看到明星离婚的消息是都会感慨“我说的吧,秀恩爱死的快...”。保持公正,不要将太浓厚的主观色彩带入对理论的验证,是统计学家们一直孜孜追求的事情。归根到底,统计学并不是数字游戏或是什么高高在上的理论,它的价值不仅仅在于如何进行预测,更是处理问题的态度和方法。万事没有绝对,一切皆有可能。这就是《女士喝茶》教会我们的统计学故事。


 女士品茶下载 精选章节试读


 

农业基础科学,时尚,美术/书法,绘画,软件工程/开发项目管理,研究生/本专科,爱情/情感,动漫学堂PDF下载,。 PDF下载网 

PDF下载网 @ 2024