《赤裸裸的统计学》章节试读

出版社:中信出版社
出版日期:2013-9
ISBN:9787508642154
作者:[美]查尔斯·韦兰
页数:308页

《赤裸裸的统计学》的笔记-第6页 - 引言 我为什么憎恶微积分却偏爱统计学

(第XI页)瑞典数学家、作家安德烈斯的一句话:用数据说谎容易,但是用数据说出真相却很难。

《赤裸裸的统计学》的笔记-第143页 - 第8章 数据与偏见

发表性偏见。肯定性的研究发现相比否定性的研究发现来说,更有可能被发表,从而影响我们对事实真相的判断。假设你刚刚完成了一项严谨的纵向研究,得出玩电子游戏不能预防结肠癌的结论……
没有一本杂志会发表你的研究成果,原因有二。首先,玩电子游戏和患直肠(p.144)癌之间在科学上并不存在强烈的相关性,因此你开展这项研究的出发点是什么并不明确。其次,也是本节重点要讲的,一个为“某因素不能预防癌症”的事实算不上是一个特别有趣的发现,毕竟有太多的因素都不能预防癌症。……
而这种发表性偏见将会导致研究结果的扭曲。假设你的研究生班的一个同学开始了一项不同的纵向研究,她发现每天花很多时间玩电子游戏的人患上直肠癌的概率确实低,这样的结论就有趣多了!只有这类发现才能吸引眼球,容易受到医学杂志、大众媒体、博客以及电子游戏厂商……的关注。
对于统计学来说,巧合的存在决定了异常事情的发生……在100项完成的研究中,就有可能存在一项结论完全不值得信赖的情况,比如玩电游可以降低患直肠癌的风险这样的结论。但……99项证明电游和直肠癌之间不存在任何联系的研究成果由于枯燥无趣,将不会得到发表;但剩下的那一项声称寻找到二者之间联系的论文会引起注意并最终得到发表,仅仅因为这样的结论是有趣的。偏见的来源并不是研究本身,而是那些能够接触到大众读者的信息载体,于是阅读科学杂志的人会读到这篇关于电子游戏和癌症的文章,在他们的眼里关于这个话题只有一项研究,而且这项研究证实玩电子游戏的确和癌症有关,事实上,有99%的研究证明二者并不存在联系。
(p.145)为了解决这一问题,如今的医学杂志要求所有研究在刚开始时通过项目注册的方式予以告知,否则将取消其出版的资格,杂志编辑可以借此得出某项研究的肯定和否定结论的比例。

《赤裸裸的统计学》的笔记-综合笔记 - 综合笔记

数据说谎之偏见
1、选择性偏见
某年,总统选举时民意调查机构通过电话调查得到数据,殊不知该年拥有家庭电话的都是富裕家庭,数据自然要造成偏差。
2、发表性偏见
为数据发表而篡改数据。
如今医学杂志要求所有研究在刚开始时通过注册项目予以告知,借此可以得到肯定和否定的比例,借以判断真假。
3、记忆性偏见
乳腺癌患者在回忆饮食习惯时,会倾向于夸大高脂肪饮食的摄入。她们不断回忆过去,想从中寻找到患病原因,然后再将原因植入记忆。
4、幸存者偏见
成绩差的学生会逐渐辍学,导致学校内平均成绩上升,但其实教学质量并未有任何改善。
5、健康人偏见
会定期服用维生素的人更健康,因为本来会服用维生素的人就是更关心和在意健康的人。
分离样本测试:将同一个问题的不同问法用在不同的样本人群里,以便判断用词上的小变化会否影响回答者的答案。
为避免受访者言不由衷,可以采用迂回的提问方式,如:你身边有认识的人持有这种观点吗?
拥有警察最多的地方通常是犯罪率最高的地方,但这并不代表是警察导致犯罪率,或警察对犯罪药石无效。

《赤裸裸的统计学》的笔记-第45页 - 第3章 统计数字会撒谎

马克·吐温有一句名言是这样说的,“谎言有三种:谎言、该死的谎言,以及统计学”。

《赤裸裸的统计学》的笔记-第146页 - 第13章 致命的回归错误

用回归方程式来分析非线性关系
相关关系并不等同于因果关系
因果倒置
变量遗漏偏差[遗漏了重要变量]
高度相关的解释变量(多元共线性)
脱离数据进行推断[超出数据适用范围]
数据矿(变量过多)

《赤裸裸的统计学》的笔记-第52页

数据本身并没有撒谎,只是有些数据没有发出声音罢了。

《赤裸裸的统计学》的笔记-第159页 - 第9章 中心极限定理

4. 中心极限定理告诉我们,……样本平均值会在群体平均值周围呈现一个正态分布……有68%【68.2%】的数值位于平均值一个标准差的范围之内,95%【95.4%】的数值在平均值两个标准差范围内,【99.7%的数值在平均值三个标准差范围内】以此类推。
5. 不论所研究的群体是怎样分布的,上述结论始终都是成立的。就算样本所在的群体不是正态分布,也不影响其样本平均值的正态分布形态。
……
(p.167)要引起注意的是,为了能够让中心极限定理成立,样本数量必须足够多(依照经验法则,至少有30个)。
……
(p.168)如果出现了某个概率较低的结果,我们便可以推测是不是有一些其他因素介入,而且概率越低,其他因素介入的可能性就越大。
这些基本上囊括了统计推断的所有内容,而中心极限定理是让这一切发生的重要推动力。

《赤裸裸的统计学》的笔记-第46页

《赤裸裸的统计学》的笔记-第188页 - 第10章 统计推断与假设检验

【I型错误=假阳性】如果我们用于推翻零假设的举证责任定得过于宽松(例如0.1),那么我们就(p.189)会经常处于推翻零假设的状态。而实际上,在很多时候零假设是正确的。这就是统计分析中肯定或否定假设前提的I型错误。……I型错误表示错误地推翻了一个零假设……我们也称之为“假阳性”。……
【II型错误=假阴性】……推翻零假设的门槛越高,我们推翻零假设的可能性就越小,以至于很多应该被推翻的零假设“逃过一劫”。……(p.190)这就是统计学上的II型错误,又称为“假阴性”。
哪种错误更加严重?这要依情况而定。最重要的是,你能够意识到宽松和严格之间的权衡 妥协。

《赤裸裸的统计学》的笔记-第109页 - 第6章 蒙提 霍尔悖论

(p.107)“蒙提 霍尔悖论”是一个著名的概率难题。1963年美国开播的电视游戏节目《让我们做个交易》……每一期节目播到最后,总会有一个参赛者脱颖而出,站在主持人蒙提 霍尔旁边,在他们的眼前有3扇巨大的门,编号分别为1、2、3。……
……2008年,《纽约时报》专栏作家约翰 泰拿尼专门就“蒙提 霍尔现象”写了一篇文章。随后这份报纸还在网站上开辟了一个互动专题,读者可以亲身体验这个游戏,包括提示你是否要改变选择,游戏的最后甚至还有可爱的小羊和小轿车从门后跳出来揭晓答案。这个游戏会记录下你改变和坚持最初选择的成功率,你可以试一下。
【网站互动专题】

《赤裸裸的统计学》的笔记-第232页 - 第12章 回归分析与线性关系

[(p.161)密歇根大学主持了一项名为“变化的一生”的纵向研究,对几千名美国成人的各项指标进行了监测,其中就包括他们的体重。]
教育与体重呈现负相关关系。在“变化的一生”项目的所有研究对象中,受教育时间每增加一年,体重就相应减少1.3磅。
接受政府食物补助的个人要比其他人重。在其他因素保持不变的条件下,接受补助的人要比其他研究对象平均重5.6磅。
种族变量是其中最有趣的变量。就算将上述所有因素[身高、年龄、性别、运动等]都控制起来,种族因素依然对体重有着举足轻重的影响。“变化的一生”参与者中非西班牙裔成年黑人要比其他人平均重10磅。

《赤裸裸的统计学》的笔记-第228页

当回归系数至少是标准误差的两倍或以上的时候,该系数极有可能具有统计学意义。

《赤裸裸的统计学》的笔记-第93页

《赤裸裸的统计学》的笔记-第15页 - 第1章 统计学是大数据时代最炙手可热的学问

……这暴露了回归分析的一个局限所在。我们可以通过统计分析来确定两个变量之间的强烈联系,却无法解释为什么存在着这样的联系,在某些情况下,我们也无法确定这种关系是否为因果关系……。在恐怖主义的例子中,克鲁格教授[在《恐怖分子从何而来?》书中]推测,由于恐怖分子的行动一般都带有政治目的,所以只有受过高等教育和家庭殷实的人才有最大的动力去改变社会,这些人尤其忍受不了某些政府部门对自由的压制,从而走向恐怖主义。根据克鲁格教授的研究,在其他因素相同的前提下,恐怖活动频繁出现的国家往往是那些实行高压政策的国家。

《赤裸裸的统计学》的笔记-第145页 - 第8章 数据与偏见

记忆性偏见。回忆确实很神奇,但并不是优质数据的可靠来源。我们总是认为现在和过去是有逻辑联系的……当我们试图解释当前一些特别好或特别坏的结果时,我们的记忆便会出现“系统脆弱”的尴尬。1993年,一位哈佛大学的研究人员进行了一项关于饮食习惯和癌症关系的研究……(p.146)《纽约时报》是如此形容这一记忆偏见的“阴险本质”的:
一纸乳腺癌的诊断书不仅改变了一个女性的现在和未来,还改变了她的过去。……不断地回忆过去想要从中找到一个患病原因,然后再将这个原因植入记忆。
没有记忆性偏见是纵向研究优于横向研究的一个方面。

《赤裸裸的统计学》的笔记-第76页

我们必须牢记一点,那就是相关关系并不等于因果关系。

《赤裸裸的统计学》的笔记-第38页

10、25、50、75、90分位数来描述有偏分布

《赤裸裸的统计学》的笔记-第161页 - 第14章 项目评估与“反现实”

出色的研究者……能够找到有创意的方式来控制变量,使得对照实验能够进行下去。在对某项疗法或某种介入手段进行测量时,我们需要制定一些类似于标尺的东西来提供参照。……聪明的研究者就能找到有创意的方式来测量某种疗法或介入手段的影响,也就是在现实与“反现实”(在介入手段缺失的前提下所发生的结果)之间搭建比较的桥梁。
【方法】
随机控制实验[警觉试验]
自然实验
非对等对照实验
差分类差分实验[首先对某个群体接受某项介入因素或治疗之前或之后的数据进行比较,其次将这些数据与另一个没有接受该介入因素的群体的同期数据进行比较]
不连续分析实验[将那些刚好符合介入或治疗条件的对象,以及以毫厘之差错失治疗机会的对象进行比较]

《赤裸裸的统计学》的笔记-第52页 - 第3章 统计数字会撒谎

(对于小布什政府对其减税政策的说法)《纽约时报》评价说:“数据本身并没有撒谎,只不过有些数据没有发出声音罢了。”

《赤裸裸的统计学》的笔记-第97页 - 第5章 概率与期望值

你应该时刻谨记为那些你无法轻松承受的意外上保险,而其他情况就不要浪费钱了,这是个人理财的核心原则之一。

《赤裸裸的统计学》的笔记-引言 - 引言

我天生就很排斥数学。我对数字本身没有任何好感,对那些在现实世界中毫无用处的骗人公式也没有什么好印象。我尤其不喜欢高中的微积分课,原因很简单,因为从来就没有人告诉过我学习这门课的意义是什么——有谁会在乎抛物线下方的区域代表什么?
。。。有趣的是,尽管物理课也需要进行像微积分课那样令人厌烦的演算,但我在高中时却十分喜欢物理课。这又是为什么?因为物理课有一个明确的目的。。。
上大学之后,我彻底沉醉于概率学中,因为它同样为我在洞察现实生活中的一些有趣场景提供了解释。回想过往,我意识到让我痛恨微积分课的不是数学,而是从来就没有人想到要告诉我数学的意义是什么。如果你没有被“高雅”的公式本身所吸引——反正我是一点儿都不觉得有什么“高雅”的——那么,你面对的只会是繁冗而机械的公式,至少我的老师当初就是这样把它们教给我的。
也正是因为这一点,我与统计学结了缘。我爱统计学。


 赤裸裸的统计学下载 更多精彩书评


 

农业基础科学,时尚,美术/书法,绘画,软件工程/开发项目管理,研究生/本专科,爱情/情感,动漫学堂PDF下载,。 PDF下载网 

PDF下载网 @ 2024