《女士品茶》章节试读

出版社:中国统计出版社
出版日期:2004-11-01
ISBN:9787503744891
作者:David Salsburg 萨尔斯伯格
页数:332页

《女士品茶》的笔记-第3章 - 第3章

晚间,戈塞特坐在自己的餐桌旁,取出一小组数据,算出 平均值和标准差估计值,再将二者相除,并将结果绘在图纸上。 他发现这个比率与 K·皮尔逊的四个参数相关,并与 K·皮尔 逊的偏斜分布系列中的某一分布相配。他的伟大发现在于:你 不必知道原始分布的 4 个参数的确切值。前两个参数估计值的 比率有一个可以制表的概率分布,不管数据从哪里来,或者标 准差的真实值是多少,计算这两个样本估计值的比率,你就可 以得到一个已知的分布。

《女士品茶》的笔记-第298页

让我们用统计的宇宙观来考虑下面三个哲学问题:
1、可以用统计模型来做决策吗?
2、当概率应用于现实生活中时其含义是什么?
3、人们真的懂得什么是概率吗?

《女士品茶》的笔记-第一章至第八章 - 第一章至第八章

用 K·皮尔逊偏斜分布体系去考虑问题,思路会有一种微妙的转移。在K·皮尔逊之前,科学所处理的事情都是真实的。
...K·皮尔逊提出,这些观测到的现象只是一种随机的映像,不是真实的,所谓的真实是
概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它们。K·皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是不可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。今天,医学研究运用精巧的分布数学模型来确定治疗方法对长期存活的可能效果;社会学家和经济学家用数学分布来描述人类社会的行为;物理学家用数学分布来描述次原子粒子。科学里没有哪一个方面从这场革命中逃脱。有的科学家宣称,概率分布的使用只是一时的权宜之中,最终我们会找到一种途径回到19 世纪科学的决定论。爱因斯坦有句名言,他不相信上帝在和宇宙玩骰子,就是这种观点的例子。其他人则相信,大自然基本上是随机的,真实性只存在于分布函数之中。不管一个人的基本哲学是什么,事实仍然是,K·皮尔逊关于分布函数和参数的思想统治了20 世纪的科学,并在21 世纪初仍保持着优势。科学生涯从某些方面看是奇异的,科学存在的理由,是要增加对自然知识的认知。有时候,虽然会有这种认知的增加,但是这个过程不是顺利的,并且是令人感到痛苦的。理由是:人们不可避免地会发现以前所得出的观点,至少在一定程度上,明显是过时的或者错误的。我想大多数人可以认识到这一点,如果已经教授了10 年左右的东西需要修正,他们会以下面的态度加以接受。但有一些人绝对不能接受,就好像打击了他们的自尊心,甚至是对他们一直把持的私有领地的侵犯。他们必然做得像知更鸟和苍头燕雀寻亲残忍,在春天里我们可以看到,当自己的小巢被冒犯里,它们所表现出的愤怒反应。我并不认为能对此做什么补救。这是科学过程中所固有的特性。但年轻的科学家应该得到提醒和指导,当他们奉献出珍宝去丰富人类的宝库时,必然有人会拒绝他或排挤他。对高中的代数课而言,总有人已经把相关问题的数学公式列了出来,要么
老师知道这些数学公式,要么能在与教科书配套的教师手册里找到这些公式。然而,试想有这样一个文字应用题,没有人知道如何将它转化为数学公式,没有人知道问题当中哪些数据是多余的,哪些应该是没用的,而一些至关重要的信息又常常缺失,况且教科书中也没有事先已经解出来的类似例题。这就是当你设法把统计模型应用到现实生活中去的时候所面临的情景,这也正是当布利斯打算采用概率分布这种新的数学思想来分析他的杀虫剂实验时所遭遇的困境。。他之所以使用“概率单位”(probit)这个词,是因为他的模型建立了“杀虫剂的剂量”与“使用该剂量时一只虫子会死掉的概率”这两者间的关系。他的模型中生成的最重要的参数谓之“半数致死剂量”(50 percent lethal does),通常用“LD-50”来表示,是指杀虫剂能以50%的概率杀死虫子的剂量。或者说,如果施用这种杀虫剂来对付大量的虫子,那么用“LD-50”的剂量,将有50%的虫子被杀死。布利斯模型的另一个推论则是:对一只特定的用做实验标本的虫子,要确定杀死它所需要的剂量是不可能的。

《女士品茶》的笔记-第196页

威尔克斯尽力使数理统计不但成为数学里令人尊敬的一部分,还是一种实用的工具,他努力把同行的数学家们从冷酷的抽象世界中拉回来,不要为抽象而抽象。在抽象数学理论里,确实有一种基本的美感,这些形式上的美感如此吸引希腊哲学家柏拉图(Plato),以至于他声称,所有我们可以看到与接触到的东西,事实上只是真实世界的影子,而这个宇宙里真正能找到的真实事物,只能透过纯粹的理性来获得。柏拉图对数学的知识相当天真,其实希腊数学家所珍视的纯粹性,很多是有缺陷的。但是,透过纯粹的理性思考所发现到的美感,还是很诱人的。

《女士品茶》的笔记-第10章 - 第10章

在奈曼-皮尔逊的公式中,科 学家设定一个固定的值,比如 0.05,之后,当显著性检验的 P 值小于或等于 0.05 时,就拒绝零假设。按照这种理解,从长 期来看,该科学家会正好有 5%的机会拒绝一个正确的零假设。 假设检验当前就是这样来讲授的,奈曼所采用的频数方法被得 到强调。我们太容易把奈曼-皮尔逊的假设检验公式看作是概 率的频数方法的内容,因而太容易忽略奈曼所提的观点中更重 要的见解,即为了检验零假设这个“稻草人”,必须要有一组 定义明确的备择假设。

《女士品茶》的笔记-第1页

最终发现,更加精确的测量反倒使模型预测值和实际观测值之间的差异变得更大,关于科学的决定论观点彻底崩溃,测量的越加精确,不但没有按照拉普拉斯的想法去消除误差,反而降低了人们观测行星真实运动的能力,而且表现出的差异越来越大。科学界已经做好了接受皮尔逊及其参数分布的准备。

《女士品茶》的笔记-第10章 - 第10章

读过费歇尔的应用性论文之后,你会在他的引 导下相信,使用显著性检验是为了得出三种可能的结论之一: 如果 P 值很小(通常小于 0.01),他断言某种结果已经显现出 来;若 P 值很大(通常大于 0.2),他宣称即便真的存在一个 结果,也会因为该结果发生的可能性太小,所以不可能有任何 显示出这个结果的大规模的实验;如果 P 值介于前两者之间, 他讨论了应该如何设计下一个实验,才能得到一个更好的结 果。

《女士品茶》的笔记-第100页

16世纪的医师P?A?帕拉赛瑟斯(P. A. Paracelsus,1493-1541)有一句名言:使用过量,什么都是毒药。概率单位分析为帕拉赛瑟斯首创的这个信条奠定了数学基础。按照帕拉赛瑟斯的这个信条,只要剂量足够大,任何东西都可能成为毒药;而只要剂量足够小,任何东西都是无害的。

《女士品茶》的笔记-第15页

K·皮尔逊从这些工作中发展了 一种被称为“拟合优度检验“(goodness of fit test)的基本统计工具,这是现代科学所 不可缺少的。它使科学家能够确定一组给定的观测值是否适合于某一特定的数学分布函数。 在第 10 章我们会看到,K·皮尔逊的儿子 E·皮尔逊(Eqon Pearson),是如何用这种拟合 度检验是否定他父亲所完成的许多项工作的。

《女士品茶》的笔记-相关与回归 - 相关与回归

大概解释了我对小强他爸爸两个儿子遗传特征的疑问。
从相貌上讲,小强无疑特别像他爸,但是身高实在是对不起小强他爸爸的良好基因。书里提到了高尔顿提出的“向平均回归” 的现象,大概就是说一个身材特别高大的爸爸,他儿子总要比他矮一点,以使父子身高的平均值更接近大多数人类的身高。所以鉴于小强他弟弟在相貌上完全不像爸爸,而且比爸爸还要高,我们可不可以大胆的估计,弟弟不是亲生的!虽然爸爸和弟弟还欲盖弥彰的拍了一部大致内容为“我是你爸爸”的烂电影。
但问题又出现了,斯卡斯加德他们家的身高和长相算怎么回事?

《女士品茶》的笔记-第9章 - 第9章

一个科学家必须要做的只 是要证明林德伯格·利维条件(Lindeberg-Lévy Conditions) 成立,那么中心极限定理就成立,于是,他就可以随意地把正 态分布设为一个合适的模型。

《女士品茶》的笔记-第71页 - 数学界的莫扎特

柯尔莫哥洛夫研究的最后一个问题是:在现实生活中,概率的意义是什么?他已经为概率提出了一个令人满意的数学理论。这意味着,概率的所有定理和方法都是内部自身前后一致的。科学的统计模型跳出了纯数学领域,把这些定理应用到现实问题上。为了做到这一点,柯尔莫哥洛夫为概率理论所提出的抽象数学模型,必须找到与现实生活某些方面的对应关系。这个问题非常重要,因为如何解释统计分析的数学结论的涵义,取决于你如何在这些公理与现实生活中的情况之间找到对应的关系。在柯尔莫哥洛夫的概率理论的公理化过程中,我们假设存在一个抽象空间,空间里的元素称为“事件”。该空间中事件的集合,可以像我们测量门廊的地板面积或电冰箱的体积一样进行测量。如果对抽象的事件空间的测量满足某些公理,则称该空间为概率空间。为了在现实生活中应用概率理论,我们得找到这个事件空间,而且要非常明确具体,这样我们才能实际计算出该空间概率的测试值。当一个实验科学家使用统计模型来分析实验的结果时,这个空间是什么?威廉.西利.戈赛特认为这个空间是实验的所有可能结果的集合,但他无法证明应该怎样计算与该空间有关的概率。除非我们能够确定出柯尔莫哥洛夫的抽象空间,否则由统计分析得到的概率陈述会有很多不同的意义,这些意义还可能互相矛盾。
至今无人能完成他的研究。

《女士品茶》的笔记-第1页

统计学历史介绍吧,不过对于统计学我什么都不明白的,正态分布什么都不明白的,只看看热闹了

《女士品茶》的笔记-第4章 - 第4章

他将小麦产量的时间趋势分成几个部分,一个是由于土地 退化导致产量稳定地整体性地下降;另一个是长期的缓慢的变 化,每个阶段都要花几年时间;第三个是一组更快的移动变化, 考虑的是气候在不同年份的差异。自从费歇尔开创性的尝试, 时间序列的统计分析在他的思想和方法的基础上,建立了起 来,现在我们有了计算机,可以用更巧妙的演算法进行大规模 的计算,但基本的思想和方法仍然未变。给定一组随时间波动 的数据,我们可以将之分解为不同来源导致的结果。

《女士品茶》的笔记-第9章 - 第9章

正态分布只有 K·皮尔逊四个参数中的两个——平均数和 标准差,另外两个参数对称性偏度(symmetry)和峰度 (kurtosis)均为零。因此,一量知道了平均数和标准差这两个 参数值,其他的一切也就一清二楚了。

《女士品茶》的笔记-第332页

第1章 女士品茶
实验的设计
科学家需要从潜在实验结果的数据模型开始工作。
实验设计的第一步是建立一组数学公式,用以描述待搜集数据与欲估计结果之间的关系。
第2章 偏斜分布
弗朗西斯·高尔顿(Francis Galton)
在人口统计中发现了“向平均回归”(regression to the mean)的现象。
高尔顿发现了这种关系的一种数学测度,他称之为“相关系数”(coefficient of correlation)
K·皮尔逊(Karl Pearson)
单个实验的结果是随机的,分布的统计模型却使我们能够描述这种随机的数学性质。
测量值本身,而不是测量的误差,就具有一种正态分布。
“偏斜分布”(skew distribution):四个参数分别被称为:
1. 平均数(the mean)——测量值散布状态的中间值;
2. 标准差(the standard deviation)——测量值的散布与平均值偏离有多远;
3. 对称性(symmetry)——测量值在平均值一侧规程的程度;
4. 峰度(kurtosis)——个别的观测值偏离平均值有多远。
K·皮尔逊的偏斜分布体系并没有包含所有可能存在的分布,许多重要问题不能用K·皮尔逊的体系解决。
“拟合优度检验“(goodness of fit test)的基本统计工具
K·皮尔逊的革命所留下来的是这样一个观念:科学的对象并不是不可观测事物本身,而是数学分布函数,以描述与所观测事物相联系的概率。
第3章 可爱的戈塞特先生
威廉·西利·戈塞特(William Sealy Gosset)
t检验
第4章 在“垃圾堆”中寻觅
第5章 收成变动研究
“方差分析”(ananlysis of variance)
第6章 “百年不遇的洪水”
L·H·C·蒂皮特(Leonard Henry Caleb Tippett)
极值分布:如果我们知道极值分布与正常值的分布之间的关系,就可以记录每年洪峰的高度,并预测百年不遇的洪灾发生时最有可能的洪峰高度。
第7章 费歇尔获胜
费歇尔学派与皮尔逊学派:两种统计观:
K·皮尔逊把统计分布视为对他所分析数据的集合的真实描述。而按照费歇尔的观点,真实分布只是一个抽象的数学公式,搜集的数据只能用来估计这个真实分布的参数。
为了得到一致且有效(但未必无偏)的统计量,费歇尔提出了被他称之为“极大似然估计量”(maximum likelihood estimator, MLE)的一个概念。
第8章 致死的剂量
切斯特·布利斯(Chester Bliss)
“概率单位分析”(probit analysis)
第9章 钟形曲线
第10章 拟合优度检验
K·皮尔逊最伟大的成就之一就是创造出第一个“拟合优度检验“(goodness of fit test)。通过观测值与预测值的比较,皮尔逊构造出一种能对拟合优度进行检验的统计量,并称之为“χ2拟合优度检验”(chi square goodness of fit test)。
假设检验(或者说显著性检验)是一种正规的统计方法,是在“待检验的假设为真”的假设前提下,用来计算以往观测到的结果发生的概率。
“significant”(显著的)这个词只是用来指“概率低到足以拒绝的程度”,数据如果可以用来拒绝某个分布,则它就是显著的。
第11章 假设检验
奈曼和E·皮尔逊把被检验的假设称为“零假设”(null hypothesis),称其它可能的假设为“备择假设”(alternative hypothesis)。在他们的理论公式中,计算P 值是为了检验零假设,而检验的效力则是指在备择假设为真的条件下P 值的表现效果。
第12章 置信诡计
耶日·奈曼
“置信区间”(confidence intervals)
对奈曼来说,与置信区间相联系的概率并不是我们“答对”的概率,而是统计学家使用某种方法从长期来看做出正确陈述的频率。这个数字与当前的估计值有多“准确”根本没有任何关系。
第13章 贝叶斯异论
贝叶斯定理
第14章 数学界的莫扎特
俄国数学家安德烈·N·柯尔莫哥洛夫(Andrei N. Kolmogorov)
“概率论的公理化”(axiomization of probability theory)
第15章 “小人物”之见解
弗洛伦斯·南丁格尔·大卫(Florence Nightingale David)
第16章 非参数方法
弗兰克·威尔科克森(Frank Wilcoxon)
如何才能知道一个数到底是不是异常值呢?必须剔除多少个异常值呢?当异常值被剔除之后,还能继续使用那些基于标准检验统计量的概率图表吗?
威尔科克森检验(Wilcoxon test)
亨利·B·曼(Henry B. Mann),D·兰塞姆·惠特尼(D. Ransom Whitney)
(Mann-Whitney test)
新的方法是一种无需估计任何参数的检验方法,仅需要将观测数据的散点图与纯随机分布所预期的情形进行比较,这属于一种非参数检验(nonparametric test)
威尔科克森检验可以看作是次序统计量(ordered statistics)的期望均值。
埃得温·詹姆斯·乔治·皮特曼(Edwin JamesGeorge Pitman)
皮特曼成功地回答了第一个问题:当我们知道参数模型和本应使用特定的参数检验时,如果还使用非参数检验,结果会有多差呢?皮特曼的答案是,根本不差。
第二个问题的答案更让人吃惊。如果数据不适合用参数模型,得差多远时使用非参数检验才会更好呢?皮特曼的计算表明,只需稍稍偏离参数模型,则非参数检验将远远地胜过参数检验。
皮特曼的结论表明,所有的假设检验都应该是非参数方法的。
第17章 当部分优于总体时
K·皮尔逊所使用的方法存在一个根本性的缺陷。他获得的数据现在被称为“便利样本”(opportunity sample),都属于那些最容易得到的数据,并不能真正代表总体分布。
判断样本似乎是获得大总体的代表性样本的好方法,但它有两个主要缺点。第一个是只有当我们确信对大总体具有充分的了解,可以将总体划分为能用一些个体来代表
的几个子总体(specific subclasses)时,判断样本才具有代表性。既然我们希望通过样本来了解的问题,正是据以将大总体划分为几个匀质组(homogeneous groups)的依据,如果我们对大总体已经了解得这么清楚,可能就无需再进行抽样了。第二个问题更加麻烦,如果判断样本的估计结果是错的,我们无法知道该结果与真值到底相关多少。
普拉桑塔·钱德拉·马哈拉诺比斯(Prasanta Chandra Mahalanobis)
马哈拉诺比斯的解决办法是采用随机样本(random sample)。我们采用随机原则从大总体中抽取个体,由随机样本得到的数据很可能会错,但是我们可以用数理统计学的理论确定该如何最优地抽取样本并测定数值,以确保长期来看我们的数据将比其它数据更接近真值。并且,我们知道随机抽样概率分布的数学形式,可以计算总体那些待估参数的置信区间。
第18章 吸烟会致癌吗?
“追溯性研究”(retrospective studies)。
从一种疾病开始着手,向后看与这种病相联的有什么先决条件。这种研究需要有对照组(未患此病的其他组病人),用以断定恰恰是这些先决条件与此病有关,而不是病人某些更一般的特征。
另一种替代的研究方法是事前研究(prospective study)。在这类研究中,事先选定一群人,详细记录他们的吸烟史,再跟踪他们以观察会发生些什么事。
第19章 如果您需要最佳人选……
第20章 朴实的德克萨斯农家小伙
“序贯分析”(sequential analysis),这是一种当实验还在进行时,就可以对实验设计进行修订的方法。序贯分析所允许的实验修正,涉及每一个被检验的处理步骤。就算是最审慎的实验设计,得到的结果有时也会显示出,原先的设计要做一些变动,以使实验结果更为完整。序贯分析的数学理论会使科学家知道,在不影响结论有效性的情况下,什么样的修订可行,什么样的修订不可行。
第21章 家庭中的天才
I·J·古德(I. J. Good)
经验贝叶斯法(empirical Bayes)与层次贝叶斯模型(hierarchal Bayes methods)
佩尔西·迪亚科尼斯(Persi Diaconis)
“投影追踪”(projection pursuit)数据分析法
“维度的诅咒”(curses of dimensionality)。这组定理表示,当空间的维度增加时,得到确切参数估计的可能性就越来越小。一旦分析空间维度达到10 至20 个,观测值又少于10 万,那么就分析不出任何结果。
第22章 统计学界的毕加索
人类倾向于寻求模式,并往往在只有一些随机的、模糊的信息时,就认为已经找到了模式。
约翰·图基
“探索性数据分析”(exploratory data analysis)。
第23章 处理有瑕疵的数据
第24章 重塑产业的人
W·爱德华兹·戴明(W. Edwards Deming)
质量管理
戴明关于产品质量管理的主要观点是:产品的生产过程是可变的。戴明强调:消费者最希望的产品并不是完美无缺的,而是质量稳定可靠的(reliable)。
生产过程中的变异有两方面的来源:一个原因戴明称之为特殊原因(special causes),另一个他称之为一般原因(common),也可称为环境原因(environmental)。
戴明主张,美国产业界应该制订相应产品生产的标准程序,允许产品生产过程在一定范围内变化。一旦生产过程中出现的问题超出这一界限,即停下来寻找问题出在何处。
第25章 来自黑衣女士的忠告
第26章 鞅的发展
保罗·利维
利维对中心极限定理的证明建立了一组更具有普遍意义的必要条件,这两个条件相当于有一组随机产生的一个接一个的数列:
1. 变异是有界的,因此个别值不可能是无穷大的,也不可能是无穷小的。
2.下一个数字的最佳估计值必是它的前一个数值。
利维称这样的数列为鞅(martingale)。
在赌博中,martingale的意思是指赌博者在输了的情况下加倍下注,如果他输赢的机会各半,即50%:50%,那么损失的期望值就等于他原来的损失。
Martingale这个英文词还有另外两个含义。一个意思是用来描述法国农夫套马的一种装置,让马低着头不向后甩。在此装置控制下,马的头可以随意活动,但马头下一个最有可能的位置是它现在所在的位置。
第27章 意向治疗法
“意向治疗”(intert to treat)分析方法
这样命名的理由及其用途是:如果我们对医疗政策的总体结果感兴趣的话(该政策通常会推荐使用某个治疗方案),就得授权引而伸之医生,让他可以按照他的判断去调整治疗方法。用皮托的方法,临床实验的分析可以判断:建议使用一个给定的方法作为治疗的起点,是不是一个好的公共政策。“意向治疗”分析方法最被认为是一种很好的方法,适合用于那些政府资助的、为制定好的公共政策而进行的大型研究。
大卫·R·考克斯
他称费歇尔的方法为“显著性检验”(significance testing),而称奈曼-皮尔逊的理论为“假设检验”(hypothesis testing)
第28章 电脑随心所欲
布拉德利·埃弗龙(Bradley Efron)
Bootstrap
整个计算过程是一个数据自身模拟提升的过程,就像是解靴带一样,一个接一个地被解开。
他最初的论文中证明了,如果对真实的数据分布做出了恰当的假设,这个方法与标准方法是等同的。
第29章 “泥菩萨”
让我们用统计的宇宙观来考虑下面三个哲学问题:
1. 可以用统计模型来做决策吗?
2. 当概率应用于现实生活中时其含义是什么?
3. 人们真的懂得什么是概率吗?

《女士品茶》的笔记-第17页

确定了样本中的活酵母细胞数服从泊松分布,戈塞特就能够设计规则和测量方法,从而 得到对酵母细胞浓度更为精确的测量。用戈塞特的方法,吉尼斯能够生产质量更稳定的啤酒。

《女士品茶》的笔记-第9章 - 第9章

什么是中心极限定理? 大量数据集合的平均数都有一个统计分布,而中心极限定 理则阐明,无论初始数据是怎么来的,这个分布都可以用正态 概率分布来逼近。这个正态概率分布与拉普拉斯的误差函数 (Laplace’s error function)相同,有时也叫做高斯分布 (Gaussian distribution),而在浅显通俗的普及书里,也常被称 为“钟形曲线”(bell-shaped curve)。在 18 世纪晚期,亚伯拉罕·棣莫弗(Abraham de Moivre)已经证明,由机会博弈(games of chance)所得数字的简单集合符合中心极限定理。然而,在此 之后的 150 年里,对这个猜想的证明没有丝毫的深入进展。

《女士品茶》的笔记-第12页

用来确定分布函数的这些数字与测量中的数字不属于同一类型,这些数字决不会被观察 到的,但可以从观测值散布的方式中推导出来。这些数字后来被称为参数(parameters—— 源自希腊语,意思是“几乎测量”(almost measurements)。能够完整地描述 K·皮尔逊体 系中数字的四个参数分

《女士品茶》的笔记-第6章 - 第6章

极值分布
知道极值分布有什么用处?如果我们知道极值分布与正 常值的分布之间的关系,就可以记录每年洪峰的高度,并预测 百年不遇的洪灾发生时最有可能的洪峰高度。能够这样做的原 因是,每年的灌水测量值给我们提供了足够的信息,用它就可 以蒂皮特分布的参数。因此,美军工兵署(USACE)就能计算 出在河上究竟该筑起多高的堤防,环保署就能规定气体排放标 准来控制工业烟囱废气突然排放的极值,棉纺工业就能确定在 棉线生产中究竟有哪些因素会对最脆弱的纤维强度的分布参 数产生影响

《女士品茶》的笔记-第3章 - 第3章

戈塞特的工作有一个基本的假设,即原始测量值服从正态 分布。多年以来,科学家使用着“学生”的 t 检验,许多人渐 渐相信,并不需要这项假设。他们经常发现:不管原始测量是 否服从正态分布,“学生”的 t 检验都有相同的分布。在 1967 年,斯坦福大学(Stanford University)的布拉德利·埃弗 龙(Bradley Efron)证明了这一点,更确切地说,他发现了 不需要戈塞特假设的一般条件。

《女士品茶》的笔记-第八章 - 第八章

你们大家都记住我的话。你们都了解我,并且知道我不可能保持沉默,因为沉默也可以解释为默认,沉默中常常意味着谎言。我想对刚才的演讲做个评论,我们不防就叫它“M·阿斯特赖将军的演讲”吧……。就在刚才,我听见一种嗜尸成癖的愚蠢无知的
叫嚣:“死亡万岁!”而我,一个终生致力于各种悖论研究的人……我必须告诉你们,作
为一个权威,这种荒诞怪异、语无伦次的谬论让我恶心。阿斯特赖将军是个残疾人……
他是战争造成的一个残疾人……。不幸的是,眼下的西班牙这种残疾太多了。而且不久,如果上帝不能拯救我们,这种残疾人甚至还会更多……。
这里是知识的殿堂,而我才是这个殿堂的领袖。是你们亵渎了这个神圣的地方。你们可以凭借极其残暴的兽行获胜,但是你们无法得到人们的认可。因为要让人认可必须靠说服而不是压服,要达到说服的目的所必须具备的东西,恰恰是你们所没有的,那就是理智和正义……。相信一个假设已经被证明是真的,仅仅是由于该假设与已知的事实没有发生相互矛盾,这种逻辑上的误解,在统计推断上是缺乏坚实根基的,在其它类型的科学推理中也是如此。当显著性检验被准确使用时,只要显著性检验与数据相矛盾,这个显著性检验就能够拒绝或否定这些假设,但该显著性检验永远不能确认这些假设一定是真的,……如果显著性检验真的被人们理解到这种程度,那么就说明显著性检验的道理已被人们认识清楚了……虽然柯尔莫哥洛夫和他的学生在概率和统计的数学理论上有重大的贡献,但苏联从这场统计革命中却获益很少。为什么会如此?这个问题本身就提供了一个案例,说明当一个政府对所有的问题都知道其“正确”答案时,会发生什么后果。
在沙皇统治时代的末期以及俄国大革命开始的这段期间,俄国的统计学界相当活跃。俄
国数学家在英国和欧洲发表的论文,被国际学术界广泛知晓。俄国数学家与农业学家的论文常发表在《生物统计》期刊上。具有革命精神的俄国政府设立了一个中央统计局,并且在各个苏维埃共和国里也设置了类似功能的地方统计局。中央统计局进行了一份报导统计学术活动的期刊《统计学通报》(Vestnik statistiki - herald,1994 后改名为《统计学研究》,即Voprosy statistiki - statistical studies——译者注),上面有很多英文与德文期刊的论文摘要。在1924 年年末,《统计学通报》上发表了一篇论述统计设计如何应用在农业研究上的文章。
随着20 世纪30 年代斯大林肃反运动的到来,所谓正宗的共产主义理论也渗透到学术界
各个领域。在一些所谓的共产主义理论家看来,统计学是社会科学的一个分支。所有的社会科学都应服从于中央计划。随机变量的数学概念是统计方法的核心,但由于随机变量(random variable)译成俄文时,译成了“偶发数量”(accidental magnitude),所以对中央计划者和理论家来说,这种概念显然是一种冒犯。在前苏联,所有的工业与社会活动,都是计划出来的,没有什么事是偶然发生的。偶发数量可能描述资本主义经济中所观察到的事情,但绝不是在俄国。因此,数理统计的应用研究很快就受到压制。在1956 年的《数理统计年报》(The Annals of Mathematical Statistics)中,S·S·扎尔科维克(S. S. Zarkovic)写了一篇回顾苏联时期统计发展史的文章,里面就很委婉地讲到:
随后几年,在俄国的统计学发展过程中,政治考虑成为愈来愈显要的因素,这便导致了在统计实践活动中理论应用的逐渐消失。到了20 世纪30 年代末期,《统计学通报》停止刊登用数学处理统计问题的论文。到了20 世纪30 年代结束时,这方面的论文完全销声匿迹,而且从此没再出现。这种趋势的结果是,统计学家完全放弃了应用,躲回到大学校园和其他研究机构中,以其他学科的名义从事统计研究。柯尔莫哥洛夫、N·V·斯米尔诺夫(N. V. Smirnov)、V·I·罗曼诺夫斯基(V. I. Romanovsky)以及其他很多人,都正式地离开统计学,变成数学家了。一个很有趣的例子是E·斯卢茨基(E. Slutsky),他本来是世界知名的计量经济学大师,结果连他也放弃统计学,改行去做天文学研究……。依照官方的观点,统计学变成了为政府制定国家经济计划的工具,当然它是一种社会科学,或换句话说,是一种阶级科学。其中的大数定律、随机离差思想,以及其它任何属于统计学的数学理论,都被当成是错误通论的构成元素,而遭到清除。

《女士品茶》的笔记-第98页

居然把Poincare翻译成“普安卡雷”,译者数学素质堪忧啊!

《女士品茶》的笔记-第283页

统计分析方法可以看做是一个连续过程,一端是高度依赖模型的方法,另外一端则是一些非参数方法,采用最普通的方式检查数据。

《女士品茶》的笔记-第17页 - 分布与参数

在二十世纪三十年代末期,当K•皮尔逊临近他漫长生命的终点之际,一位杰出的波兰年轻数学家耶日•奈曼(Jerzy Neyman)表明,K•皮尔逊的偏斜分布体系并没有包含所有可能存在的分布,许多重要问题不能用K•皮尔逊的体系解决。

《女士品茶》的笔记-第2页 - 参考书目

1.研究论文:《作物收成变动研究III》R•A•费歇尔
2.《研究工作者的统计方法》R•A•费歇尔
3.U统计量
4.托马斯.库恩《科学革命的结构》
5.《不确定情况下的判断——启发与偏见》 (Judgment under Uncertainty: Heuristics and Biases)

《女士品茶》的笔记-第95页

诺伍德女士与她丈夫都是经济学博士。她们结婚的头几年,尤其在她丈夫参与研究欧
洲共同市场的相关制度时,她并没有外出工作,只是在家教养两个孩子,偶尔写一些学术上
的文章,让自己保持活力。后来,全家定居于华盛顿,他们的小儿子也开始上小学,诺伍德
女士就出来找事做。她想找的工作是要能有几个下午不必上班的那种,这样当孩子放学回家
时能照顾他们。劳工统计局有这样的工作机会,每周有三个下午在家。 sigh~

《女士品茶》的笔记-第20页

对我们之间的讨论,他的回复是两大页书写纸,上面用最深的墨水写满了他所证明 的数学(跟着是一组数学公式)......我看不大懂这些内容,回复他说等我闲下来时准备 研究它,实际上我去湖区时随身带着它,可弄丢了。
现在他将这封信寄给我,我觉得如果它还可以的话,您也许愿意发表这个证明,它 是这样的完美和数学化,对某些人也许有吸引力。

《女士品茶》的笔记-第15页

费歇尔表明,实验设计的第一步是建立一组数学公式,用以描述待搜集数据与预估计结果之间的关系,因此,任何有用的试验必须能够提供估计结果。

《女士品茶》的笔记-第30页

有的科学家宣称,概率分布的使用只是一时的权宜之中,最终我们会找到一种途径回到19世纪科学的决定论。爱因斯坦有句名言,他不相信上帝在和宇宙玩骰子,就是这种观点的例子。其他人则相信,大自然基本上是随机的,真实性只存在于分布函数之中。不管一个人的基本哲学是什么,事实仍然是,K?皮尔逊关于分布函数和参数的思想统治了20世纪的科学,并在21世纪初仍保持着优势。

《女士品茶》的笔记-前言 - 前言

概率论本身不足以说明统计方法,有时甚至会出现这样的情形:科学中所用的统计方法违 背了概率的定理。

《女士品茶》的笔记-第26页 - 高尔顿回归思想的一般化

费歇尔发现了带有同样缓慢变化的另一种记录,不过形态是相反的,那是关于麦田里野
草的。1876 年后,野草蔓延得越发严重,而到了1894 年突然开始消失,只是在1901 年又
开始茂盛起来。
后来发现,雇用小男孩到地里去拔草,在1876 年以前是通告的做法。在英格兰的大地
上,下午经常可以看到瘦弱的小男孩穿行于田间,不停地拔草。到了1876 年,教育法(the
Education Act)使得上学带有强制性,田间小男孩的大部队开始不见了。而1880 年第二部
教育法通过,对致使孩子辍学的家长施以罚款,田间剩下的男孩也离开了。没有了拔草的小
手,那些野草就又茂盛起来了。
那么,在1894 年又是什么事情发生,使得趋势逆转了呢?在罗森斯特附近有一所女子
寄宿学校,新校长约翰·劳斯(John Lawes)相信,充满活力的户外活动有助于他那些年轻
的被托管人的健康。他和实验站的头儿一起安排,让这些年轻姑娘在周六和傍晚出门,到地
里去拔草。1901 年劳斯去世后,这些小姑娘恢复久坐的习惯,多是在户内活动,野草也就
又回到了“宽田埂”。
对于这种随机性质的彼此联系,高尔顿试图找到一个数学公式,而费歇尔接过高尔顿“回归”(regression)这个词。自从费歇尔开创性的尝试,时间序列的统计分析在他的思想和方法的基础上,建立了起来给定一组随时间波动的数据,我们可以将之分解为不同来源导致的结果。时间序列分析用来检验:美国太平洋海岸拍激的海浪是不是印度洋风暴的起因。这些方法使研究人员能够区分地下核爆破与地震,能够精确地为病理学上的心中节律定位,能够确定环境管制对空气质量的影响,其应用范围还在继续扩大。
这就是统计变革科学!

《女士品茶》的笔记-第13页

K·皮尔逊提出,这些观测到的现象只是一种随机的映像,不是真实的,所谓的真实是 概率分布。科学中真实的东西并不是我们所能观测到或能把握到的,它们只是通过用来描述 我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的,是分布的四个参 数。从某种意义上说,我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它 们。

《女士品茶》的笔记-第133页

《联邦党人文集》翻译成《联邦主义论文集》,译者各项素质堪忧啊!

《女士品茶》的笔记-第1页 - 1

没有哪个数学科目会像统计学这样讲应用与数理基础分化得如此之开,而这一切或许都是Fisher那本 Statistical Methods for Research Worker 的“功劳”

《女士品茶》的笔记-第10章 - 第10章

在很多情况下,假设检验的目的是用来推翻零假设的,而 这个零假设就好比我们所要攻击的稻草人。举例来说,当我们 比较两种药的临床效果时,待检验的零假设是两种药的效果一 样。但是,如果真是如此,研究工作就永远不必进行了。所以, “两种处理的效果相同”这一零假设,就是我们所要攻击的稻 草人,应该被我们研究的结果来推翻。因此,根据奈曼的思想, 该项研究的设计必须使最终数据有最大的检验效力,这样才能 推倒这个稻草人,即表明这两种药的效果有多大的不同。

《女士品茶》的笔记-第83页

当时长枪党的党徒们(以西班牙的法西斯主义者闻名)已经占领了古老的沙拉曼卡大学(University of Salamanca)。该大学的校长是享誉世界的西班牙哲学家米Unamuno),当时他已经70岁出头了。"这里是知识的殿堂,而我才是这个殿堂的领袖。是你们亵渎了这个神圣的地方。你们可以凭借极其残暴的兽行获胜,但是你们无法得到人们的认可。因为要让人认可必须靠说服而不是压服,要达到说服的目的所必须具备的东西,恰恰是你们所没有的,那就是理智和正义……。"

《女士品茶》的笔记-第16页

有的科学家宣称,概率分布的使用只是一时的权宜之中,最终我们会找到一种途径回 到 19 世纪科学的决定论。爱因斯坦有句名言,他不相信上帝在和宇宙玩骰子,就是这种观 点的例子。其他人则相信,大自然基本上是随机的,真实性只存在于分布函数之中。

《女士品茶》的笔记-第12页

有时叫高斯分布,以纪念曾一度被认为第一个提出它的高斯,不过另外的说法是:并非卡尔·费里德里 希·高斯(Carl Friedrich Gauss),而是更早的数学家亚伯拉罕·棣·莫弗(Abraham de Moivre)第一个写 下了这一分布的公式。也有充分的理由相信,是丹尼尔·贝努里(Daniel Bernoulli)在那之前就发现了这 个公式。这就是当代科学史专家斯蒂芬·施蒂格勒(Stephen Stigler)所说的误称定律(the Law of Misonomy) 的例子,数学中根本没有以其发明者命名的东西。

《女士品茶》的笔记-第7章 - 第7章

费歇尔的统计估计方法大获全胜,极大似然法统计了世 界,而 K·皮尔逊的方法则被尘封在被遗忘的历史角落里。

《女士品茶》的笔记-第10章 - 第10章

1872 年,英国哲学家约翰·维恩(John Venn)提出了一 个数学概率的公式。这个公式使得概率在现实生活中有了含 义。他把一个重要的概率定理转了一个方向,这个定理就是大 数定律(law of large numbers)。大数定律指出,如果某事 件有给定的概率(比如掷一个骰子,得到六点这一事件的概率 是六分之一),而且如果我们重复地进行相同的试验时,该事 件发生的次数的比率就会越来越接近这个概率值

《女士品茶》的笔记-第1章 - 第1章

1. 平均数(the mean)——测量值散布状态的中间值;
2. 标准差(the standard deviation)——测量值的散 布与平均值偏离有多远;
3. 对称性(symmetry)——测量值在平均值一侧规程的 程度;
4. 峰度(kurtosis)——个别的观测值偏离平均值有多 远。

《女士品茶》的笔记-第1页 - 摘录

1.K.皮尔逊认为,测量值本身,而不是测量的误差,就具有一种正态分布。是不是无论操作多么精准,始终存在不可控的变量干扰,比如观测者的心理状态?
2.然而,没有任何科学的证明揭示了这样一种因果关系的存在,也没有任何数学模型有准确的依据表明客观现实中存在着这一效应。它只是一种信念的表述而已,就其科学的有效性而言,它与关于鬼神的描述相去无几。而统计模型是用分布参数来对科学探索明确地进行解释,它们也是建立在对现实世界的一种信念所作的描述上。然而,我自己在科学研究上的经历让我确信,比起对信念的确定论的陈述,统计上的陈述更有可能是真实的。对爱德华.洛仑兹的“蝴蝶效应”的评价
3.读过费尔歇的应用型论文之后,你会在他的引导下相信,使用显著性检验是为了得出三种可能的理论之一:如果P值很小(通常小于0.01),他断言某种结果已经显现出来;若P值很大(通常大于0.2),他宣布即便真的存在一个结果,也会因为该结果发生的可能性太小,所以不可能有任何显示出这个结果的大规模的实验;如果P值介于前两者之间,他讨论了应该如何设计下一个实验,才能得到一个更好的结果。4.从长期来看,对于一直计算95%的置信区间的统计学家来说,他们将发现,在总数次数中,参数的真值将有95%的机会落在所计算的区间内。请注意,对奈曼来说,与置信区间相联系的概率并不是我们“答对”的概率,而是统计学家使用某种方法从长期来看做出正确陈述的概率。这个数字与当前的估计值有多么“准确”根本没有任何关系。
尽管奈曼定义这个概念时非常仔细,尽管许多像鲍利这样的统计学家也都非常小心,力图保持对概率概念的清晰理解并使其不被误用,但在科学领域对置信区间的普遍应用却导致了许多草率的思维。举例来说,有人使用95%的置信区间来表示他有“95%的把握”保证参数的真值落在这个区间里,这是很普遍的。
置信区间更多的是一种长期的概率估算,而不是当前有多少把握正确的估算。换而言之,前者是能够真正正确多少的概率,后者是研究者自己答对的概率。
5.1959年,杰尔姆.科恩菲尔德与5位来自国家癌症研究所和斯隆-凯特琳研究所的顶尖癌症专家一道,对所有已公开发表的研究作了一个回顾,撰写了一篇30页的论文。他们审查了费尔歇、伯克森和奈曼提出的反对意见,同时也探讨了烟草研究所的反对意见。他们由这场争论引申出一些更细致的推论,并且指出,有关证据压倒性地支持“烟草是人类肺部表皮癌发生率迅速上升的原因之一”。5位和作者分别为:国家癌症研究所的威廉.亨塞尔(William Haenszel)、美国癌症学会的E.卡特勒(E.Cullter)、约翰.霍普金森大学卫生与公共健康学院的亚伯拉罕.利林费尔德(Abraham Lilienfeld)、国家癌症研究所的迈克尔.希姆金(Michael Shimkin)和斯隆-凯特研究所的厄恩斯特.温德(Ernst Wynder)。
6.在毒物学,一般认为特定的药剂会导致特定类型的病害。7.戴明和其他许多统计学家坚决否定假设检验的作用。他们坚持认为费歇尔的估计方法才是统计分析的基础,认为真正应该估计的是统计分布的参数,而通过 P 值和武断的假设间接地处理这些参数而进行的分析是毫无意义。 这些统计学家继续使用奈曼的置信区间去衡量他们研究结论的不确定性, 但是他们却认为奈曼-皮尔逊的假设检验就象 K· 皮尔逊的矩法(method of moments)一样已经过时了8.深邃未及的这个世界是一个集情感、事件与骚动的复杂混合体。我同意库恩的观点,我不相信人类的头脑能够构造一个理想的结构去解释、 甚至不能挖地描述这个世界的真实情况。任何这种努力都存在根本的缺陷,最终,这些缺陷会变得非常明显,以至于科学模型必须不断地被修正,最终将走到它的终点,取而代之的是其它的什么东西.

《女士品茶》的笔记-第18页

他提前采用了现代计算机基础上才出现的蒙特卡罗技术(Monte Carlo techniques),这是一种一再模拟的数学模型,以确定相关数据的概率分布。然而,当时他 没有计算机,只能不辞辛苦地加总数据,从上百个样本中计算平均数,并绘制所得出频率的 图表,所有这些都靠手工完成。

《女士品茶》的笔记-图基的十笔计数法 - 图基的十笔计数法


图基认为五笔计数法非常容易出现错误,除非仔细检查每个“五”中竖的数量,否则无法发现错误,而且很多的竖在一起很容易眼花,于是他提出了十笔计数法。先画四个点,再再连成方框,最后在里面打X。
但我认为十笔计数法也好不到哪儿去,如果在应该画点的时候疏忽了,直接画了框,一样是错,而且误差比五笔计数法还大!更蠢的是,因为点被框盖上了,所以一旦出现错误,根本就没法发现。
综上所述,中国人画正字到目前来看,是我认为最合理的计数方式,跟沙文无关哦。

《女士品茶》的笔记-第297页

读者可能想知道哲学究竟对科学及现实生活起到什么作用。我的答案是:哲学关注的是我们日常文化思想和活动的基本假设。我们的世界观来自于我们的文化,是受许多微妙的假设影响的,甚至很少有人会意识到它们。学习哲学会让我们揭开这些假设,并去检查它们的有效性。

《女士品茶》的笔记-第8页

优秀的科学家可以做出产生新知识的实验。实验设计的第一步是建立一组数学公式,用以描述待搜 集数据与欲估计结果之间的关系,因此,任何有用的实验必须是能够提供估计结果的。实验 必须是有效的,能够让科学家测定出气候的差异和不同肥料的使用对产量差

《女士品茶》的笔记-第13页

有一件事是达尔文做不到的,那就是他不能给出人类历史的时间框架中,新物种实际出 现的例子。达尔文设定新物种由于适者生存而出现,但没有证据,他不得不做的只是展示现 代物种很好地适应了它们所处的环境。达尔文的说法似乎只是表明了已知的事情,而且理论 本身有一个很吸引人的逻辑结构,但是如果套用犹

《女士品茶》的笔记-第134页 - 泥菩萨

深邃未及的这个世界是一个集情感、事件与骚动的复杂混合体。我同意库恩的观点,我不相信人类的头脑能够构造一个理想的结构去解释、甚至不能描述这个世界的真实情况。任何这种努力都存在根本的缺陷,最终,这些缺陷会变得非常明显,以至于科学模型必须不断地被修正,最终将走到 它的终点,取而代之的是其它的什么东西。
因为统计革命的表面观念已经传播到现代文化中,越来越多的人相信所谓的真实性,而不考虑它的基本假设,所以,让我们用统计的宇宙观来考虑下面三个哲学问题:
1、可以用统计模型来做决策吗?(逻辑和概率是矛盾的。)
2、当概率应用于现实生活中时其含义是什么?
3、人们真的懂得什么是概率吗?
当我们进入21世纪的时候,统计革命在科学领域取得了胜利,除了极少数的角落,它已经征服了科学界几乎所有领域的决定论观点。统计观点的应用如此广泛,以至于其基本假设已经成为西方世界通俗文化的一部分,就如同一尊泥菩萨一样立在那里,洋洋得意,而在未来的某个隐蔽的角落,另一场科学革命正在孕育,而那些即将发起这场革命的男男女女,可能正生活在我们中间。

《女士品茶》的笔记-第75页

哈哈,fischer的MLE,Nyman Pearson定理,Cramer-Rao, Rao-Blackwell这些来龙去脉可真有趣,统计实质是认识世界的哲学啊啊啊啊。。统计物理和化学终于让人认识到所谓确定性定理是不存在的,世界以随机,概率,和更具体的某种分布形式存在。
让我想起我之前关于是否存在“上帝”分布的存在性的质疑:“竟然从统计中思考到了哲学,严平稳的定义说,联合分布不随时间变化,如果有那么一个广义分布可以包括其他,那么严平稳不就成立了么?人究竟发明这么多分布,不就是还没认识到那个上帝般的广义分布么?中心极限定理貌似只是说耶稣分布是正态分布,但上帝分布是什么分布我们还是不知道。所以计量中数据驱动的模型推广能力都不强,因为这是从特殊到一般,归纳法。”


 女士品茶下载 更多精彩书评


 

农业基础科学,时尚,美术/书法,绘画,软件工程/开发项目管理,研究生/本专科,爱情/情感,动漫学堂PDF下载,。 PDF下载网 

PDF下载网 @ 2024