《女士品茶》书评

出版社:中国统计出版社
出版日期:2004-11-01
ISBN:9787503744891
作者:David Salsburg 萨尔斯伯格
页数:332页

从整体上去看待概率统计，而不是只会公式推导

事实上，感觉学生t分布是非常重要的，无论是对历史还是对理论上的进展，可为何这个分布无论何时都只是被人一带而过呢？皮尔逊，我觉得更多的是现在大家比较熟悉的大样本的情况；而费歇尔的思想，则是说参数是随着样本而变化的，因此基本上永远无法得到正确的值，因为总是具有随机性的，这样的话，只能说，以概率1无法得到真正正确的分布参数。看完1/3后，突然觉得自己根本没有理解统计思想，所用到的更多的是一种数学计算而已，对其思想，我想是需要了解和思考的。如果我是大学教授概率统计的老师，或者研究生阶段教授随机过程的老师，我会告诉我的学生去读读这本书，这样子或许我的学生即使没有从事概率统计的研究，也能理解，他们所学的东西并不是数学公式而已，其具有思想、具有灵魂、具有发展历史、更具有我们日常生活中司空见惯的应用。全书翻译的还可以，说有台湾版本的，可有些地方作者翻译的怎么都读不通，不知道是翻译时漏掉东西了，还是没理解原作者的意思，误翻译了。

一定要意志坚定才行!

和导师一块儿看的，看完以后我对师父说，这本书让我对世界产生了怀疑，因为书里问道统计学到底能不能反映真实世界，我很幻灭。然后我问师父：师父您有没有幻灭？师父非常坚定的回答：没有！唉，看来我还是太嫩啊。这本书让人又爱又恨，它确实探讨了统计学的哲学思想，对于我这种统计方法基本都是自学的人来说确实有醍醐灌顶的感觉。恨的是他的翻译，实在是。。。不说了。

随便谈谈

这周算是有空（其实那一周都闲得不对头），有幸读了一下《女士品茶》。先说说书本身吧。本书的全名为：《女士品茶：20世纪统计怎样变革了科学》，是David S. Salsburg于2001年出版的一本介绍20世纪概率统计发展历史的普及作品。本书作者在统计界可能只是个二流人物，在Wiki上连标准化的词条样式也没有，词条内容也很少。或许作者不算厉害角色（纯粹是我的臆测），但是本书写的却倒是颇有独到之处。书内没有涉及到任何令人不明就里的具体公式，只是按照历史教科书讲历史的方法粗略地用通俗语言介绍了概率统计在20世纪的发展。很多论述，也颇有哲学层面上的讨论（毕竟概率统计里的很多东西还是仁者见仁，智者见智，关于模型和实际也确实颇有话可讲）。虽然有章节过短、数学内容太少、后几章有赶工的迹象等缺点，不过总体上瑕不掩瑜的。因为概率统计这块，能讲到这个层次的普及类书籍实在是太稀缺了，除了几本太过哗众取宠的快餐式书籍，至今还真没看到几本（陈希孺院士的那本除外，还没有读）。不过限于自身水平，读后的收获还是很少，也许再多看一些概率统计的数之后再读或许收获更大，毕竟此书颇有提纲挈领的感觉，还是不错的，值得反复阅读。虽说收获不多，但总还是要谈上一点的。首先，本书关于概率统计的历史发展的梳理劲道一般的，作为数学史来看，还是太过文学化。不过怎么说，熟悉熟悉那几个历史上大牛的名字也是不错的，好歹吹牛谈天时能多讲出不少名字。而且本书也补全了一直以来自己的遗憾：从未读过对概率统计历史介绍的著述。应该是我读的数学史还是太少，因此真还未曾与介绍概率统计的数学史书谋过面；当然，也有可能概率统计本身不太受原教旨主义过强的数学界待见，毕竟甚至连《古今数学思想》这样的经典数学史中也缺乏概率统计的章节。读了本书，也算是填补了我对数学史了解的一大块空白。其次，读本书的另一收获莫过于又一次端正了我关于科学的三观。虽然之前在各类普及作品中也读到不少关于科学本身的描述，大致也提到了不确定性在20世纪科学发展中的作用，虽然只是囫囵吞枣、知其然而不知其所以然的描述，但也留下了些印象。再加上这暑假里做的数学课题，看的解析数论书中也透露出一种这样的思想：很多东西是没有办法求精确简短的表达式的，只能靠大O项这样的东西来补全简化，重点不在于精确，而在于近似好用。不过说实话，有时候就算证明个不那么精确的表达式，也是不容易的。而本书中一开始就提到了K.Pearson那三人在20世纪初引发的统计革命，确立了科学中的测量值不过是概率分布的结果之一观点。换言之，这世上是不存在精确测量的，因为随机误差，我们所测的不过是一些概率分布的值而已，甚至连传统意义上的测量值也算不上。虽然K.Pearson等人随着时间的推移，终究从学霸学阀变成了无人问津的老头，其思想也终究在不断改进中变样了。但是这一条基本的观点至今未变，管你是经典统计还是贝叶斯，无论什么学派赞同这一观点。所以统计学家很讲究实际，不在乎模型的理论如何，重点在于近似好用。有一句调侃的话不正是这么说的么：所有的模型都是错的，只是有一些更好用罢了。说说题外话，其实这种想法不得不让人对我们究竟能不能认识这世界做出遐想，毕竟连Feyman也表达过这样的观点：物理学家就像不知道象棋规则的人却在不断地看人下象棋一般，从观察到的每一步总结出种种规律，然而颇有可能因为下棋人不习惯使用某个子而导致规律有疏漏甚至错误。毕竟所有我们对世界的研究也只是局限在两三个世纪和人力能达到的空间这样狭小的范围内，所以科学究竟是世界的真理还是和宗教一样不过是对世界的一种认知？这一切都很难说，虽然我曾经狂热地认为科学是这世界唯一的真理，不过我后来放弃了。希望有一天，我能够获得我所能认同的这世界的真正的真理，虽然这件事的概率或许比明天太阳突然消失了还要小。好吧，其实上面扯远了，与本书的关系实在不大。下面回归正题。这次读本书的收获之三，莫过于对一些见过的统计概念有了一些新的认识，对一些没见过的概念倒也是混了个眼熟。但总体来说，在数学方面，读本书收获不大。毕竟会背Peano公理、ZFC公理和推导出整个数学分析的体系是两回事，所以有时候大体上知其所以然也不一定就会知其然。说到这点，我不得不吐槽吐槽一年前我的错误认知，记得那时将概率论的5条公理背得滚瓜烂熟，背后的概念与联系也是思索了很久，感觉对于公理已是透彻理解。结果一碰到后来涉及到计数的题和之后的推导，就臭得如和茅厕中的大粪一般了。也许数学这种东西要做到高屋建瓴不是靠背公理，而是先深入细节，学完整套东西，会算会画，最后在回过头去才是真正的举上而得下。好吧，就先写到这了，这学期到真得培养培养认真看书写读后感的好习惯了。

20世纪的统计学家们

没有什么统计学方面基础的我最近因为从事数据分析方面的工作，决定找几本相关的书阅读看看。开始翻了翻内容，预计要从中秋节一直看到十一结束才能艰难完成，没想到十一还没有开始就兴致勃勃的全部看完。对于我们这些并非相关专业的人来说（可能对相关专业的人也是一样！），概率学家们本身的人生经历、他们的性格特点、处事方式、行文手法、他们各自的天赋点、他们各自走上统计学道路的原因以及他们在一战、二战大背景下的人生经历和他们彼此之间充满激情（不是基情好么）碰撞的故事更加的引人入胜。也因为统计学问题普遍来源于生活里遇到的实际问题和困难，所以在阅读的过程中还能获得很多额外的知识，比如20世界战时以及二战后各个国家的历史文化、政治格局、学术界有意思的传统会议的流程、人们说话和提出问题的方式等等。很多统计学问题的来源故事也十分有趣，比如作为条件概率的例子的威尼斯共和国总督的选举方式；比如作为唯一变量实验的例子的某个山区学校的办学方式等等，真实的让人感觉到，这门看起来奥涩难懂、理论抽象、布满精美复杂的积分微分公式的学科，其实来自于生活，并服务于生活。作者写作的本意是让没什么数学基础的人理解20世纪的统计学究竟如何改变了当今的生活，改变了基本上任何学科的发展方式和方向，所以基本上没有细致的解释众多统计学方法和公式的具体内容（但是其理论的形成过程，比如谁首先提出该理论，到某阶段，后来又经由谁发展，最后形成了如何的规模的却说得很清楚），个人认为是初涉统计学时建立整体理念的应该要读一读的一本书。书中提到了众多统计学泰斗（当然同时他们也可能是昆虫学家，农学家，气象学家，哲学家，数学家，生物学家，传染病学家），并详细提到了他们各自的观点、代表论文和著作等，方便读者根据读完之后的第一印象去选择接下想要阅读的方向。打算买一本实体书存着经常翻一翻。

《女士品茶》读书笔记

从公共邮箱中下载到课上所说的基本著作之后，和很多人一样，我选择了《女士品茶》这本比较通俗易懂的入门读物。就如读完了《苏菲的世界》后对整个哲学有了基本的认识，这不是一本女性读物，也不是一本专门讲茶的读物，而是从一个温暖的下午几位大师和他们的夫人们对其中一位女士的观点进行验证引领我们走入统计的世界：把茶加入到奶里和把奶加入到茶中会使味道品起来不同。很有意思的是整本书并不是把这个看似很简单并且从某些角度看起来仅仅是一个很无关重要的消遣的实验作为一个引子，而是将这个例子作为一条线索贯穿了整本书，从第一章的纯粹的验证这位女士的结论是否正确开始，如何在这位女士没有区分能力的情况下设计实验让她无法仅凭猜测正确，如何在这位女士有区分能力的时候容忍区分出错的概率，比如十次重复实验之后区分对了九次的情况下是否值得我们相信这个女士是有区别能力。这些对于这个很简单的实验设计形象化了数理课中很多的概念化的东西，最大似然估计，假设检验，中心极限，大数定律。不愧是一本入门的著作，作者在每一次引入一个新的概念的时候都会有一定篇幅的背景介绍和相关奇闻异事，作为一个基本没有系统学习过统计学的理科生来说，虽然在很多的时候我不明白这些公式是怎么推出来的，也不知道这些变量是怎么求，怎么算。但能基本上明白这些公式，这些变量的设置是要做什么用的。通读一遍了花了自己一整天的时间，pdf亮丽的白底黑字，加上每一页都是密密麻麻的文字，幸亏还有每一位天才的生平起到承上启下的作用，不会泪流满面。但是粗略的读完书之后，对于上课的注意力集中倒是起到了不少的作用，至少不会因为忘记如何积分，如何计算极限，看着满满的一黑板公式而失去了听课的信心。我在想，有多少人会思考如何去理解每一个公式是怎么来的，它是做什么用的，为什么它是需要的，是不是可以更加优化的使用而不关心最后这门课能得到多少分去学习数理统计，就如大师们《实验设计》的作者费歇尔一直在思考如何更加优化的设计实验方案去验证这位女士的结论，至于这个实验的结果到底如何，成不成功，已经成为了次要。如果大师们仅仅为了去验证这位女士的结论的话，我想这一切真的就是一种很简单的消遣了。还是回归到这本书的内容，很喜欢书中对于真实世界的描述，我们所见的都是一个概率内发生的事情，“充满随即性的大自然里，真实性只存在分布函数之中”费歇尔大师把观测的现象认为是随即的映像，真正我们想把握的只是分布的四个参数。诚然，阅读这本书对于想提高自己的统计学能力基本作用为零。但是我还是会在仅仅只有几周后考试的情况下很认真的阅读完这本书。而且我相信如果还有机会和时间的话还会很认真的去读第二遍。不仅仅是这本书让能让自己明白为什么会有统计，哪些时候我是可以用到统计学的，更上深一点便是能明白我在学的什么知识，我想即使很多年之后我已经不在使用例如统计，高数这类专业知识的时候。我也能明白哪些专业术语是怎么回事，用最简单的最通俗的语言去说明白。很显然，作为一个不是专门研究数学的理科研究生，让我写出一个关于这本书的完整的介绍和梳理整本书的知识结构是一件很困难的事情。而且其中有一大部分的内容在我脑海中只有一个模糊的影像。虽然看的是一本中文译本，虽然整本书中一个公式，一个数学公式都没有。但是每一个我们所接触的统计学方法都变成了一个个生动有趣的故事。我在做题的时候看到实验设计的时候，自然会想起那个温暖的午后那一群大师对奶加入到茶和茶加入奶中的验证，在看到显著性检验的时候会想起费歇尔的经典名言“如果没有随机化的实验设计，你无法从实验结果中证明任何事情”。有没有好处？对于最后的成绩我不知道，但是至少我在做题和分析的问题的时候，让我有了更大的乐趣，在对待现实的各种事情的时候，多了一份各个角度的情况分析和多次验证的观点。也许某一天就会因此看到不同的世界，这可能就是我阅读这本书最大的收获吧。

内容略繁复，趣味性不足

读之前知道是本关于统计学的书，而不是西方上层女士日常行为指导手册，于是抱着学习新知识的姿态开始阅读，读了几章后发现是讲上世纪研究统计学的人物的生平，于是又改抱着看传记故事书继续阅读，然而继续阅读后发现，这本书语句不是很流畅，篇章段落也颠来倒去没有特别明显的中心意思，更不要说故事书内容所必具的起承转合了，遂弃读。学到几个词儿:向平均值回归极值MLE迭代算法/正态概率分布/高斯分布/钟形曲线运筹学混沌理论便利样本序贯分析

跨专业的学术吊丝必备

跨专业的学术吊丝必备；作者说这本书是给数学基础薄的人介绍统计学历史脉络的，没有数学符号，这会造成行文的一些限制，比如无法展现各种方法之间的联系。很想读一本带有数学符号并展现各种思想与方法之间的联系的书。

以讲史带入问题

没想到这本书比预想的要难读一些。如果每一位上课的老师都像这样以史带入，知道一个知识点背后的原因和发展，知道历史是怎样一步一步走到今天呈现在教科书里的样子的，那么也就没有那么多不知道趣味何在的学习了。当然，概念仍然不好理解，这就是读得慢的原因。而且，读完后的感觉是：统计学、数据分析好复杂好难，天才们尚且如此费力……不由得沮丧起来。

生命在于思索

作者意图以非数学的语言描述出统计革命带来的基本哲学观念层面上的重大转变并超越一般的观念介绍的层面而具体地展示给读者某些精彩的统计研究工作是如何进行的，就这个目的而言本书是没有达到要求的，它并未说清楚很多具体工作的基本思想，也就影响了读者对统计观念的全部力量所能理解的深度。但本书的内容确实引人入胜，对于比较容易向外行阐述清楚的概念和思想，作者做得相当好。比如本书前半部分的内容，从始于K.Pearson的统计革命到绝代天才R.A.Fisher令人眼花缭乱的工作和令人难以置信的天才洞察力到他的对手J.Neyman温和的天才到贝叶斯模型的富有见地的讨论，都做了充分的陈述，显示出作者对这部分理论的历史和现状的深入理解。在这半部分中现代统计学的很多基本概念和进展框架被确定下来，比如Fisher的实验设计原则，显著性检验和假设检验的思想，Kolmogorov概率论公理化体系，方差分析，时间序列分析与随机过程理论的兴起，中心极限定理的相关工作。作者花费大量篇幅详细介绍了这些方法和工作的基本想法，让人一次次感受到自己的无知和统计方法的力量。本书后半部分在某种程度上是对前半部分确立的理论的进一步应用和研究，在其中发现了许多问题需要发展新的思想来克服，比如Fisher随机化实验设计不可能实现的领域如何进行实验设计和统计分析？比如Deming对假设检验的整个思想的攻击，这涉及到概率模型基础上的决策与现实不符的严重问题。比如对瑕疵数据是直接去掉吗？如果不能那么该如何进行分析？这些问题一次次让人感到震撼，这些问题我们在日常生活中都会遇到并想到，但如何建立统计模型去分析它们？这对于我庸凡的头脑来讲真是如沐圣光。对于其中难以语言描述的更高深的理论，作者倾向于讲讲理论创建者的个人故事，简单描述理论，但是这样做只是让人困惑，关于理论的文字太少了。但是20世纪后期这些理论进展也许确实触及了很多理论内部的困惑，难以在现在清晰地统一地加以概括。对于我这样一个统计学的外行来讲，本书最大的特色在于一直从问题出发，这也是统计学强大生命力和吸引力以及面临巨大困难挑战的所在。在这个年纪我已不是本科的读书人，对Kolmogorov的公理化体系并不再感到兴趣，说概率是一种非负规范的测度对于我来讲并没有什么意义。我感兴趣的是统计学的广泛应用，比如书中介绍的：署名有争议的文章原作者的鉴定方法；划分国民经济的不同部门用矩阵模型来进行投入—产出分析；吸烟与肺癌到底是什么关系？无确定病原体的传染病与生活习惯的关系；人类活动与生物圈破坏，臭氧空洞等问题；百年一遇的洪水如何进行统计模型的预测？小样本如何有效估计总体分布的参数？监狱犯人释放后重犯率与刑期长短的关系的统计数据明显的正相关如何分析？公共住宅是否影响低收入人群的社会态度？像癌症这种性命攸关的疾病不可能随机分配治疗方案来进行随机化试验以研究新方法的疗效，这时如何办？这无穷无尽的问题出现在经济学，社会学，医药学，物理学，管理学等几乎所有科学领域，一方面让人不禁思考统计模型的本性，另一方面正是在这些问题的研究当中人们对统计模型数学和技术方面的理解日益加深，不断意识到原有理论方法的不足。对这些问题的兴趣和困惑才导致对统计学的兴趣，问题无处不在，但是你意识到了吗？你会去思索这些问题吗？还是笑一笑说太复杂了~天才的一个显著特征即是进行长期连续的高强度深度心智活动，对于愚笨的人，生命没有问题。在统计模型的数学和技术层次之外，本书花费了大量心血来表达统计革命的观念和世界图景的新思考。这方面我觉得只要理解了贝叶斯层次模型就理解了统计观念：理论实体是统计分布，这是变化和影响的基本实体。而理论实体是实际不能直接测量的，我们只能得到它的尽可能好的估计值。作者在本书中当然默认了实在论的认识前提，在此不讨论实在论和非实在论哪个更好，因为作者对统计观念的认识没有达到这个程度，这也导致了它的思想里有一些我认为相当狂妄的自信和严重的错误，集中在作者对于物理学实验和物理学理论工作模式的理解。比如作者对混沌理论的批评，他认为混沌依然是决定论的产物，在现实中他更相信统计模型。但是学物理的人都知道，物理学是很多套数学模型，有确定性的，如牛顿经典力学体系；有概率特征的，如量子理论。用哪个模型来描述问题完全看问题处于哪个层次从而导致问题的哪个方面更为主要从而决定使用哪个模型来进行描述。混沌理论最初是在经典力学模型中发现的内在随机性，是经典力学模型的内在性质。而后来的发展又在随机性的量子理论模型中发现了量子混沌现象，混沌不是一个理论模型，而是模型的性质，决定论的模型和随机性的模型都会出现，如果认为量子理论是随机性的模型的话。但是我认为，按照统计革命的思想，量子理论算不上随机性的模型，这个比较深层的疑问，也许后面会再谈到。所以作者关于混沌的评论和将其与统计模型的比较本身就是不适当的。混沌理论与随机性相关的另一个问题在我看来始终是一个困惑，即多体系统的随机性与少体系统的随机性本质上如何区别？多体系统比如阿伏伽德罗常数个分子的统计行为，是统计力学处理的对象。在这种情形即使个体的行为可以精确追踪也是没有意义的，理论不需要对个体的了解，只需要大数统计行为就可以预言系统的宏观性质。在经济社会系统里统计模型的大量应用就是源于这些系统是天生的多体系统，社会学经济学等社会科学的困难尤其是应用物理学方法进行研究的困难正在于此，物理学分析多体问题的方法还不够。处理大数问题，自然要用统计，但是对于少体系统的内在随机性问题就是另一种机制了，在三体问题牛顿方程组中混沌现象的发现是一种全新的模式——高度非线性的效应，而不是大数效应导致的随机性。但是这两种机制不同的随机性的数学描述，根据以往经验应该完全有可能统一进行，但是物理学上的区别我感到很困惑，现在我读了本书，知道也许可以去请教统计学家。本书涉及到许多统计观念在现实问题中应用的例子，或者说是在用统计模型处理现实问题中引起困惑的观念问题。比如对统计相关性的理解。最著名的例子是Fisher对吸烟与肺癌关系的统计分析所持的态度。他认为吸烟与肺癌有关的统计分析都是站不住脚的，从分析的角度看，我赞同他令人惊异的天才！统计相关性一直受人诟病，原因一方面在于作者多次提到的大部分使用统计方法的人实际上并不真正理解统计方法的思想，误用和死板硬套的情况普遍存在；另一方面也在于统计相关性的结论与因果性的关联之间存在问题。既非充分也非必要的统计相关性意味着什么？为什么人们还是需要因果性的追寻？关于统计模型本性的思考，最重要的问题我认为有两个，一个是为什么它这么重要，竟能形成一个庞大的学科，这个学科的地位究竟如何？这个问题我的理解是因为20世纪以来多体模型被普遍研究，自然需要统计学方法。作为一个学科是没有必要的，只是数学模式的一种，借由广泛的应用才如此受人热捧，这样就消解了似乎笼罩在它头上神圣的光环。这个问题很简单，是一个社会学的问题，只是有些内行喜欢抬高自己工作的意义，很多外行也不懂，被一些富有煽动性的书籍和炙热的感情迷惑了。另一个问题是真的问题，一个科学和思辨的问题：统计相关性与因果相关性的关系。传统的理解，包括本书中许多统计学家也持这种观点，即认为统计相关性是唯象的，在得到统计相关之后还需要进一步分析因果性，是什么因素导致了统计相关。如果持有这个观点，很难说是真正理解了统计革命。因果性是还原论，决定论思维的特征。一个弱化的版本是统计相关与因果相关的融合——只存在统计意义上的因果性。这依然是一种经典的思维模式，存在已经200年了吧~可不可能本来就不存在因果性，本质上就是统计相关性？或者更学术的表述应该是是不是统计相关性是更不建构的东西？我本人倾向于做这种理解并寻找支持这种理解的东西，不去做因果性的分析，因为那本来就没有根本的意义。另外一种可能是统计相关和因果相关是两种并行的事物之间相关的模式，但这似乎不大可能。在这一问题的基础上，我想是不是可以借由进一步的统计理解来推进突破还原论决定论的思维。我认为现有所有物理学理论都是按照还原论决定论构建的，包括量子理论，这也是我对作称量子理论为随机性的理论持保留态度的原因。如何才能学会整体论的思维呢？自然界在哪里可以给我们提供一些启示？？本书除了Fisher以外作者最推崇的天才就是Kolmogorov和John Tukey，前者的广博才华人所共知，属于我最喜爱的天才之一；后者作为FFT的发明者，拥有和Feynman相似的不可思议的高效和深刻结合的天才，强烈的好奇心和难以抑制的原创冲动。他思考了一个看起来只能存在于哲学思辨中的问题：人类思维倾向于发现模式，那么在多大程度上可以用倾向于模式的目光去检验数据？在此基础上发展出探索性数据分析这一套方法。我没有懂作者描述的Tukey的具体想法，也许我会去找文献来弄清这一点，就看我有没有他那样的好奇心了。物理学在应用统计模型方面似乎已经落后了，因为物理学研究大部分还局限在传统的领域，这里不需要统计模型。让中国物理学界醒来吧，多多关注非线性科学吧。不要再像有些国内物理学权威那样认为非线性科学自组织理论就是旁门左道。。。作者在书的最后一章里提出了一些很困难的有关统计和概率的哲学问题，统计可以脱离概率理论吗？概率在现实生活中是什么意义？统计理论的内在一致性问题等。作者曾说：在现代世界观的基本假设中，哪些可能在500年后看起来是很荒谬的？是啊，这是一个多么动人的问题~生命在于思索，虽然我们的思索很快就会过时，埋入故纸堆，然后被后世人们捡出来抱以不解的大笑~~附注：本书中文译本需要仔细校对，大量错字。还有几处著名人名翻译错误，如辛钦和庞加莱不知道翻译成了什么~不知道是作者还是译者对斯蒂格勒的误称定律似乎过分钟情了。

当你开始走进科学

之所以会读这么一本微微晦涩的给外行人看的统计学书，是因为有读感任务在身。下好PDF以后开始看，本以为是看故事一样的略过，草草了解大意，没想这个故事这么长，这么需要时间。看小说似的那种走马观花在这本书上不适用。每句话都要比看数学课本都认真的看才能知道作者意思。在这里又要小小的指出译者的翻译水平，如果译文比较流畅比较不生硬，那阅读时间肯定不会那么长，思路也不会因为翻译的不够娴熟而阻塞。交读稿的时间越来越近，只得抽出一个专门的时间看完（第一次看用了1小时看了13面）。投入进一件事之后，很容易被他吸引，更何况是有着深度和知识兼备的原著的译本。其实看了3章以后就能大概知道整本书要表达的思想，就是统计学的发展和变革。通过连贯的故事，科学家和科学家之间发生的事，以及二战的爆发和政治的影响对于统计学和各门科学的影响。看到后来，虽然已经能预测后面的内容，虽然了解的中心意思足以写完读稿，可是还是继续翻下去。这就是一本好书应该有的力量。等会还要开始写读稿，这里就不再累述。如果是要修统计学，如果课外有闲时，建议读一下这本书，它会让你觉得：科学，就是在生活中得出；从小到大用到的那些结论定理的来历，对你对学术的看法会有很大改观。如果还有机会，一定会再读这本书。—————————————————————————————原著和译本是应该区分开的，原著在豆瓣的话，理所当然得到五星。可是译者的翻译水准，确实有待商榷，所以译本给了四星。

面面俱到，未臻化境

看开头的时候对这本书抱了很大的期望，希望能够通过这本书理解整个统计学科的发展历史、知识体系和科学哲学。总体而言，作者学识渊博旁征博引，讲到了几乎所有统计学的重要人物，甚至相关科学史上其他领域的人物。不过遗憾的是，这本书也就更多地停留在人物轶事的层面，而没有深刻挖掘其对于整个学科的深层意义。比如说在介绍George Box的时候，我还是十分希望看到作者对Box所说的那句“all models are wrong, but some are useful”做一些置评。愚以为这句话从很大程度上体现了统计学科的思维方式。想来作者既想做到面面俱到，系统地介绍统计学科，却又不想失去趣味，失去读者，因此花了不少笔墨在人物轶事上。两者殊难兼顾，确实难以兼得。另外少许吐槽一下翻译。读得略感别扭，总感觉没切实把握作者真意。翻译这些专业名词本身就不容易，要传神地翻译出作者略带调侃的语气更是困难。但Godel翻成格德尔而不是哥德尔、Mendel翻成门德尔而不是孟德尔等等，少许有些非主流的译法，经常会让人略感不习惯。

概率与统计，走过百年

在australia读master期间读了《女士品茶》这本科普读物，里面对现代统计学的一切有关理论介绍的东西全然没看懂，尽管我仍要把部分原因再次归结为翻译的质量，但我清楚地知道这是我此生不适合进行尖端学术研究的又一佐证——无法理解微积分、线性代数以外的数学物理工具。总的来说这是一本不错的简短的科技发展史，消除了我自大二学习概率论与数理统计以后对这门学科似清晰实模糊的印象以及种种困惑。自18世纪起，在应对大工业生产中大批量产品、样品的化验，质量控制的实际需要中诞生了早期的抽样、样本分析、整体评估的实践活动。之后陆续诞生了日后统计学理论中可谓之精华的各种分布模型：正态分布，student分布等等（实在记不住太多-_-!），外加各种假设检验。。。到如今大多数实验室工作者所做的就是使用这些数学模型对自己的数据结果加以处理、分析、结论，至于使用者是否理解统计学繁琐晦涩的外表下所要传达的东西就是另外一回事了，平心而论这真的是一个只有少数思想超越时代的人才能染指的领域。举个例子，正态分布公式高中老师讲过大学老师教过，可从来没人告诉过你这个怪异——相比于其它所熟悉的一切数学领域的公式如初等数学、解析几何，etc——难于记忆，外加3个希腊字母miu，sigma，pi汇成的公式的来历，教科书上都是直接给出的。实际上这个分布是经由数学推导得来的，但推导的历程就犹如现代概率统计理论一样高深难于捉摸——对于我这样的凡夫俗子。此世间的很多事情的结果都可用这一分布模型描述。借用一本书上的话：“神说,要有正态分布,就有了正态分布。神看正态分布是好的,就让随机误差就服从了正态分布。”抛一枚硬币出现正反面的概率是1/2，掷骰子一面为上的概率是1/6，这些凭直观得来的理所当然的结论属于古典概率的范畴。当研究对象的容量无比庞大的时候——就如工业化大生产中的情形——我们的感觉就不再是得心应手而是迷茫了。牛顿的《自然哲学的数学原理》曾给予蒙昧时期的人们极大的鼓舞，在牛顿的数学和物理世界里，规定了初始状态和外界施加的作用，此后一切时间里的运动状态就都是我们所能掌控的了，钥匙就是牛顿运动定律。今天我们将人们在经典物理学建立起来的科学体系中所拥有的思维方式和价值观念称之为机械式的世界观，就像我们今天可以通过计算预测哈雷彗星回归周期是76年。然而现代统计理论的出现挑战了人们的传统认识，举例来说，对一个尺寸进行测量——极为精确的那种，目的是想要得到世间独一无二绝对正确的真理级结果——得到的是一系列而非单一的测量数据，同时这些数据服从正态分布。。。简言之现代概率理论传达的世界观是我们所能观察到的其实是客观存在出现的概率。偏巧20世纪初的量子力学领域的一些发现推波助澜了人们对于牛顿经典力学体系的怀疑。。。有意思的是einstein这个时候站出来说了句彪炳史册的话：上帝不会掷骰子！大神还是认为在合理的理论体系下，这个世界可以是可知的。我估计也就因为他是einstein，换做别人早被唾沫淹死了-_-!对于我这种没有慧根的人，probability and statistics好像是一种哲学而非科学，我全然不懂但也能些微感受到其中的美。

有关本书的八卦

其实我还没看过这本书，才知道有中译本，不知翻译如何。这是08年4月的文章了，在三聚氰胺事件发生很早以前。在三联周刊上看到了一篇文章介绍女士品茶实验，从一个有意思的故事开始讲统计。豆瓣上有英文书《Lady Tasting Tea》，似乎book.google上有。　　故事开始是某女士在下午茶时说，冲奶茶时先放奶再加茶，和先加茶后加奶冲出来的味道不一样，周围的绅士们视为无稽之谈。这时Fisher出来说话，设计一个实验来测试一下这位女士是否能喝出两种冲泡法的区别，让她在不知情的情况下尝奶茶，猜这杯是先加奶还是先加茶。为了避免蒙中，茶的杯数要足够多，但也不能无限制的喝下去，那么为了确定那个女士能猜到多准，最少该喝多少杯呢？这个实验很著名，是个似然估计问题。描述的具体点，假设这个女士猜中的概率为p，现在要从试验结果估计p，如果要求估计精度为0.05,那这位女士至少要喝多少杯呢？对概率论有自信的人来算算吧。三联的文章说，那女士全部猜中了。这个结果我一点不意外，因为按我的经验，两种冲泡法是有明显区别的，先倒茶再加奶的冲泡法口感和香味都要好一些。原因可能在于奶的温度。我早上泡奶茶的时候，是差不多2份红茶(500ml)加1份奶(250ml)，茶是热的，大概在80-90度，牛奶总是冷的，和室温相同，如果是将冷牛奶倒进热红茶，那么开始倒进去的牛奶被加热，和红茶会有反应，香气也散发出来。如果反过来，则红茶一倒进去就被冷却了，奶和茶的反应不大，香味也差一些。如果是等温的热牛奶加热红茶，那么先后的次序可能就没关系了，但我没试过。　　为什么那位女士喝的出来而男人们觉得不可能？我想女人的味觉分辨能力也许确实好一些，但男女味觉的差异没有那么大。应该是男人们在喝茶的时候总在聊天和做别的，没有注意吧。　　所以，这个实验不光涉及统计学，还涉及化学、生理学和心理学呢。

充满随机性的大自然里，真实性只存在于分布函数之中。

借来这本书半年了还只读了前两章，昨天和老师碰面说小论文他提起才在睡不着的半夜起来读。书的第一章就是女士品茶试验，Fisher的实验启示：科学是从审慎的观察、思考和实验发展而来，从潜在实验结果的数据模型开始工作，从实验数据开始，计算与所考虑科学问题相应的结果。观测到的现象只是一种随机的映像，不是真实的，所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的，它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科学调查中我们真正想确定的，是分布的四个参数。从某种意义上说，我们永远不能确定这四个参数的真实数值，而只可能从资料中估计它们。不管原始测量是否服从正态分布，“学生”的 t检验都有相同的分布。没有这一发现，统计分析注定要使用无限次的回归，这样继续下去，没有机会得到最终的结果。前三章后没有细读，但都是我们目前使用的基本方法的基础，自由度；每本统计数都会出现的一致、无偏和有效三准则；至今仍在各种机器学习算法中出现的EM法；第八章致死的剂量没看懂，有兴趣的童鞋自己读下吧，据书中说是毒理学的主要基础；拟合优度检验和chaos结合在一起让我脑袋也混沌了；P值、假设检验这是生物医学中最常用的统计方法，应该值得每个人尊敬。但我常常听到有些废物这么说：我现在文章也会写了，P也能弄到小于0.05了。研究来研究去，就为了个P，这对于我们国家来说应该是悲哀吧。置信区间、贝叶斯估计、非参方法，再说下去就像shelton所说的：警告，严重剧透了。但仍忍不住说句intension to treatment,aka ITT，这种随机对照试验中的方法竟然也和前文那些伟大的名字列在一起，让我觉得自豪。（也不知道为啥自豪，又不是我发明的）。这本书的好处是告诉你统计方法不是spss里面的冰冷按钮，他们是活生生的发现，你也许能从泛黄的可能是用羽毛笔写的收稿中获得你的灵感。统计也许不是工具，也许就是科学也许不是，谁知道呢？真正的发现就在分布函数中，你要做的就是找到他，可能大部分的人所能做的工作就是这样吧。当你不再是使用工具，而是发明工具，你就是下一个Fisher，可能你现在就在世界上某个角落努力呢。

Stephen Stigler才是主角

这本书激荡人心，20世纪前半叶数理统计大发展的年代，一个一个光芒四射的人物从世界各地走到了这本书中。他们的性格、生活一览无余。然而，在这波涛汹涌的统计学野史之下，暗潮涌动，总有一股超然于各个角色的神秘力量在掌控着，把前因后果联系在一起，将这些大师都玩弄于股掌之上。当你认认真真地看，从正文一直看到脚注，你这才从字缝里看出字来：整本书书清清楚楚地写着，一个叫做Stephen Stigler的家伙才是当之无愧的大神！第二章脚注：高斯分布不是高斯最早发现的，“这就是当代科学史专家Stephen Stigler所说的误称定律的例子，数学中根本没有以其发明者命名的东西。”第三章脚注：“就像Stigler所说的误称定律”，泊松分布不是泊松最早发现的“这是Stigler所说的误称定律的一个例子”，戈塞特本来是用字母z来表示t分布的变量的第四章脚注：“这是误称定律延伸超出数学领域的一个例子”，哈罗“公学”其实是私立的第七章脚注：Rao-Blackwell定理“成为Stigler误称定律的一个例外”第八章脚注：“Stigler误称定律在概率单位分析里得到了印证”十一章脚注：“误称定律也发生在凯恩斯身上”，他不是经济学家，他博士论文写的是概率论……十三章脚注：“Stigler误称定律也在贝叶斯定理上得到完全显现”十六章脚注：“实际上运用Stigler误称定律进一步考证”，Wilcoxon不是最早提出非参数检验的人二十章脚注：“Shewhart图也是Stigler误称定律的一个例证”什么Pearson，什么Fisher，什么Neyman，全都弱爆了！

揭露统计学的神秘的面纱的书

因为准备考研要学统计学，大学三年都没怎么碰过，高中三年则是没什么好感。因为被迫要学，为了减轻内心的排斥感，和对数学究竟是在干什么的疑惑，我找到这本书，因为听说这是一本通俗易懂但却对统计学的概要讲解的很清楚的书。开始看的时候就激发了自己的兴趣。原来统计学不只是教科书上那么枯燥乏味的公式和推导过程，还是为了解决实际问题。越往后看就越对统计学产生浓厚的兴趣。的确如书中展示的一般，当欲研究的的题目涉及的方面越广，需要考虑的方面就越多，需要控制的变量也越多。随着收集的数据的增多，需要越来越复杂的公式进行推导，演算；需要越来越精细的机器进行演算（向哈佛购买逆矩阵）。因为我没有细看，很多细节没有深究，而且我数学基础不是很好，因此我并不是很理解究竟在计算什么，但是大体上我可以感觉到，是为了某个结论。要不就是为了从数据中得出结论，要不就是为了证明结论。突然就觉得做实验的科学家都特别不容易。得出一个结论事后需要付出的太多太多了。但是无论怎么说，感谢这本书，是这本书让我第一次感觉数学原来这么有用。很多东西会热门真的是有其原因的，只是我暂时还不知道为什么而已。我需要做的，也许就是脚踏实地的把我现在认为好的重要的事情做好，是不是真的好，对以后是否有用，那都是以后的事情。我相信，对得起现在，对得起每时每刻的自己怎么都不会后悔

一点儿想法

这是本很多地方都看得似懂非懂的书，虽然作者认为他写的是数学科普，但很多研究领域都不了解，导致很多地方看得如坠雾里。所以这篇书评不算是书评，只是谈书中的几个问题，及这些问题的想法。一、“K..皮尔逊认为，测量值本身，而不是测量的误差，就具有一种正态分布。”统计的数据也是一种概率，这是不是说明无论多么严格的控制，都可能存在隐含变量的干扰。我的意思是，这些隐含变量是不以科学的发展为转移的，就像观察者本身存在的局限性，以及当前科学存在的瓶颈。在这本书的末尾，作者认为无论如何，当前的科学总是存在一定的问题，而我们的知识就是构造出适合世界的数理模型，这样的模型总存在着一定的误差。我的想法是，是不是正是这样的误差，和身为人类的观察者局限，导致了统计数据的概率分布。二、“无论多么浓的药物，总有昆虫存活，无论多么稀释的药物，总有昆虫死亡。”这刷新了我的认识，布利斯的实验让我觉得有点儿不可思议。仅就这个现象而言，我觉得可能是瓶装的封闭环境使得昆虫存在天然的死亡率，印证这个的办法就是弄一个控制组。另一个可能就是药物存在着书中所言的概率性的东西，那么这个现象就是非常有意思的了，在宏观的状况下尽然存在概率的解释（虽然本书全部都是讲的这个，但我觉得这个现象最有趣）。这也能够解释我小时候狂喷杀虫剂却仍旧有苍蝇在我面前逍遥法外，在餐桌前倒我胃口的原因。基于此现象，是不是我们认为的“绝对”并不存在，只存在概率性的结果，多少浓度杀掉多少部分的概率。不存在致死的剂量。本书没有沿着这个思路往下解释，但我觉得这是一个很有趣，又能够联系本书主题，20世纪统计学如何变革科学界。正因为不存在绝对的，不存在完全的概念，我们不得不依赖统计学来衡量整个世界的结果，评估世界的运行方式。在这个过程里，为了研究的简便性，我们不得不采取一个折中的研究方式，只能研究某个效果50%的效力，比如本书中谈到的50%的致死剂量，这是因为50%相对于统计的两端（0和100%），更加恒定，消除了效果本身的数字变量的干扰。10%的效果，与90%效果等同，它的偶然性非常大，只有折中的50%由于对称而有恒定。而物理学中所采用的半衰期，也许就是基于这种原理。这个现象否定了绝对化的世界认识（参考哥本哈根诠释的概率解释），也同时确立了为何使用半衰期，而不是10%衰期，80%衰期的原因。三、个人概率：这同样是一个有趣的话题，涉及到概率究竟代表什么的核心问题。一种解释是纯粹基于个人信念和认识的完全化个人概率，由L.J.萨维奇和意大利的布鲁诺.德费奈蒂坚持。另一种解释是凯恩斯认为的，个人概率不仅受制于个人，而且受制于社会文化情境，而且凯恩斯认为个人概率通常不需要非常精确的数字，只需要大小排序来进行决策。这引出了卡尼曼的心理研究，我认为卡尼曼对于个人概率的研究证明了个人概率不存在内部的一致性，从而证明个人概率往往是模糊的，而不是精确的解释。四、.费歇尔与奈曼的观点的争议部分：即假设检验与随机分布，哪个才是好的实验解释，这也是贯穿整本书的一条线。费歇尔无疑主张随机分配，即在这个随机分配里可能存在的组合中，发生某一结果的概率，这是核心的。而奈曼则是预设了一个P值，超过P值我们认为能够接纳，不超过，我们否定。费歇尔认为这是非常严重的错误，它拒绝了一部分正确的选项。从本质上来说，费歇尔否定了我们能够证明存在绝对的因果的能力，起码是不乐观。限于我个人的认识，我觉得本书最具核心价值的是第29章的泥菩萨，它从整个学科轮廓上回顾了本书的所有内容，是非常好的总结，如果前面看得不知所云，那么最后这一部分是不容错过的内容。而我觉得个人在应用上最应该提高的是下面两部分：1.贝叶斯定理的延伸应用2.假设检验的延伸应用

挺不错的统计八卦书

这两天把这本八卦书又看了一遍，看来人看待事物这件事真是有bias，不同人带着不同的经历和背景来看某个事物会有不同的认识和理解，相同的人比如我自身在学习了一整年的statistical inference之后重新看这本书的理解也是大有不同。不过就算不学这一年重看这本书获得的感想肯定也是不同，老话说的好：“人不可能踏入同一条河流。”其实学的那一点东西：概率论，置信区间，假设检验……居然都是几个人捣鼓出来的。当然科学的进步离不开合作也离不开离间。由于哲学思想的不同，对统计思想的认识以及入手点也是大相径庭。派系斗争也无时不存。其实哲学也不是那些玄之又玄的东西，它只是关注我们日常文化思想和活动的基本假设。Fisher认为世界不是精确公式所描述的，而是一些随机的图景。所有的观测都来自于概率分布，而科学的目的就在于估计这些分布的参数。Pearson认为统计分布是真实分布的描述。最后觉得用概率来看世界非常赞。每个人都有personal probability，意思是个人的背景和受到的教育会对每一件事情形成一个先验概率，我觉得这件事有50%可能性发生，你觉得有60%，都是一种经验判断，没有对错。每个人的risk aversion也不同，所以保险公司耍滑头利用此常常大赚一笔。电视广告各大保险巨头纷纷露脸，这个利用人性挣钱当然是受到保护的，虽然我很不想保健康保险，但一旦强制性保险不再强制，less risky的人（比如我）跑出保险市场，平均保费不得不提高因为保险公司面对的是more risky的people，这时，又有一部分relative less risky people会逃出，这样最终的结果是风险性最高的人投保，保费当然是高的惊人的，保险市场只得崩塌，这就是adverse selection的结果。。。。所以我们要强制每个人保险，虽然我不想。最近很高兴的一件事是《黑天鹅》的作者又写了一本11月问世的新书"Antifragile"，非常期待。其中一个思想是随着information consumption的提高，你得到的signal和noise的比例是不断下降的。意思是吸收信息越多，收到的无用垃圾相对增加。当然还有一些别的我非常喜欢的东西，比如关于Neuroticism. 一些人区分不了noise和signal，经常对小的信息有overreaction。我自己不得不佩服Taleb对人性的洞察是如此之深，对世事是那么明了。

开始是生动有趣，后来是直逼人心

前半部分感觉:果壳推荐为统计学的最佳入门书籍。书中没有任何的数学推导，但把统计学整个发展历程的瑰宝像珍珠一样串联起来，每一颗珍珠背后大师的身影是如此的鲜活。后半部分感觉:继续阅读，不禁疑问，统计学的尽头是哲学？果不其然，书中的最后部分正是以哲学的探讨作为结束的。有人说女士品茶是生动有趣，但我是越往后越感觉大汗淋漓，20世纪的统计学思潮当中的珍珠，它们的思想内涵远不止教科书般的简单，更勿论更加终极的探讨，概率的本质是什么？现实意义的概率又是一个怎样的存在？虽说像是一本入门的书籍，但我更觉得是一本拷问本质的思考之作。

不值五星

刚看完。故事比较有趣，但对统计学的思想说的其实并不深。作为一本科普著作，对于统计学的一些工具的历史意义描述的不错，可惜对其本身的用处和本质描述不够，是为一大遗憾。不过，统计学史的书，讲的深入浅出的，似乎也就这么一本了，所以四星还是可以的。

女士品茶一书的读书记录

女士品茶读书笔记=======Author: ZerodelDate: 2013-12-09 23:58:43 CSTTable of Contents=================1 The Lady Tasting Tea 女士品茶1.1 作者序1.2 第一章女士品茶1.3 第二章偏斜分布1.4 第三章可爱的戈赛特先生1.5 第四章1.6 第五章收成变动研究1.7 第六章百年一遇的大洪水1.8 第七章 fisher 的胜利1.9 第八章致死剂量1.10 第九章钟型曲线1.11 第十章拟合优度检验1.12 假设检验1.13 第十三章贝叶斯 the bayesian heresy1.14 第十六章非参数方法1.15 第十七章当部分优于总体时 :随机分布1.16 第十八章吸烟引发肺癌吗？1.17 第十九章之后。。。。1.18 第二十三章处理有瑕疵的数据稳健性1.19 第二十四章重塑产业的人：戴明与质量管理1.20 第二十五章黑衣女士的忠告1.21 第二十六章鞅的发展1.22 第二十七章意向治疗法1.23 第二十八章电脑随心所欲1.24 第二十九章泥菩萨1.25 误称定律1.26 卡尔达诺1 The Lady Tasting Tea 女士品茶 :statistic:-------------------------------------------1.1 作者序 ~~~~~~~~~~~* 三个概念 + 随机 randomness 普通人的随机概念基本等同于不可预测但是使用概率分布(probability distribution )可以对其进行限制,从而随机事件就有了一个可以数学描述的结构+ 概率 probability 起初概率是用来解释个人对将要发生的事件的预期.在19世纪末的时候, 概率论已经拥有很复杂的数学工具了+ 统计 statistics 研究一个特定问题的时候,研究人员通过收集的资料可以建立一个统计分布(实际就是一个"概率分布函数"probability distribution function 或者说一个分布函数 distribution function),这样就可以使用概率论的相关知识来茂树问题._科学中的统计方法违背了概率的定理_ 的情况是可能发生的.因为 *概率论本身不能完全说明统计方法*.1.2 第一章女士品茶 ~~~~~~~~~~~~~~~~~~~~* Fisher 与实验设计优秀的科学家可以用实验产生新的知识,二流的科学家只能积累数据.在fisher之前,科学家已经拥有了观察实验和谨慎的思考,但是 *如何进行实验?* ,实验的结果也没有完全展现科学家要从潜在试验结果的数学模型开始工作,实验设计的第一步要设计一组数学公式, 用来描述数据与期望中的结果间的关系而所有的实验的基本要素就是要能提供估计结果.举个例子:你是一个老师,要考察学生知识掌握了多少?你就要安排考试.但是如何安排考试,这就是一个实验设计问题.每张考卷的分数就是数据,题外话: fisher的方法需要很强的数学功底...1.3 第二章偏斜分布 ~~~~~~~~~~~~~~~~~~~~主题: K皮尔逊与统计模型皮尔逊提出了实验测量的统计模型思想,使用偏斜分布的四个参数来确定各种实验结果(特别在生物统计这本刊物中),但似乎他走入死胡同了,很多问题不能只用这种偏斜分布来描述.* 相关与回归 + Regression and correlation 回归与相关回归最早的现象,是由指纹现象的发现者Francis Galton在 biometrical laboratory (生物统计实验室) 中发现的.特别高的人的儿子往往比较矮一点,而特别矮的人的后代又高一点.反正是趋向均值...也就是从极值回归到均值对于这个现象, Galton 给出了一个数学量度: 相关系数 coefficient of correlation但对于普通人,"相关"一词的含义只是模糊的表示两个事物之间有联系而已* K 皮尔逊的分布与参数概念 + 实验都是草率的回想一下在学校中的实验课,一直是把获得的测量值认为是真实数字然后加上一个误差不算错.但是你没法获得确切的数值.比如我们都知道水,但你从来都无法得到一杯纯水.+ 皮尔逊的偏斜分布 skew distribution 所以皮尔逊的概念就是:不要试图把实验测得的数值 _直接_ 作为想要的结果,而是把这些数据看作一个数据分布的样本.而这个分布导出的参数(parameter)代表了研究对象的真实性质.在这种新的形势下. _可观测的事物不是研究对象的实质_ .相反应该讨论的是数据体现的 *数学分布* .以及这个分布体现的观测值之间联系的 *概率* .- 四参数 parameter: * 平均数 mean :测量值的中间值或者说均值 * 标准差 standard deviation : 测量值与平均值的偏离情况 * 对称性 symmety : 测量值在平均值一侧的堆积情况 * 峰度 kurtosis : 个别测量值偏离平均值有多远.. * 拟合优度检验 goodness of fit test 用于确定给定的观测值是否符合一个特定的数学分布函数1.4 第三章可爱的戈赛特先生 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~主题: 泊松分布以及 t检验* 学生的问题之前K皮尔逊的四参数理论的前提是: 样本数量足够多,所以参数不会错.那么样本如果不那么多呢?戈赛特先生研究的就是小样本的情况, 他发现 *不用考虑数据的其他信息,只用皮尔逊的四参数中的标准差与均值的比值就可以得到一个已知的分布* 他假设存在着一个基本的前提: 原始测量值是正态分布.但是这个前提,不是必须的1.5 第四章 ~~~~~~~~~~~主要是fisher的生平1.6 第五章收成变动研究 ~~~~~~~~~~~~~~~~~~~~~~~~fisher 的收成变动研究可以说奠定了后世的统计分析的基础.* 回归思想的一般化高尔顿使用了回归这个词语来描述"向中央回归"这么一个现象.fisher则进一步的拓展了这个词.比如对于农产品产量这个问题上, 他把产量随着时间变化的情况分成几个部分:1. 由于土地退化引发的整体下降2. 以数年为周期的缓慢变化.3. 不同的气候导致的变化,体现为更快的变化.这种思想被用在之后的时间序列分析上.* 随机化控制在归纳农作物产量的尝试中,研究人员一直采用一个"肥力梯度"的说法来描述产量的变化情况.与此同时,在实践中,他们是在整个农场施肥来获得数据.fisher提出来:如果把农场分成小块来研究不同肥料的影响, 会获得更精确的结果.但这个提议引起了他同事对于"肥力梯度"如何确定的争论.fisher的答案是: 使用随机方法.这样各种肥力梯度的可能结构都在这种随机分布的小田块中被抵消了.* 如何分解不同处理的效应? *方差分析 analysis of variance*这里有几个概念+ 自由度 degrees of freedom 用来调和不同作者观测到的有差异和表现异常的结果+ 协方差分析 + 1.7 第六章百年一遇的大洪水 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~蒂皮特Leonard henry caleb tippett 先生和他的 "三条极值渐近线"这位先生在研究棉花纤维的断裂的时候发现:纤维的断裂和它最脆弱的纤维直接相关. 但如何描述这个"最"呢?他经过研究后得到了一个把样本数据的分布和极值(extreme value )联系起来的方程式.这个关系的应用在于:对于洪水的预测, 如果你知道的历年的洪峰数据, 你就可以预测一下下一次大洪峰的大小.* emil J.Gumbel 的极值统计学(Statistics of extremes 好的教科书:精彩的证明,里面的推导可以被浓缩成简单的形式,而且读者可以不费力地的获得最终结论.涵盖问题的背景和思想,记述学科的渊源,使用生活中的例子.1.8 第七章 fisher 的胜利 ~~~~~~~~~~~~~~~~~~~~~~~~~皮尔逊与fisher的关于统计分布的分歧在于:皮尔逊在大样本的前提下认为所有研究对象观测值直接推断出来的参数就是真实的参数.与之相对的,fisher 比皮尔逊多考虑了一层.他认为用观测值的分布来确定的参数不过是真实参数的一个随机分布.根据这个随机分布推断得到的估计值和实际值总是有点误差的.所以fisher 推出了MLE 方法,用来得到最"好"的估计值好的标准是三个: 无偏 ,一致 ,有效, 这三个词语都有完善的统计公式定义.* MLE fisher的最大似然函数法的一个困难就是计算需要大量次数的迭代.所以,只有的计算机技术成熟后, 该方法才被大量的使用起来并衍生了EM算法等等.1.9 第八章致死剂量 ~~~~~~~~~~~~~~~~~~~~考虑这么一个场景:使用杀虫剂来消灭虫子.要确定的是合适的剂量实际的实验结果: 不管你用多少杀虫剂,都会有那么一两只小虫活下来.但是剂量很少的时候,也会有虫子死掉,哪怕只是用了刚过毒剂的瓶子,也是如此.所以 Chest Bliss 先生采用了 D50(半数致死量) 这个参数.用来建立剂量和虫子死亡率间的关系* D50 与半衰期 Half-life 半数致死量的定义能以50%的概率杀死虫子的剂量. 这个概念和物理里的半衰期很类似.定义这个量的另一个前提是,你不可能确定杀死一个特定虫子的药剂量.这个前提也是符合fisher的论断的:只有抽象的概率分布才是能够估计的.个别观测值的意义不大.1.10 第九章钟型曲线 ~~~~~~~~~~~~~~~~~~~~~来看一下大量数据的平均数,基本来说都可以用正态分布来拟合得到一个满意的结果.不管数据是怎么来的.正态分布只需要均值和标准差这两个参数,而且只需要50多个样本数据就可以确定这两个参数.更加吸引人的是,正态分布的似然函数很好处理.所以,大家都在处理数据的时候尽量的假设总体符合正态分布.但是原理何在?* 中心极限定律与 U 统计量在1934年之前, 统计学家们就基本接受了上述的假设,认为是这个被称为"中心极限定理"的假说是正确的, 但是对它的严谨推导还没面世芬兰的林德博格和法国的列维分别发现了这个定理的必须条件.所以后来者只要证明了林德博格列维条件(Lindeberg-levy Condition),那么中心极限定律就成立.那么他就可以放心大胆的把研究对象当作正态分布来处理Wassily Hoeffiding 在这个基础上更进一步.他做了一系列的替换, 用一组数学必要条件替换另一些数学必要条件.得到了一个"U"统计量的概念.也就是说只要证明一个统计量是U统计量, 那么这个统计量就符合正态分布.1.11 第十章拟合优度检验 ~~~~~~~~~~~~~~~~~~~~~~~~~用专门的统计实验可以发现肉眼看上去一样的两个图形或者数据,实际是很不同的.所以什么样的统计工具可以用来检验两个数据是否符合同一个分布呢?K pearson 为了解决这个问题,提出了拟合优度检验(goodness of fit test)的第一个实际应用:卡方拟合优度检验他建立了chi square 这个统计量,并证明了不管数据来自什么分布,建立的这个统计量都是同一个分布.这个统计量只有"自由度"这个参数.这个检验可以说是"假设检验"开端1.12 假设检验 ~~~~~~~~~~~~~~我们回到书开篇的那个女士品茶的故事上去,假设我们给那位声称自己可以喝出奶茶是先放奶还是后放奶的女士一次两杯奶茶,一共24次.每次她答对了,都存在着两种可能:1 她是靠运气蒙的 2. 她是真的可以喝出茶的区别.那么如果最后的结果是24次中,她答对了其中的20次,那么她是不是蒙的呢?假设检验就是为了解答这个问题* 假设检验的一些基础概念假设检验的另一个常用的名字是显著性检验. 它是这么运作的:我们现在拥有一个待检验的假设.以及一系列观测值.现在我们要做的就是计算在假定这个带检验的假设是真实成立的前提下,出现现有观测值的概率.如果这个概率太小, 那么我们就依照"小概率事件在单次实验中不可能发生"这个信条,认为原来的假设不成立.*假设检验注重于排除某个假设** "显著性"到底是什么意思? significant 在假设检验这个语境中,显著说明了概率太小,需要排除原先的假设.但一般的学生在学到这个单词的时候,"significant"往往等同于"important". 这样就会让初学的人感到困惑.* P 值 fisher 在推出了假设检验时,采用了Pvalue来作为显著性的指标.但他没有明确的阐述这个值的具体意义和实际使用标准,在他看来显著性检验只是在连续实验的相互联系中才有意义.但是常用的标准是1. P值很小小于0.01 可以说很显著,2. P 值很大,大于0.2 这样也能得到一个确定的结论3. P 值介于两者之间,那么此时,需要下一个实验来确定结果.但是自始至终,fisher 都没给出一个确切的定义.一个容易理解的解释是这样的: 如果我们假定原假设成立,那么观测值得到比现有结果还要极端的可能性的概率,就是P值另一个不怎么严谨的解释是：一件事情由于偶然性而发生的概率。* 如果P值不是那么小，那么我们该怎么办？这个问题在fisher提出P值这个概念之后，就有人提出来了。E pearson 在和J 奈曼的通信中就提出了这个问题。面对一个实际的数据，往往首先要做的是确定数据的分布，这时候就会用到假设检验。E pearson原本是这么叙述的：如果在判断一个分布是否是正态分布的检验中。没能得到一个很小的p值，那么如何确定这个分布是正态的？这个问题实际在问： p值如何很大，也就是结果不显著，那它的涵义是什么呢？fisher 给出的解释是：不显著，那就没有明确的结论。所以到这里，就可以知道：假设检验的逻辑是： P值小，结果显著，才能推翻原有假设。但不能保证其他的关系* 奈曼-皮尔逊假设检验理论公式：教科书中的范本奈曼发现：除非有两个以上的假设，否则显著性检验（假设检验）没有意义。也就是说，直接去判断一个分布是否是一个正态分布是没有意义的，除非你给出几种可能的分布。基于此，零假设（null hypothesis) 与备择假设(alternative hypothesis) 的”套路“ 被建立起来。P值被用于检验零假设，它的大小就表明了检验的效力（power）。一般情况下，零假设都是做要被推翻的稻草人。比如研究某种新方法，最后的零假设就是”这个新方法和之前的方法比起来并没有提升“。这样的一个结果就是，大家都在追逐很小的P 值。而奈曼的思想中重要的东西是：1. 检验效力 2.为了检验零假设，需要一個定义明确的备择假设。1.13 第十三章贝叶斯 the bayesian heresy ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~* 条件概率条件概率指的是这个概率的大小取决于它的前提事件的概率。比如书中提及的威尼斯选举总督，分了好几层，这样每个人要被选举到下一层的概率，都取决于之前一层是否被选举到。凯恩斯认为所有的概率都是条件概率，他举的例子是如果要知道书房里的书是精装本的概率，实际上依然包含了所有的书在我的书房的前提概率。而Bayes先生的发现就是这些计算条件概率的方程都是内部对称的。也就是可以用后面事情的概率来推算前面事情的概率。（实际上在他之前也有人提及）。而这个思想的一个延伸就是：*数据的分布参数本身也是随机的，可以计算分布参数相关的分布参数*这个说法听起来好像只是挺有建设性的一个点子，但是问题的严重性在于，K.pearson 与fisher 建立的统计学的大厦的一个根基就是：科学研究的对象并不是实际的观测值，而是背后隐藏的随机分布的参数。如果这个参数本身都是一个随机量，整个统计学的说法就没法圆场了。所以这种思想在出现后一直受到谴责，贝叶斯本人也把自己的思想封存了。但是随着时代的发展，贝叶斯方法的发展十分迅速。（现在几乎什么方法都要提及贝叶斯网络之类的）* 贝叶斯思想的两个应用 + 贝叶斯层次模型一个著名的应用是使用词频分析，来确定《联邦党人文集》的作者。在这个案例中，每个人使用 “in"的概率本身就被视作一个随机量，每个人的概率都是不一样的，而如果把“in”的使用频率用一个分布来描述的话，我们就可以得到一个“超参数“（hyper-parameter），也可以获得超超参数。这样一层一层的处理下去，就是贝叶斯层次模型了EM算法很适合这种问题。+ 个人概率 personal probality 概率论的起源就是研究赌博时赌徒的主观不确定性。而个人概率的处理基本就可以简单的理解成熟悉的套路：先验概率 ---> 数据 ----> 后验概率而在主观不确定性这个方面， savage 的一个思想很值得考虑：没有什么”已被证实的科学事实“，只有陈述，而且自称科学家的人对这些陈述持很高的赞成率。相对主义？有点像。1.14 第十六章非参数方法 ~~~~~~~~~~~~~~~~~~~~~~~~~到二十世纪的四十年代，统计方法已经在美国广泛使用了，这个时候的基本工具就是戈赛特先生的t检验和方差检验（ANOVA)，这些都是假定数据符合一个分布，并由此依据这些分布的参数来分析数据。但是这些方法对于一些含有异常值的数据点的时候就会失效了。对于这种情况，一个半路出家的化学家Frank Wilcoxon 给出了一个用到组合与排列的解决方法： wilcoxon 秩和检验法（秩： rank）。而与此同时，Mann - Whitney 也给出一个U 检验的方法。这两个方法可以给出一样的P值，这两种方法代表的就是非参数方法* 非参数方法与参数方法的优劣有两个问题：1. 如果我们有一个已知分布的数据集，那么非参数方法与参数方法孰优孰劣？2. 如果数据中有异常值，那么非异常方法的处理效果如何？何时该使用非参数方法？pitman 先生对这些问题给出了回答：1. 非参数方法一点不逊于参数方法2. 如果异常值只是稍微偏移中心点，那么非参数方法结果大大优于参数方法。* 如果数据被错误“系统”的污染了呢？注意！这个时候使用非参数方法就显得不明智了。非参数方法可以移除1.少量2.错误的异常值，但对于异常值大范围影响下的数据，非参数方法的结果反而更差。1.15 第十七章当部分优于总体时 :随机分布 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~可以说抽样是数理统计的一大基石，几乎所有“高级”或者基础的统计都是在抽样获得的样本里面进行计算。但是抽样这个步骤自己的可靠性如何呢？即抽样步骤是不是自己带来了系统误差？皮尔逊先生在他的一系列研究中，获得的大量数据，都可以被归类为便利数据（opputunity sample）：只是那些容易获得的数据，不能代表整体的情况。粮库里面使用的一种签子，就是一个中空的钢签，刺入粮袋后抽出来，中空的部分就有一些粮袋里的粮食，粮库就可以用它来取样。而在印度孟买，人们用同样的工具来检查黄麻的时候，就发现：冬天时候的黄麻变硬，钢签取出来的更多的是袋子靠外的黄麻。而这些黄麻和空气接触多容易变质。结果就是整批黄麻的质量被低估了。所以如何能抽取到能有效描述整体的样本就显得十分重要了。* Mahalanobis 的随机抽样 mahalanobis 这人和生活大爆炸里那个印度人一样，是个富二代，而且热心科研，自己出钱建立印度的统计研究所。他在统计学中做出了很多贡献，比如聚类分析时候，用到的马氏距离就是以他命名。为了获得一个合理的小样本，我们可以建立一个判断样本（judgement sample），也就是利用我们对总体已有的知识来建立样本。比如 Nielsen Media Research 按照社区情况选取家庭作为样本。这种方法很容易想到，但弊端很明显：1. 这种方法需要你对总体的分布情况很了解才行，但如果你很了解总体了，你还要抽样干嘛呢？2. 如果你对总体的估计出错了，你根本没法来纠正可能出现的错误所以对于这种情况，mahalanobis的解决方法就是随机抽样。我们可以通过数理统计的已有知识来确保“长期来看”我们的结果是最优的。并且能够计算相应参数的置信区间这种方法有些眼熟，fisher先生在他的农业研究所的时候，也是使用了随机的田块来研究所谓的肥力系数。* 抽样与普查这种抽样的方法被大量是用到大萧条后的美国经济普查中。二战结束，计算机出现后，这些统计方法就被用到经济领域，比如Leontief 的投入产出分析（input-output analysis)1.16 第十八章吸烟引发肺癌吗？ ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~fisher 作为一个烟鬼，他的最后一场论战发生在这么一个问题上：‘’吸烟是否会导致肺癌？”,他反对其他人关于吸烟会导致肺癌的观点，这个问题看起来让人觉得这只是fisher先生由于自身原因而坚持这个观点。实际上fisher要讨论的问题远不仅仅如此：因果关系的本质是什么？* 因果关系到底是什么？罗素，在二十世纪初起建立符号逻辑（symbolic logic)。使用一系列符号来代表传统亚里士多德逻辑体系中的事实和逻辑关系，使得逻辑变得清晰明了。看起来这个系统可以完美的解释所有的逻辑关系和问题，但是有一个关系无法被解释：那就是类似　Ａ导致了Ｂ　的这种逻辑关系．罗素先生对这个问题的解释是：　*根本不存在因果关系这种东西* 因果关系在逻辑上自相矛盾，所以毫无意义这个思想在大卫休谟时期已经被提起。但是罗素走的最远俗话说：不破不立。推翻了因果关系，罗素使用了一个新的说法来替代：“实质蕴涵（material implication)”，他使用一系列集合论的语言获得了等同于“a导致b”的逻辑关系。这个体系的一个应用是 Robert Koch 对于某种病原体是否是某种特定疾病病因的判断方法：1. 病原体被培养出来，疾病就会发生。2. 如果疾病没有发生，那么病原体一定没培养出来3. 如果病原体消除，疾病就会消失。这三条可以说就是符合了罗素的实质蕴涵条件。。。。。。。。。。之后的内容基本就是fisher 和别人打嘴炮。。。。。。。。。。。。。但依然可以发现，因果关系不是那么容易确定的。1.17 第十九章之后。。。。 ~~~~~~~~~~~~~~~~~~~~~~~~~~这几章基本是一些杰出人士的生平与贡献韦伯分布weibulll distribution,是蒂皮特的极值渐近线所使用的统计分布的改良版，但他不符合fisher的正则性条件。无法获得它的最优参数估计。但之问题被北美Rockwell的Nancy Mann解决。×××值得多看看。样条拟合spline fit ，由 Grace Wahba提出Yvonne Bishop 提出的对数线性模型 log-linear model，现在广泛用于社会学研究。序贯分析（sequential analysis)可以让人知道在不影响结论有效性的前提下什么样的改动是合适的。Tukey 多才多艺，比如 FFT，boxplot，探索性数据分析， software的起名。等等。在做研究的时候我们常常需要一些特定的假设。但是人类倾向于发现模式，即使只是一些模糊的线索。1.18 第二十三章处理有瑕疵的数据稳健性 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~回顾一下提出非参数方法的化学家的处境。他面对着一些不是那么友好的数据，实际他还是有另一条路可以走的，虽然不是那么光彩。那就是忽略这些看起来不怎么如意的数据，只处理那些能够支持自己假设的数据，这个没什么大不了，比如发现行星椭圆轨道的开普勒就是这么做的，而门德尔在种豌豆的时候，也是选择了自己的数据。但是现代的统计方法出现以后，这种做法就是无法接受的了。这时候他就需要 “稳健性”研究成果的帮助。稳健性，robust这个术语是 George Box 的贡献。用平均值来描述数据很容易收到异常值的影响村里一个张千万，还有九个穷光短，大家一起算，个个都是张百万。。。。稳健性方法基本思路说来也简单就是：1. 如果数据有瑕疵，那么就降低瑕疵的影响。2. 如果数据没有瑕疵，那么就直接使用。具体的一个工具就是“Box-Cox transformations”用于转换测量值，从而使得处理过程更加稳健。1.19 第二十四章重塑产业的人：戴明与质量管理 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~二战后的“Made in Japan”等价于廉价劣质。而戴明先生带来质量控制的理念，则给日本制造找到了一条较低的价格，较好的质量的发展道路。戴明认为，价格本身毫无意义，只有和质量联系起来才有意义。而且顾客需要的不是完美而是可靠，到了八十年代，日本的产品已经严重的威胁到美国的产业。而之前的美国的质量控制的问题在于就是掌握权力的高官对于质量管控的责任仅限于聘请专家，而高官设立的目标又是无法实现的的。所以管理者不能坐等产品的质量情况失控，而是在每个步骤都要注视着生产线。因为只有管理者才能在根本上解决质量控制问题。戴明对于假设检验也多有批评，他认为，有显著性的差异没有实际意义，而差异的大小才是关键。1.20 第二十五章黑衣女士的忠告 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~这一章主要说了Stella Cunliffe 的生平并说明了，在实际的统计实践中，人的不可靠。比如Hawthorne effect ，1930年代 hawthorne 工厂进行了一次失败的实验。由于工人知道自己是处于实验中，所以工作效率都有所提升。这样原本设计的两种不同的管理方法下，工作效率都得到改善，无法看出有什么差别。案例二2：刑事犯罪的数据中存在这么一个相关关系：刑期越短，重复犯罪率就越高。而判了十年以上刑期的罪犯，只有15%的人重新犯罪。那么这个事实是否可以说明：判刑越重，就越能防止犯人出狱后再次犯罪？Cunliffe 的结论是：否数据中三个月以下的短刑期释放后依然不停重复犯罪的人，几乎都是年老的，生活贫困的，无法在社会里正常生活的人。他们不停地犯罪，就是为了回到监狱。而犯了大罪的人，出狱后不太可能再犯大罪。把这些影响因素剔除了以后，原本的关联性就消失了。1.21 第二十六章鞅的发展 ~~~~~~~~~~~~~~~~~~~~~~~~~数学中的鞅由列维为了证明中心极限定理而提出，它被定义为符合下面两个条件的随机产生的数列：1. 变化是有界的2. 下一个数值的最佳估计必定是上一个数值，当鞅被引入到数理统计领域后，它成了二十世纪最后十年的大热门。一个典型的例子是医学领域中对充血性心脏病的研究。这种疾病常发于老年，病因复杂，难以治愈，病人为了稳定病情，需要经常住院，从另一方面，大大的增加了公众医疗负担。*建立一个研究的开端就是：确定要测量的是什么*这个案例中，研究者们记录了病人的住院时间，但得到的数据没有一项和特定病人联系，而且里面充满了重复测量的数据。但这些数据被发现是一个鞅。1.22 第二十七章意向治疗法 ~~~~~~~~~~~~~~~~~~~~~~~~~~~这一章的主题就是讨论教科书中的经典奈曼-皮尔逊假设检验的一些缺陷。并阐述了一些反对者的见解。（比较绕，没看明白）1.23 第二十八章电脑随心所欲 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~Glivenko-Cantelli Lemma ，这个理论的结果看上去很显然，但是在被公理化以后却有着巨大作用，比如计算统计中的bootstrap 和 resampling 都以此为基础。它的大意是：对于不知道概率分布的一些数据，你可以建立一个原始的非参数分布。随着数据的增加，这个非参数分布会越来越接近理论分布。这个引理衍生了很多运算密集的统计方法，比如自举法bootstrap 和重采样resampling ,以及核密度估计，核密度回归等等。1.24 第二十九章泥菩萨 ~~~~~~~~~~~~~~~~~~~~~~~正如我国的保安主义哲学三问题（你是谁，从哪儿来，要去哪儿），作者也提出了关于统计的三个哲学问题：1. 可以用统计模型来做决策么？2. 概率在现实生活中是什么含义？3. 人们提到概率时，真的明白这个词语的含义么？* 可以用统计模型来做决策么？彩票悖论：对于单张彩票来说，它中奖的可能性趋近于零，可以认为是一个小概率事件，这样，依照经典的假设检验的理论，单张中奖的概率可以认为是零，这样所有的彩票都不会中奖，但是一场彩票活动中，必定会有中奖的。（亚里士多德？概率的性质就是概率为零的事件会发生）逻辑的是与否，是确定而决然不同的。但是使用一个概念的时候，只因为它是在绝大部分时间都是正确的。* 概率在实际生活中到底是什么含义？定义一个概率的时候，需要确定一个事件空间，而在实际生活中事件空间的确定没有那么直观。比如明天95%可能会下雨，事件空间是什么？* 概率到底什么意义？个人概率，体现的是一种主观的个人信念。凯恩斯所以提出了一种使用排序来替代经典的概率。1.25 误称定律 ~~~~~~~~~~~~~~实际上这个是这本书里面的隐藏boss ，，处处有他。这个定律由Stephen Stigler 提出。 1.26 卡尔达诺 ~~~~~~~~~~~~~~原书 297 页记录了一件很有意思的事情：16实际的意大利数学家卡尔达诺(Girolamo Cardano)写了一本《高等艺术》（Ars Magna）这本书里面地一次提及数学中的代数方法，但是他自己写到：代数不是新东西，但是由于自己的“无知”，所以他没能在亚里士多德的著作中找到关于代数思想的参考书，所以一定会有更聪明的人在古人的著作中发现代数思想的。这里，卡尔达诺以及同时代的人的思想是：人类的知识是一直减少的，而且不可能有新的知识出现。这个来自于当时欧洲人世界观中的：人类的堕落以及随之产生的道德知识工业等等事物的退化。而当时的现实是如此的支持这一观点，以至于几乎没人去探求究竟是怎么一回事。

女士品茶下载精选章节试读

《女士品茶》书评

类似图书

相关图书推荐