数据之魅

当前位置:首页 > 网络编程 > 数据库 > 数据之魅

出版社:清华大学出版社
出版日期:2012-7
ISBN:9787302290988
作者:(美)Philipp K. Janert
页数:524页

作者简介

《数据之魅:基于开源工具的数据分析》结合作者多年来从事数据分析工作的丰富经验,阐述了数据分析所涉及的概念和方法。本书四部分19章,主题包括如何通过图表来观察数据,如何通过各种建模方法来分析数据,然后着重阐述如何进行数据挖掘,最后强调数据分析在商业和金融等领域的实际应用。本书包含大量的模拟过程及结果展示,并通过实例来阐述如何使用开源工具来进行数据分析。通过本书的阅读,读者可以清楚地了解这些方法的实际用法及用途。
本书结构合理,通俗易懂,适合数据分析爱好者和从业者阅读,也适合以科学计算为工具的科研人员参考。同时,本书还适用于计算机科学、数学、工程技术和其他相关专业本科或研究生的数据分析课程,是一本不错的参考书。

书籍目录

第1 章导论
数据分析
本书内容
关于讲习班
关于数学
需要具备的知识
本书不涉及的内容
第Ⅰ部分图表:观察数据
第 2 章单一变量:形状和分布
数据点和抖动图
直方图和核密度估计
直方图
核密度估计
(选学)如何选择最优带宽
累积分布函数
(选学)概率图分布和QQ 图
分布的对比
秩序图和上升图
仅用于适当时机:汇总统计量和箱形图
汇总统计量
Box-and-Whisker 图
(讲习班)NumPy
NumPy 实践
NumPy 详解
扩展阅读
第3 章两个变量:建立关系
散点图
克服噪声:平滑
样条
LOESS
示例
残差
其他观点及提醒
对数图
倾斜
线性回归以及诸如此类的方法
描述重要信息
图形分析与图形演示
(讲习班)matplotlib
交互式使用matplotlib
案例学习:matplotlib 与
LOESS
控制属性
matplotlib 对象模型及结构
零碎知识
扩展阅读
第4 章以时间为变量:
时序分析
示例
任务
需求和现实
平滑处理
移动平均法
指数平滑法
不要忽视显而易见的东西
相关函数
示例
实现上的问题
(选学)过滤器和卷积
(讲习班)scipysignal
扩展阅读
第5 章多变量:图形的多变量分析
假色图
概览:多值图
散点图矩阵
协作图
变种
组成问题
组成的改变
多维组成:树形图和马赛克图
新颖的曲线类型标识符
平行坐标图
交互式探索
查询和缩放
连接和涂层
大游览与投影寻踪工具
(讲习班)多变量图形工具R
实验工具Python 的Chaco 库
扩展阅读
第6 章插曲:数据分析会话
数据分析会话
(讲习班)gnuplot 软件
扩展阅读
第Ⅱ部分分析:数据建模
第 7 章推算和粗略计算
推算的原理
估计大小
建立关联
使用数字
10 的幂
小扰动
对数
更多示例
我所知道的一些常见事(物)
的相关数字
这些数字是否足够好?
准备工作:可行性和成本
完成之后:引用和
呈现数字
(选学)进一步探索摄动理论和
误差传播
误差传播
(讲习班)Gnu 科学库(GSL)
扩展阅读
第8 章缩放参数模型
模型
建模
模型的运用和误用
参数的缩放
缩放参数
示例:维度参数
示例:优化问题
示例:成本模型
(选学)缩放参数与
量纲分析
其他理论
平均场近似
背景知识和其他示例
常见的时间演变方案
无限增长和衰减现象
约束增长:逻辑斯谛方程
振荡
案例学习:多少台服务器才是
最好的?
为什么要建模?
(讲习班)Sage
扩展阅读
第9 章关于概率模型的讨论
91 二项分布和伯努利试验
精确的结果
利用伯努利试验建立平均场
模型
92 高斯分布和中心极限定理
中心极限定理
中心项与尾项
为什么高斯分布如此实用?
(选学)高斯积分
幂律分布和非常规统计学
幂律分布的用法
(选学)期望值为无限时的
分布
接下来的研究
其他分布
几何分布
泊松分布
对数正态分布
特殊用途的分布
(选学)案例学习--随时间变化的单一访问者数量
(讲习班)幂律分布
扩展阅读
第10 章你真正需要了解的经典统计学知识起源
统计学的定义
从统计学角度解释
示例:公式测验
VS 图解法
控制实验VS 观察研究
实验设计
前景
(选学)贝叶斯统计--
另一种观点
用频率论来解释概率
用贝叶斯方法来理解概率
贝叶斯数据分析: 一个实际有
效的例子
贝叶斯推理:总结与讨论
(讲习班)R 语言
扩展阅读
第11 章插叙:数学大搜捕--
大脚怪和最小二
乘等
111 如何平均均值
辛普森(Simpson)悖论
标准差
如何计算
(选学)应该选择哪一个
(选学)标准误差
最小二乘
统计参数估计
函数逼近
扩展阅读
第Ⅲ部分计算:数据挖掘
第 12 章模拟
热身问题
蒙特卡洛模拟
组合问题
获得结果分布
优点和缺点
重新采样方法
拔靴法
拔靴法适用于哪些情况?
拔靴变量
(讲习班)SimPy 离散事件模拟
SimPy 简介
最简单的排队过程
(选学)排队理论
运行SimPy 模拟
小结
扩展阅读
第13 章找出簇
簇由什么组成?
一种不同的观点
距离计算和相似度计算
常见的距离和相似度
计算方法
聚类方法
中心探索法
树形构造器
邻居生长器
前期处理和后期处理
规模的规范化
类的属性和评估
其他想法
具体案例:超市购物篮的
分析
提醒
(讲习班)Pycluster 和C 聚类库
扩展阅读
第14 章一木见林:
找出重要属性
主成分分析法
动机
(选学)理论
解释
计算
实用观点
双标图
可视化技术
多元尺度法
网络图
柯霍南图
(讲习班)用R 进行PCA
扩展阅读
线性代数
第15 章插曲:当数据不成
比例地增长时
一个真实的故事
一些建议
map/reduce 如何
(讲习班)生成排列
扩展阅读
第Ⅳ部分应用:数据的使用
第 16 章报表、商务智能和
仪表板
商务智能
报表
企业指标和仪表板
关于指标计划的建议
数据的质量问题
数据的可用性
数据的一致性
(讲习班)Berkeley DB 和SQLite
Berkeley DB
SQLite
扩展阅读
第17 章金融计算与建模
货币的时间价值
一次性支付:未来值和
现值
多笔付款:复利
复利的计算技巧
概览:现金流分析和
净现值
计划成本和机会成本中的
不确定性
用账户的期望值来考虑
不确定性
机会成本
成本概念及贬值
直接成本和间接成本
固定成本和可变成本
资本开支与运营成本
是否应该加以关注?
这些就是全部吗?
(讲习班)报纸经销商问题
(选学)精确解
扩展阅读
报纸经销商问题
第18 章预测分析
预测分析的主题
一些分类术语
分类算法
基于实例的分类和最近邻
分类算法
贝叶斯分类器
回归
支持向量机
决策树和基于规则的
分类器
其他分类算法
流程
集成方法:Bagging 和
Boosting
估计预测误差
类不平衡问题
私家秘诀
统计学习的本质
(讲习班)自己编写的两个
分类器
扩展阅读
第19 章结语:事实并非
现实
附录A 科学计算与数据分析的
编程环境
附录B 应用:微积分
附录C 使用数据
索引

编辑推荐

《数据之魅:基于开源工具的数据分析》结构合理,通俗易懂,适合数据分析爱好者和从业者阅读,也适合以科学计算为工具的科研人员参考。同时,《数据之魅:基于开源工具的数据分析》还适用于计算机科学、数学、工程技术和其他相关专业本科或研究生的数据分析课程,是一本不错的参考书。

前言

  本书展现了我在高科技行业的各个公司中从事数据工作所获得的经验。它汇聚了我所发现的许多最有用的概念和技术,包括我希望自己能够早点知道的主题——然而我没有。  我所学的专业是物理,但我也从事了多年的软件工程师工作。本书将反映出我这种双重背景。一方面,本书是为程序员以及软件领域的其他人士而写:我假定你和我一样,有能力通过自己动手编程来轻松自如地操纵数据。另一方面,我思考数据的方式是由我的背景和教育决定的。作为一个物理学家,我不会只满足于描述数据或者做黑盒式的预测:分析的目的总是为了深入理解我们所观察的数据是怎样产生的。  传达这种理解的工具就是模型:对所研究的系统进行描述(换句话说,不只是对数据的描述!),必要时进行简化但要保留相关的信息。一个模型可能很粗糙(就像一头球形的牛),但如果它能够帮助我们更好地理解系统的工作原理,那么它就是一个成功的模型。(精确度可以在之后获得,如果确实需要的话。)  我对模型和简化描述的强调并不具有普遍性:其他作者和从业人员可能持有不同的看法。但是它们对于我的方法和观点来说是基本的。  这本书相当具有个人色彩。尽管我努力使之合理全面,但我所选择的主题都是我认为在实践中相关和有用的——不管它们是否是“经典”。本书还包含其他数据分析相关书中不涉及的主题。尽管它们既不新颖也非独创,但在数据分析这一特定背景下通常并不使用或讨论它们——但我发现它们不可或缺。  在整本书中,我提供了大量明确而具体的建议、意见和评估。这些评述反映了我的个人兴趣、经验和理解。我不敢说我的观点一定是正确的,请根据具体需要对我所说的进行评估和取舍。在我看来,一个充分论证的明确立场比列出所有待选的可能算法更有用——即使后来你决定不同意我的观点。价值并不存在于观点中,而是存在于支持它的论据中。如果你的论据比我的好,或者仅仅只是更适合你,那么我也认为自己已经达到了我的目的!

内容概要

Philipp K. Janer,凭借着自己多年来担任物理学家和软件工程师的经验,为数据分析和数学建模提供咨询服务。他是Gnuplot in Action: Understanding Data with Graphs(Manning出版)的作者,也在O’Reilly Network、IBM developerWorks和IEEE Software发表过大量文章。他拥有华盛顿大学理论物理学博士学位。

媒体关注与评论

  “一本通俗易懂的参考书,有助于理解如何征服海量数据。”  ——Austin King,Mozolla资深Web开发人员  “造就数据科学家的必读工具书。”  ——Michael E. Driscoll,Dataspora的CEO兼创始人 

名人推荐

“Google,Facebook,Amazon和Netflix,更别说华尔街和制造业、零售业到保健行业的企业,他们的成功越来越得益于选择正确的工具从海量数据中抽取和挖掘出有意义、有价值的信息。现在,‘数据科学家’是硅谷最抢手的人物。” ——Tim O'Reilly “一本通俗易懂的参考书,有助于理解如何征服海量数据。” ——Allstin King. Mozilla资深Web开发人员“造就数据科学家的必读工具书。” ——Michael E.Driscoll. Dataspora的CE0兼创始人

章节摘录

版权页:   插图:   我很喜欢假色图,因为它既能保留定量信息,又能表示大量信息资料。然而,假色图的准确性主要取决于调色板的质量。映射过程,就是将数值与颜色联系在一起的过程。 让我们快速回顾一下颜色和计算机图形的相关知识。计算机图形中的颜色常常是由一组数据指定的,而这组数据则由红、绿、蓝三种基本色彩元素强度来表示。虽然RGB三基色技术在技术层面上看似很好,但它并不是特别直观。相反,我们倾向于从颜色的色调、饱和度和明暗度来考虑颜色表示问题(例如,亮度或颜色的浅淡)。一般来说,色调包含彩虹的所有颜色(从红到黄、绿、蓝、紫)。奇怪的是,色谱似乎绕了一圈又回到本身,就像紫最终又平滑地渐变为红。(这种情况是因为彩虹中色谱是按各种色彩的主要电磁频率的顺序来排列的。对于紫/品红来说,它们没有主要的频率,而紫色是一种由低频率的红色和高频率的蓝色混合而成的色调。)大多数计算机图形程序用色调—饱和度—明暗度(HSV)三基色技术来生成彩色图形。 我们很难找到一个可靠的调色板设计方案。更不幸的是,人们的权宜心理和常识似乎常常导致设计出来的调色板非常糟糕。这里有一些想法和建议供大家参考。 保持简单 简单地使用红、白、蓝的调色板往往能产生非常好的效果。对于连续的颜色变化,可以使用蓝—白—红调色板,而对于分割任务,可以使用一个白—蓝—红—白的调色板,分割线上使用蓝—红进行过渡。 分割任务和平滑性改变的区别 分割任务(例如,找到超过一定阈值的所有点,找出过零数据的分布情况)要求在区域两边的临界线上都使用亮丽的色彩过渡,而一个数据集的平滑变化则要求用连续的颜色渐变来表示。当然,可以在单个调色板中既使用颜色渐变,又使用强烈的对比色。 保持直观上的有序性 在调色板中,可以将低值映射为冷色、高值映射为暖色,让人从直观上感觉井然有序。类似的例子包括简单的蓝—红调色盘和“强烈、对比色系”(黑—红—黄—白——稍后将讨论为什么不建议使用“强烈的对比色”)。其他能让人感觉尽然有序的调色方案是“改进的彩虹”(包括蓝—青—绿—黄—橙—红—紫)和与地形图(蓝—青—绿—棕色—黄褐色—白)相似的“地理系列”。

图书封面


 数据之魅下载 精选章节试读 更多精彩书评



发布书评

 
 


精彩书评 (总计6条)

  •     不得不说本书的翻译不敢让人恭维。拿到书后粗略翻了翻,翻译的水平勉强达到“信达雅”中的“信”吧,我想这本书应该是导师交给学生翻译的。不过买之前我已经做好心理准备:一来这个是技术书,不求文字的华丽;二来我已经有pdf的电子版,买这本中文版的目的是加快阅读。所以,不推荐没有原版电子版的同学购买。
  •     书的理论性较强至少对我我这种不是学统计和学数学出身的人来讲很多分析和图例没有给出实际的操作过程。不是很推荐。感觉作者很专业,讲的也很系统,但是觉得并不是一个入门级的书要我写多少字才可以啊?
  •     无论对于数据分析入门还是有经验的高手,读来都受益。作者试图传达的几个观点:简单 优于 复杂便宜 优于 昂贵明晰 优于 晦涩目的 比 过程更重要洞见 比 精确更重要理解 比 技术更重要勤于思考 少干活

精彩短评 (总计24条)

  •     以为是讲技术的,结果是讲故事的。但讲得还行~
  •     外文翻译图书,建议翻译者多于一人的不要考虑,通常是挣钱心切的导师抓学生凑合。本人上学的时候也是深受其害, 自己根本没用过的系统, 就翻译出指南。
  •     从数学和分析的角度来讲工具
  •     引导思路
  •     才看了30页,一页都快掉了!!!!!!质量太差@
  •     并不如书名那般强力。用于开开眼界,对于非专业学生来说,知道处理什么问题时需要去用什么工具,以及可能的常见错误。翻译较生硬。
  •     还 没看呢,应该不错
  •     相当不错的一本书,数据分析人员可以放在案头
  •     。。。总会想到“概率论与数理统计”。。但求今年不挂科。
  •     貌似很好!
  •     垃圾啊!这本书到了,有如下问题:第一图的色差有点小,其中有些图形的描述与图形相差十分大第二,有脱页的情况!!!!大家购买的时候,小心点!!!!
  •     刚拿到手觉得书不错,可是看了觉得译的太差了,很多东西都没说清楚,不知道作者最后要说什么,建议专业的书要专业人员翻译,连over fitting都译错了,英语系的就不要掺和了,建议看原版
  •     数据魅力
  •     不错,挺实用的,写的很好噢~~·
  •     一般
  •     开始我的数据分析之旅。。。虽然好多还不懂,慢慢学习。
  •     数据分析必看
  •     本来是一本很不错的英文资料,可惜英文翻译的太烂。很多地方,专业名词和数学公式都解释错误。我不知道这是一个什么样的翻译团队,两个字评价:失望。
  •     : TP274/7242-1
  •     内容很详细。python利器
  •     通俗易懂而又实用的书,不空谈,而是解决问题。
  •     这本书分类介绍了很多方法,比较适合当作字典来查。
  •     这本书的主要内容是“数据分析”,而且讲解明显不够透彻,有泛泛之嫌,总评B+,难度A,推荐指数B(SABC分级)
  •     四颗星啊
 

农业基础科学,时尚,美术/书法,绘画,软件工程/开发项目管理,研究生/本专科,爱情/情感,动漫学堂PDF下载,。 PDF下载网 

PDF下载网 @ 2024