数据挖掘

出版社:清华大学出版社
出版日期:2013-1
ISBN:9787302307143
作者:[美] Mehmed Kantardzic
页数:403页

作者简介

随着数据集规模和复杂度的持续上升,分析员必须利用更高级的软件工具来执行间接的、自动的智能化数据分析。《数据挖掘:概念、模型、方法和算法(第2版)》介绍了通过分析高维数据空间中的海量原始数据来提取用于决策的新信息的尖端技术和方法。
本书开篇阐述数据挖掘原理,此后在示例的引导下详细讲解起源于统计学、机器学习、神经网络、模糊逻辑和演化计算等学科的具有代表性的、最前沿的挖掘方法和算法。本书还着重描述如何恰当地选择方法和数据分析软件并合理地调整参数。每章末尾附有复习题。
本书主要用作计算机科学、计算机工程和计算机信息系统专业的研究生数据挖掘教材,高年级本科生或具备同等教育背景的读者也完全可以理解本书的所有主题。
◆ 介绍支持向量机(SVM)和Kohonen映射
◆ 讲解DBSCAN、BIRCH和分布式DBSCAN聚类算法
◆ 介绍贝叶斯网络,讨论图形中的Betweeness和Centrality参数测量算法
◆ 分析在建立决策树时使用的CART算法和基尼指数
◆ 介绍Bagging & Boosting集成学习方法,并详述AdaBoost算法
◆ 讨论Relief以及PageRank算法
◆ 讨论文本挖掘的潜在语义分析(LSA),并分析如何测定文本文档之间的语义相似性
◆ 讲解时态、空间、Web、文本、并行和分布式数据挖掘等新主题
◆ 更详细地讲解数据挖掘技术商业、隐私、安全和法律方面的内容

书籍目录

目 录
第1章 数据挖掘的概念
1
1.1 概述
1
1.2 数据挖掘的起源
3
1.3 数据挖掘过程
4
1.4 大型数据集
7
1.5 数据仓库
10
1.6 数据挖掘的商业方面:为什么
数据挖掘项目会失败
13
1.7 本书结构安排
15
1.8 复习题
16
1.9 参考书目
17
第2章 数据准备
19
2.1 原始数据的表述
19
2.2 原始数据的特性
23
2.3 原始数据的转换
24
2.3.1 标准化
24
2.3.2 数据平整
25
2.3.3 差值和比率
25
2.4 丢失数据
26
2.5 时间相关数据
27
2.6 异常点分析
30
2.7 复习题
35
2.8 参考书目
38
第3章 数据归约
41
3.1 大型数据集的维度
41
3.2 特征归约
43
3.2.1 特征选择
44
3.2.2 特征提取
48
3.3 Relief算法
50
3.4 特征排列的熵度量
51
3.5 主成分分析
53
3.6 值归约
55
3.7 特征离散化:
ChiMerge技术
58
3.8 案例归约
61
3.9 复习题
63
3.10 参考书目
64
第4章 从数据中学习
67
4.1 学习机器
68
4.2 统计学习原理
72
4.3 学习方法的类型
75
4.4 常见的学习任务
77
4.5 支持向量机
80
4.6 kNN:最近邻分类器
90
4.7 模型选择与泛化
92
4.8 模型的评估
95
4.9 90%准确的情形
100
4.9.1 保险欺诈检测
101
4.9.2 改进心脏护理
102
4.10 复习题
103
4.11 参考书目
104
第5章 统计方法
107
5.1 统计推断
107
5.2 评测数据集的差异
109
5.3 贝叶斯定理
112
5.4 预测回归
114
5.5 方差分析
118
5.6 对数回归
120
5.7 对数-线性模型
121
5.8 线性判别分析
124
5.9 复习题
126
5.10 参考书目
128
第6章 决策树和决策规则
131
6.1 决策树
132
6.2 C4.5算法:生成决策树
134
6.3 未知属性值
139
6.4 修剪决策树
142
6.5 C4.5算法:生成决策规则
143
6.6 CART算法和Gini指标
146
6.7 决策树和决策规则的
局限性
148
6.8 复习题
150
6.9 参考书目
153
第7章 人工神经网络
155
7.1 人工神经元的模型
156
7.2 人工神经网络的结构
159
7.3 学习过程
161
7.4 使用ANN完成的
学习任务
164
7.4.1 模式联想
164
7.4.2 模式识别
164
7.5 多层感知机
166
7.6 竞争网络和竞争学习
172
7.7 SOM
174
7.8 复习题
178
7.9 参考书目
180
第8章 集成学习
183
8.1 集成学习方法论
184
8.2 多学习器组合方案
187
8.3 bagging和boosting
188
8.4 AdaBoost算法
189
8.5 复习题
190
8.6 参考书目
193
第9章 聚类分析
195
9.1 聚类的概念
195
9.2 相似度的度量
198
9.3 凝聚层次聚类
203
9.4 分区聚类
206
9.5 增量聚类
208
9.6 DBSCAN算法
211
9.7 BIRCH 算法
213
9.8 聚类验证
215
9.9 复习题
215
9.10 参考书目
218
第10章 关联规则
221
10.1 购物篮分析
222
10.2 Apriori 算法
223
10.3 从频繁项集中得到
关联规则
225
10.4 提高Apriori算法的效率
226
10.5 FP增长方法
227
10.6 关联分类方法
229
10.7 多维关联规则挖掘
231
10.8 复习题
232
10.9 参考书目
236
第11章 Web挖掘和文本挖掘
237
11.1 Web挖掘
237
11.2 Web内容、结构与
使用挖掘
238
11.3 HITS和LOGSOM算法
240
11.4 挖掘路径遍历模式
245
11.5 PageRank算法
247
11.6 文本挖掘
249
11.7 潜在语义分析
252
11.8 复习题
255
11.9 参考书目
257
第12章 数据挖掘高级技术
259
12.1 图挖掘
259
12.2 时态数据挖掘
270
12.2.1 时态数据表示
271
12.2.2 序列之间的相似性
度量
274
12.2.3 时态数据模型
276
12.2.4 数据挖掘
277
12.3 空间数据挖掘(SDM)
281
12.4 分布式数据挖掘(DDM)
284
12.5 关联并不意味着存在
因果关系
290
12.6 数据挖掘的隐私、安全及
法律问题
295
12.7 复习题
299
12.8 参考书目
300
第13章 遗传算法
303
13.1 遗传算法的基本原理
304
13.2 用遗传算法进行优化
305
13.2.1 编码方案和初始化
306
13.2.2 适合度估计
306
13.2.3 选择
307
13.2.4 交叉
308
13.2.5 突变
308
13.3 遗传算法的简单例证
310
13.3.1 表述
310
13.3.2 初始群体
311
13.3.3 评价
311
13.3.4 交替
312
13.3.5 遗传算子
312
13.3.6 评价(第二次迭代)
313
13.4 图式
314
13.5 旅行推销员问题
316
13.6 使用遗传算法的
机器学习
318
13.6.1 规则交换
320
13.6.2 规则概化
320
13.6.3 规则特化
321
13.6.4 规则分割
321
13.7 遗传算法用于聚类
321
13.8 复习题
323
13.9 参考书目
324
第14章 模糊集和模糊逻辑
327
14.1 模糊集
327
14.2 模糊集的运算
332
14.3 扩展原理和模糊关系
335
14.4 模糊逻辑和模糊
推理系统
339
14.5 多因子评价
342
14.6 从数据中提取模糊模型
344
14.7 数据挖掘和模糊集
349
14.8 复习题
350
14.9 参考书目
352
第15章 可视化方法
353
15.1 感知和可视化
353
15.2 科学可视化和信息
可视化
354
15.3 平行坐标
359
15.4 放射性可视化
361
15.5 使用自组织映射进行
可视化
363
15.6 数据挖掘的可视化系统
365
15.7 复习题
368
15.8 参考书目
369
附录A 数据挖掘工具
371
附录B 数据挖掘应用
393

编辑推荐

《国外计算机科学经典教材:数据挖掘:概念、模型、方法和算法(第2版)》主要用作计算机科学、计算机工程和计算机信息系统专业的研究生数据挖掘教材,高年级本科生或具备同等教育背景的读者也完全可以理解《国外计算机科学经典教材:数据挖掘:概念、模型、方法和算法(第2版)》的所有主题。

内容概要

Mehmed Kantardzic博士是美国路易维尔大学工学院计算机工程与科学系的教授,任该系的研究生院院长和数据挖掘实验室主任。Mehmed是IEEE、ISCA和SPIE的成员,曾受邀参加多个重要的学术会议;他已出版多本书籍,在许多期刊上发表过论文,其中有多篇论文获奖。

章节摘录

版权页:   插图:   1 2.4分布式数据挖掘(DDM) 海量数据的涌现使得利用分布式系统对海量数据开展跨地理区域的分析的需求不断增长。为海量数据驱动的知识发现,以及潜在的科学与商业理解带来了史无前例的发展机会。在高性能分布式计算平台上(而不是集中式计算模型上)实现数据挖掘,其驱动力来自于技术和组织两个因素。某些情况下,集中处理方式难以实现,因为需要长距离传输将大量的T级数据。另外,集中方法违背了隐私规则,暴露了商业秘密,并带来其他一些社会问题。这些问题的典型实例常见于医疗行业,其相关数据往往存在于多个组织商业机构中,例如制药公司、医院、政府实体(如美国食品和药物管理局)和非政府组织(如慈善和公共健康组织)。每个组织都具有法律限制,例如隐私法规,有关专利信息的公司需求会给竞争对手带来巨大的商业利益。因此既需要开发算法、工具、服务和基础结构用于实现分布式跨组织的数据挖掘,同时也需要考虑隐私保护问题。 这样一种朝着分布式、复杂环境发展的变化扩大了数据挖掘挑战的范围。分布式数据所带来的新问题明显增加了数据挖掘过程的复杂性。通过有线和无线网络,许多分布式计算环境,在计算和通信方面获得了进展。这样的处理环境多数都涉及包含大量数据的分布式数据源、多个计算节点和分布式用户社区。对这些分布式数据源进行监视和分析需要新的用于分布式应用的数据挖掘技术。DDM领域处理这些问题——通过细致分析分布式源挖掘分布式数据源。除数据分布外,网络的发展产生了大量复杂数据,包括自然语言文本、图像、时间序列、传感器数据、多关系及对象数据类型。更复杂的是,包含分布式流数据的系统需要增量或在线挖掘工具,无论何时当底层数据发生变化时,需要完整地处理过程。由于系统变化频繁,应用于如此复杂环境的数据挖掘技术必须适应巨大的动态变化,否则将会对系统的性能带来不良影响。对所有这些特性提供支持的DDM系统需要有创新的解决方案。 Web架构(包含分层协议和服务)提供了合理的框架用于支持DDM。新框架接受“融合通信和计算”的新趋势。DDM接受数据可能自然地分布于不同的松耦合节点上的事实,这些分布的数据往往是通过网络连接起来的异构数据。DDM提供用于通过分布式数据分析和使用最小数据通信建模发现新知识的技术。同时,分布式系统交互需要以可靠、稳定、可扩展的方式实现。最后,系统必须向用户隐藏技术方面的复杂性。 目前,能够通过e—services处理的商品不仅仅局限于类似电器、家具、机票等实体。Intcmet及WWW的发展包含了软件、计算能力或有用的数据集这类资源。这些新资源能够通过网络以服务的形式售卖或租赁给网络用户。直观上看,数据挖掘适于作为一种e—service发布,因为该方法减少了高昂的用于支持该方法的基础架构的设置和维护开销。


 数据挖掘下载 更多精彩书评



发布书评

 
 


精彩书评 (总计2条)

  •     今天收到书非常开心,排版和纸张不错,读完一章感觉翻译还比较流畅。虽然现在的研究方向不是数据挖掘,但因为兴趣以前看过几本数据挖掘的书。相比Han的数据挖掘概念与技术,感觉这本书更适合自学,相关概念算法描述更为通俗化。就比如Apriori算法,Han的书有一堆偏学术性的定义和算法描述,这本书则用比较精简的例子直接阐述,重点把核心问题说明清楚。由小观大,感觉这本书更适合用来初次学习数据挖掘,每个算法基本都用图表进行了解释说明,并都附带了实际计算的例子,自学起来更加易懂。每章的参考文献不像一般书籍一样一句带过,而是列出章节相关内容推荐书籍、文献,然后用摘要形式概述,让读者在深入学习时更容易入手。附录收入了数据挖掘top级期刊和会议等信息,对要进入这方面学术研究的同学比较有帮助。希望读完这本书对我有点启发,哈哈。
  •     数据挖掘越来越热,一本翻译良好、且条理清晰的书对读者详细理解数据挖掘相关知识非常重要。这里对笔者读过的清华大学出版社的《数据挖掘:概念、模型、方法和算法》(第2版)一书做出一点自己的评价。供希望学习数据挖掘的读者参考(若有措辞不当,还请见谅)。在介绍之前,看回顾下两本经典数据挖掘书籍。一本是机械工业出版社的《数据挖掘概念与技术》(第3版)。本书偏向于概念性。不知是原文比较晦涩还是怎么说,本书的中文版的翻译有点生硬。(曾经看到有编辑和译者就共同抱怨过思科的一些书,这些书中英文本身的语句就非常晦涩,翻译起来不适合中文读者的理解。)而人民邮电出版社的《数据挖掘导论》(完整版)作为初学者的教材不错,整书逻辑清晰。翻译的也很好。强烈建议作为入门必备,但该书是05年出版的,而这里介绍的书的英文版是11年出版的。至于这里的完整版,是曾经有一本该书的译本缺了附录。这本书补上去了,所以称为“完整版”。上面两本经典图书是许多学习者最常接触的,但有好书就不能藏着掖着。所以就介绍下一本大家还不太熟悉的书《数据挖掘:概念、模型、方法和算法》(第2版)。本书适合初学者的原因是因为该书介绍的面很广,描述语言也很通俗,能让读者读完后对数据挖掘有个大体的认识。如本书介绍早期数据准备等知识,虽然《数据挖掘概念与技术》也介绍了,但后者有点偏向专业短语的解释上,而本书更专注于让读者理解。本书最值得看的一个亮点在于,每章的结束位置都有本章所引用的参考文献。或许有读者会说,其他书也有啊。但本书的不同之处在于其对每个参考文献都做了一定的介绍。这样读者就知道如果想进一步深入学习,应该看哪些文献。与其他书籍那样列出一些麻木的列出书籍或期刊名,这种方式对读者更为有好。毕竟,书和论文还是有点区别的。但读者不要被这个书名所误解了。书名是《数据挖掘:概念、模型、方法和算法》,但本书主要关注与概念和模型。提到算法,读者的印象可能是一些代码或伪代码,但本书中几乎没有……这应该是一个不足之处,哪怕《数据挖掘导论》一书中也含有一定的伪代码。同时,在内容上看。本书在介绍数据挖掘的同时,有些偏向与模式识别和机器学习。如本书分别以整整一章内容介绍了人工神经网络、集成学习、遗传算法等知识。所以对初学者来说,在这本书的帮助下,读者可以对数据挖掘有广泛的认识,并能通过每章末尾的参考文献哪里了解进一步学习的方向。但最后提醒一句,本书是概念性的,不要被书名的算法二字误解了。。。因此,我认为学习数据挖掘的读者除了有一本《数据挖掘导论》之外,还应该有一本《数据挖掘:概念、模型、方法和算法》

精彩短评 (总计3条)

  •     优点:全书结构清晰。也展示了很多算法。缺点:经常抛出没定义过的概念或公式。翻译也很有问题。读起来很累,不推荐。
  •     不知道是翻译问题还是什么的....
  •     内容比较全面,用另一种思路进行了讲解,但最近的内容涉及较少,望加强,作为一本教材来说很不错。
 

农业基础科学,时尚,美术/书法,绘画,软件工程/开发项目管理,研究生/本专科,爱情/情感,动漫学堂PDF下载,。 PDF下载网 

PDF下载网 @ 2024