大数据智能

出版日期:2016-1
ISBN:9787121276488
作者:刘知远,崔安颀
页数:232页

作者简介

《大数据智能——互联网时代的机器学习和自然语言处理技术》是一本介绍大数据智能分析的科普书籍,旨在让更多的人了解和学习互联网时代的机器学习和自然语言处理技术,以期让大数据技术更好地为我们的生产和生活服务。
《大数据智能——互联网时代的机器学习和自然语言处理技术》包括大数据智能基础和大数据智能应用两个部分,共8 章。大数据智能基础部分有三章:第1 章以深度学习为例介绍大数据智能的计算框架;第2 章以知识图谱为例介绍大数据智能的知识库;第3 章介绍大数据的计算处理系统。大数据智能应用部分有5 章:第4 章介绍智能问答,第5 章介绍主题模型,第6 章介绍个性化推荐,第7 章介绍情感分析与意见挖掘,第8 章介绍面向社会媒体内容的分析与应用。最后在《大数据智能——互联网时代的机器学习和自然语言处理技术》的后记部分为读者追踪大数据智能的最新学术材料提供了建议。
《大数据智能——互联网时代的机器学习和自然语言处理技术》适合作为高等院校计算机相关专业的研究生学习参考资料,也适合电脑爱好者阅读。作者特别希望本书能够帮助所有愿意对大数据技术有所了解,以及想要将大数据技术应用于本职工作的读者。

书籍目录

第1 章 深度学习——机器大脑的结构 1
1.1 概述 3
1.1.1 可以做酸奶的面包机——通用机器的概念 3
1.1.2 连接主义 5
1.1.3 用机器设计机器 6
1.1.4 深度网络 6
1.1.5 深度学习的用武之地 7
1.2 从人脑神经元到人工神经元 8
1.2.1 生物神经元中的计算灵感 8
1.2.2 激活函数 9
1.3 参数学习 10
1.3.1 模型的评价 11
1.3.2 有监督学习 11
1.3.3 梯度下降法 12
1.4 多层前馈网络 13
1.4.1 多层前馈网络 14
1.4.2 后向传播算法计算梯度 16
1.5 逐层预训练 17
1.6 深度学习是终极神器吗 19
1.6.1 深度学习带来了什么 19
1.6.2 深度学习尚未做到什么 20
1.7 内容回顾与推荐阅读 21
1.8 参考文献 21
第2 章 知识图谱——机器大脑中的知识库 23
2.1 什么是知识图谱 25
2.2 知识图谱的构建 27
2.2.1 大规模知识库 27
2.2.2 互联网链接数据 28
2.2.3 互联网网页文本数据 29
2.2.4 多数据源的知识融合 29
2.3 知识图谱的典型应用 30
2.3.1 查询理解(Query Understanding) 30
2.3.2 自动问答(Question Answering) 32
2.3.3 文档表示(Document Representation) 33
2.4 知识图谱的主要技术 34
2.4.1 实体链指(Entity Linking) 34
2.4.2 关系抽取(Relation Extraction) 35
2.4.3 知识推理(Knowledge Reasoning) 37
2.4.4 知识表示(Knowledge Representation) 38
2.5 前景与挑战 39
2.6 内容回顾与推荐阅读 40
2.7 参考文献 41
第3 章 大数据系统——大数据背后的支撑技术 43
3.1 概述 45
3.2 高性能计算技术 46
3.2.1 超级计算机的组成 47
3.2.2 并行计算的系统支持 48
3.3 虚拟化和云计算技术 52
3.3.1 虚拟化技术 52
3.3.2 云计算服务 54
3.4 基于分布式计算的大数据系统 55
3.4.1 Hadoop 生态系统 55
3.4.2 Spark 61
3.4.3 典型的大数据基础架构 63
3.5 大规模图计算 63
3.5.1 分布式图计算框架 64
3.5.2 高效的单机图计算框架 65
3.6 NoSQL 66
3.6.1 MongoDB 简介 67
3.7 内容回顾与推荐阅读 69
3.8 参考文献 70
第4 章 智能问答——智能助手是如何炼成的 71
4.1 概述 73
4.2 问答系统的主要组成 77
4.3 文本问答系统 78
4.3.1 问题理解 78
4.3.2 知识检索 81
4.3.3 答案生成 83
4.4 社区问答系统 84
4.4.1 社区问答系统的结构 85
4.4.2 相似问题检索 86
4.4.3 答案过滤 86
4.5 多媒体问答系统 87
4.6 大型问答系统案例:IBM 沃森问答系统 89
4.6.1 沃森的总体结构 89
4.6.2 问题解析 90
4.6.3 知识储备 90
4.6.4 检索和候选答案生成 91
4.6.5 可信答案确定 92
4.7 内容回顾与推荐阅读 93
4.8 参考文献 94
第5 章 主题模型——机器的智能摘要利器 97
5.1 概述 99
5.2 主题模型出现的背景 100
5.3 第一个主题模型潜在语义分析 102
5.4 第一个正式的概率主题模型 104
5.5 第一个正式的贝叶斯主题模型 105
5.6 LDA 的概要介绍 106
5.6.1 LDA 的延伸理解——主题模型广义理解 109
5.6.2 模型求解 111
5.6.3 模型评估 112
5.6.4 模型选择:主题数目的确定 113
5.7 主题模型的变形与应用 114
5.7.1 基于LDA 的模型变种 114
5.7.2 基于LDA 的典型应用 115
5.7.3 一个基于主题模型的新浪名人话题排行榜应用 118
5.8 内容回顾与推荐阅读 122
5.9 参考文献 123
第6 章 个性化推荐系统——如何了解电脑背后的TA 129
6.1 概述 131
6.1.1 推荐系统的发展历史 132
6.1.2 推荐无处不在 133
6.1.3 从千人一面到千人千面 133
6.2 个性化推荐的基本问题 134
6.2.1 推荐系统的输入 135
6.2.2 推荐系统的输出 137
6.2.3 个性化推荐的形式化 137
6.2.4 推荐系统的三大核心问题 138
6.3 典型推荐算法浅析 139
6.3.1 推荐算法的分类 139
6.3.2 典型推荐算法介绍 140
6.3.3 基于矩阵分解的打分预测 146
6.3.4 推荐的可解释性 151
6.3.5 推荐算法的评价 153
6.3.6 我们走了多远 156
6.4 参考文献 160
第7 章 情感分析与意见挖掘——计算机如何了解人类情感 165
7.1 概述 167
7.2 情感分析的主要研究问题 172
7.3 情感分析的主要方法 175
7.3.1 构成情感和观点的基本元素 175
7.3.2 情感极性与情感词典 177
7.3.3 属性-观点对 182
7.3.4 情感分析 184
7.4 主要的情感词典资源 188
7.5 内容回顾与推荐阅读 189
7.6 参考文献 190
第8 章 面向社会媒体大数据的语言使用分析及应用 195
8.1 概述 197
8.2 面向社会媒体的自然语言使用分析 197
8.2.1 词汇的时空传播与演化 198
8.2.2 语言使用与个体差异 200
8.2.3 语言使用与社会地位 202
8.2.4 语言使用与群体分析 203
8.3 面向社会媒体的自然语言分析应用 206
8.3.1 社会预测 206
8.3.2 霸凌现象定量分析 207
8.4 未来研究的挑战与展望 208
8.5 参考文献 209
后 记 214
国际学术组织、学术会议与学术论文 214
国内学术组织、学术会议与学术论文 216
如何快速了解某个领域的研究进展 217

内容概要

刘知远,目前以项目负责人身份主持NSFC青年基金、博士后科学基金等多项研究项目,科研经费累计超过50万元。同时以项目骨干身份参与实验室多项973、863、NSFC重点和面上项目。承担和参与项目列表如下:担任项目负责人的项目 1.2014年-2016年,国家社会科学基金重大项目“基于大规模社交媒体的汉语模因传播机理量化研究”子课题。 2.2013年-2015年,NSFC青年基金项目“基于协同语义计算的社交媒体信息扩散与可信性研究”。 3.2013年-2014年,清华大学-微软联合实验室研究项目“Efficient Chinese Entity Linking for Large-scale Web Corpus to Heterogeneous Entity Networks”。担任项目骨干的项目 1.2014年-2018年,973项目“面向三元空间的互联网中文信息处理理论与方法”。 2.2012年-2015年,NSFC面上项目“关键词抽取与社会标签推荐相结合的中文文本主题词自动标注方法研究”。 3.2012年-2016年,NSFC重点项目“篇章级中文语义分析理论与方法”。 4.2009年-2011年,NSFC面上项目“汉语复杂网络的性质、结构、演化及其典型应用研究”。 5.2007年-2009年,863项目“大规模网络图文数据的语义分类和适度理解技术研究”。+ 6.2011年-2013年,东芝公司研究项目“面向中文文档分类的技术研发”。 7.2011年-2012年,Google公司研究项目“移动查询助理和查询结果摘要”。 8.2010年-2011年,Google公司研究项目“信息标注与社区发现的大规模算法研究”。 9.2009年-2011年,Google公司研究项目“针对流文本集的并行LDA”。


 大数据智能下载 更多精彩书评



发布书评

 
 


精彩书评 (总计2条)

  •     大数据与人工智能都是近年来非常热门的研究课题,两者看似分属不同的科学领域,但实际上随着计算机数据分析能力的提高和互联网的发展,大数据与人工智能之间的联系越来越密切。《大数据智能》一书正是从这个角度切入,从人脑对世界认识的本质着手,介绍了机器是如何利用已有的数据资料,通过分析与学习,逐渐进入智能领域的。读完《大数据智能》这本书,我想这样来描述它在知识层级上的定位:《大数据智能》是为相关领域有基础、有兴趣的初学者提供的入门工具与学习指导。《大数据智能》不是一本科普读物,如果你仅仅是对大数据和人工智能等概念感兴趣,想做个扫盲式的了解,那么这本书并不适合你,因为里面涉及到了太多的理论、算法与具体的数学模型;同时它也不是一本学术著作,因为在有限的篇幅里并不能对每一个论题展开深入的研究与探讨,如果你是相关方面的专家学者,试图寻找领域内的最新成果和问题解答,这本书也不适合你。但如果你是一名具备相应IT基础知识,又试图在大数据、人工智能、自然语言处理等方面做些工作的读者,那么这本书就太适合你了。因为它不仅深入浅出地阐述了相关技术的理论知识与发展进程,还给出了丰富的数学建模方法与学术参考资料,便于读者进一步研究与提高。《大数据智能》的内容大面上分成两部分,前三章是基础知识介绍,以深度学习、知识图谱和大数据处理为题,分别介绍了大数据智能的计算框架、知识库以及在背后进行支撑的计算处理系统。从第四章到第八章着重介绍大数据智能的主流应用场景,涵盖了智能问答、主题模型、个性化推荐、情感分析与意见挖掘以及面向社会媒体的自然语言分析应用。全书结构清晰易读、语言简洁流畅,没有晦涩难懂的学术论证,但也并不缺乏在理论尤其是数学层面的分析与推演。读完《大数据智能》我有一个很深刻的印象,就是书中尽可能全面地介绍了相关领域的研究成果与当前进展,并给出了大量的参考书籍,这可以说是“大数据”的完美体现;同时在《后记》篇中作者又单独着墨,告诉读者如何了解追踪大数据智能领域的最新学术资料,我想这也是对我们所拥有的“智能”在自然语言学习方面做出的指导吧。在阅读期间,适逢“AlphaGo”与李世石的人机大战,结果世人皆知,人工智能轻松拿下了围棋这个以往人类认为机器不可能染指的领域,让许多人惊叹不已、大跌眼镜。结合数年前“深蓝”战胜国际象棋大师卡斯帕罗夫,以及《大数据智能》书中所讲的“Watson”系统赢得美国《危险边缘》智力竞赛的冠军等现象,我不禁也在想:人工智能究竟会以什么样的速度,发展到哪一步?具备自然语言学习能力的人工智能,在接触到互联网上近乎全部人类知识积累的情况下,是否能够利用其人类所无法比拟的分析与处理能力,自我迭代、进化出远超自然人的智能呢?人工智能在未来是否存在失控的危险,我们又应该怎样趋利避害,使人工智能永远为人类造福呢?这或许是在科学飞速发展的同时,人类应该思考的哲学问题吧。
  •     随着互联网、云计算、移动通讯技术的发展,我们已经进入一个崭新的大数据时代。大数据的处理技术,对人工智能的发展,起到了很大的推动作用,与人工智能密切相关的机器学习,自然语言处理等领域,近年来都在大数据的推动下,飞速发展。如何真正实现大数据智能,或者说,两者如何如何密切结合,相互推动,本书为读者展示了这个领域的很多基础知识和前沿应用发展情况。首先作为基础部分,本书介绍了深度学习和知识图谱的概念。深度学习(Deep Learning)作为机器学习范式,已经获得了广泛的应用。以神经网络模型作为函数,通过调整参数,来拟合不同的函数。这就是learning部分。通过多个此类带参数函数进行嵌套,来实现多层的模型,这就是所谓的deep部分。如何找到更优的自动调整函数参数的算法,便成了深度学习领域的一个推动方向。深度学习在当前已成一个发展迅猛的热点领域,尽管在这个领域还没有形成严格的理论体系。知识图谱作为下一代搜索引擎、自动问答等智能应用的基础设施,似乎与我们的生活更加密切。知识图谱(knowledge Graph)在书中并称为机器大脑中的知识库,它赋予字符串实体的意义,而非单纯的字串。首先,知识图谱的数据来源需要大量的大规模的知识库,包括海量互联网数据。通过多数据源的知识融合来构建知识图谱。知识的表示,知识的获取,知识融合以及知识应用构成了知识图谱领域的几个重点研究方向。作为大数据智能的应用部分,本书重点阐述了智能问答,主题模型,个性化推荐等领域的知识背景和应用场景。我个人认为个性化推荐这个模块在当前的很多互联网应用上已经广泛深入。特别是在电子商务,在线视频,社交等应用上,几乎都离不开个性化推荐。个性化推荐的核心问题是预测(Prediction),推荐(Recommendation),解释(Explanation)。目前绝大多数推荐算法还集中在“预测”环节,比如基于内容的过滤算法,基于协同过滤的推荐算法等。《大数据智能》作为大数据领域的一个科普书籍,给我们展现了大数据智能分析技术的方方面面,更难能可贵的是,在本书的各个章节,都提供了详细的参考文献,为有志于对此进行深入研究的读者们提供了宝贵的进阶资料。

精彩短评 (总计35条)

  •     通俗易懂条理清晰~yah~
  •     终于有本把大数据、知识库和NLP搞在一块的书了
  •     我们几位写的书,欢迎支持。:)
  •     对于NLP及文本挖掘可以较好的科普入门
  •     提纲挈领地讲了大数据和人工智能的相关领域知识,算是扫个盲。最后的后记我比较喜欢:如何了解和跟进这个领域的最新进展。
  •     Survey类型书籍。书主要覆盖NLP的诸多topics,每个topic讲得浅显但精炼;行文用语极其通顺流畅;书籍附的文献锚点不错,想对一个topic多了解的话顺着文献读就行了。总得来说是本入门科普好书。不过每个topic讲得很泛泛。
  •     入门书籍,内容浅显
  •     主要让我认识到NoSQL的重要性,及第三代搜索引擎,是一种特别的智能问答系统,取代原有的关键词搜索,而是搜索整句问话,理解问题,知识库检索,整理答案。本书说是大数据智能,更多的是对NLP的解读。
  •     好书,比较通俗地讲清楚了挺多我这一外行看来很深奥的概念,现在对人工智能更感兴趣了,哈哈。人工智能爱好者的福音!
  •     survey类型的书 把NLP相关的几个研究方向介绍了一下…参考文献很多…
  •     研究生教科书式的教材,学者的书就是不一样。不过总体来说,新观点不多,一些领域就是初步的概述。适合引进门阶段的学习。
  •     看完一遍概念就有了…简洁清晰的一本概述书…(不过有些部分深入看的时候发现是抄了一下reference里的学生论文(毕竟术业有专攻没办法门门都精通hhhh
  •     后面的章节不错,对于nlp相关的大数据应用的场景和算法思路都有比较深入的阐述,而且在最后的后记里面给出了这些领域的学术资料的发布和检索平台。
  •     七拼八凑,泛泛而谈,干货太少
  •     各个方向都有所涉猎,虽然不够深入,但大体的研究思路还是比较清晰了,作为搭框架式的基础书籍还是不错的入门读物。
  •     科普
  •     科普,不是太专业
  •     比较有内容的几章: 1深度学习:后向传播,auto-encoder,预训练 2知识图谱:Entity Linking,Relation Extraction,Knowledge Reasoning,Knowledge Representation 4智能问答:问题理解-知识检索-答案生成 5主题模型:LSI/LSA,pLSI/pLSA,LDA 6推荐系统:1)输入:User-Item-Review2)三个核心问题:预测、推荐、解释3)算法:基于人口统计学的推荐、基于内容的推荐,基于协同过滤的推荐(基于用户,基于物品),基于矩阵分解补全的推荐
  •     人工智能,一个伴随计算机发展历史的重要话题。历史上数次计算机技术和理论的革新,都掀起了人工智能研究的新一轮热潮。就像爱迪生发明电灯泡的过程,相对于人工智能,谁又能知道大数据是否就是爱迪生最终发现的那根钨丝呢?
  •     浅显易懂,连我这样的门外汉都能理解。讲解“深度学习”、“知识图谱”、“智能问答”等知识的尺度把握的恰到好处,不会给人深奥枯燥的感觉。本书把很多我们当今信息生活背后的技术拿出来讲解,把“黑科技”透明化了,也让读者知道了当今的互联网“理所当然的便捷”是如何的来之不易,很适合大众阅读。
  •     博客水准
  •     水
  •     多人写综述出书也是一种套路哈
  •     书名其实没必要和『大数据』牵强地扯上关系,这是一本不错的关于NLP的扫描+概述书,书里的参考资料和脉络梳理都很好,是一本外行来了解大概,内行加深印象并且留在桌边偶尔读读参考文献的好书。
  •     入门级概述性的书,适合入门读者阅读
  •     机器学习(大数据、深度学习、自然语言处理、推荐系统)的科普书,开开眼界。
  •     跟大数据没啥直接关系 不同章节的细致程度也不一样 拼接很机械。
  •     王婆卖瓜,自卖自夸
  •     对于有志于算法研究的工程师外行人来说,NLP是个很好的切入方向。
  •     这本书其实做为书来讲,不是特别好,因为不同的章节,作者的深度不一,而且有些地方没有讲清楚。但是胜在作者基本上都是实际的工作者,给出了足够的细节和参考文献,有志于此者可继续深入。
  •     这个本书机器学习方向着墨不多,精华部分是自然语言处理相关各类应用的入门,例子丰富,成功地让我对情感分析产生了兴趣!
  •     本书适合希望对自然语言处理的最新进展做概貌性了解的读者。但是由于全书是由多个作者分别写作完成,使得内容的逻辑性,风格的一致性有些不足。
  •     一本机器学习在互联网应用方向综述论文集。书名虚求噱头,而副标题倒恰当表达了内容主题。因是合集,各章有重叠内容,而其作者应均有实践经验,故讲述以实践为主加以理论点拨,循序渐进而浅出。主题包括了知网、舆情、定制信息等当下热点,能想得到作者们也挺辛苦的。
  •     最有用的应该是参考文献部分,入门级别的好书,有过了解的同学其实就没必要看了,很多是特别基础的大白话。
  •     入门导读的书 自然语言讲得多 还可以 参考文献啥的可以参考
 

农业基础科学,时尚,美术/书法,绘画,软件工程/开发项目管理,研究生/本专科,爱情/情感,动漫学堂PDF下载,。 PDF下载网 

PDF下载网 @ 2024