图书介绍
大数据分析原理与实践2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 王宏志编著 著
- 出版社: 北京:机械工业出版社
- ISBN:9787111569435
- 出版时间:2017
- 标注页数:443页
- 文件大小:66MB
- 文件页数:461页
- 主题词:数据处理
PDF下载
下载说明
大数据分析原理与实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 绪论1
1.1 什么是大数据1
1.2 哪里有大数据3
1.3 什么是大数据分析4
1.4 大数据分析的过程、技术与难点5
1.5 全书概览8
小结10
习题10
第2章 大数据分析模型11
2.1 大数据分析模型建立方法11
2.2 基本统计量13
2.2.1 全表统计量14
2.2.2 皮尔森相关系数15
2.3 推断统计16
2.3.1 参数估计16
2.3.2 假设检验20
2.3.3 假设检验的阿里云实现23
小结28
习题28
第3章 关联分析模型30
3.1 回归分析31
3.1.1 回归分析概述31
3.1.2 回归模型的拓展35
3.1.3 回归的阿里云实现43
3.2 关联规则分析52
3.3 相关分析54
小结57
习题58
第4章 分类分析模型60
4.1 分类分析的定义60
4.2 判别分析的原理和方法61
4.2.1 距离判别法61
4.2.2 Fisher判别法64
4.2.3 贝叶斯判别法67
4.3 基于机器学习分类的模型71
4.3.1 支持向量机72
4.3.2 逻辑回归74
4.3.3 决策树与回归树75
4.3.4 k近邻78
4.3.5 随机森林78
4.3.6 朴素贝叶斯81
4.4 分类分析实例82
4.4.1 二分类实例82
4.4.2 多分类实例94
小结101
习题102
第5章 聚类分析模型105
5.1 聚类分析的定义105
5.1.1 基于距离的亲疏关系度量105
5.1.2 基于相似系数的相似性度量108
5.1.3 个体与类以及类间的亲疏关系度量110
5.1.4 变量的选择与处理111
5.2 聚类分析的分类111
5.3 聚类有效性的评价112
5.4 聚类分析方法概述112
5.5 聚类分析的应用113
5.6 聚类分析的阿里云实现114
小结119
习题119
第6章 结构分析模型122
6.1 最短路径122
6.2 链接排名123
6.3 结构计数125
6.4 结构聚类126
6.5 社团发现128
6.5.1 社团的定义128
6.5.2 社团的分类128
6.5.3 社团的用途128
6.5.4 社团的数学定义128
6.5.5 基于阿里云的社团发现130
小结132
习题133
第7章 文本分析模型135
7.1 文本分析模型概述135
7.2 文本分析方法概述136
7.2.1 SplitWord136
7.2.2 词频统计137
7.2.3 TF-IDF138
7.2.4 PLDA140
7.2.5 Word2Vec147
小结148
习题149
第8章 大数据分析的数据预处理150
8.1 数据抽样和过滤150
8.1.1 数据抽样150
8.1.2 数据过滤154
8.1.3 基于阿里云的抽样和过滤实现154
8.2 数据标准化与归一化157
8.3 数据清洗159
8.3.1 数据质量概述159
8.3.2 缺失值填充160
8.3.3 实体识别与真值发现162
8.3.4 错误发现与修复169
小结171
习题171
第9章 降维173
9.1 特征工程173
9.1.1 特征工程概述173
9.1.2 特征变换175
9.1.3 特征选择178
9.1.4 特征重要性评估183
9.2 主成分分析191
9.2.1 什么是主成分分析191
9.2.2 主成分分析的计算过程192
9.2.3 基于阿里云的主成分分析194
9.2.4 主成分的表现度量195
9.3 因子分析196
9.3.1 因子分析概述196
9.3.2 因子分析的主要分析指标196
9.3.3 因子分析的计算方法197
9.4 压缩感知203
9.4.1 什么是压缩感知203
9.4.2 压缩感知的具体模型204
9.5 面向神经网络的降维205
9.5.1 面向神经网络的降维方法概述205
9.5.2 如何利用神经网络降维206
9.6 基于特征散列的维度缩减207
9.6.1 特征散列方法概述207
9.6.2 特征散列算法207
9.7 基于Lasso算法的降维208
9.7.1 Lasso方法简介208
9.7.2 Lasso方法209
9.7.3 Lasso算法的适用情景211
小结211
习题212
第10章 面向大数据的数据仓库系统214
10.1 数据仓库概述214
10.1.1 数据仓库的基本概念214
10.1.2 数据仓库的内涵215
10.1.3 数据仓库的基本组成215
10.1.4 数据仓库系统的体系结构216
10.1.5 数据仓库的建立217
10.2 分布式数据仓库系统221
10.2.1 基于Hadoop的数据仓库系统221
10.2.2 Shark:基于Spark的数据仓库系统227
10.2.3 Mesa228
10.3 内存数据仓库系统231
10.3.1 SAPHANA231
10.3.2 HyPer234
10.4 阿里云数据仓库简介236
小结238
习题239
第11章 大数据分析算法240
11.1 大数据分析算法概述240
11.2 回归算法242
11.3 关联规则挖掘算法248
11.4 分类算法255
11.4.1 二分类算法256
11.4.2 多分类算法273
11.5 聚类算法283
11.5.1 k-means算法283
11.5.2 CLARANS算法291
小结293
习题293
第12章 大数据计算平台295
12.1 Spark295
12.1.1 Spark简介295
12.1.2 基于Spark的大数据分析实例296
12.2 Hyracks299
12.2.1 Hyracks简介299
12.2.2 基于Hyracks的大数据分析实例299
12.3 DPark305
12.3.1 DPark简介305
12.3.2 基于DPark的大数据分析实例306
12.4 HaLoop308
12.4.1 HaLoop简介308
12.4.2 基于HaLoop的大数据分析实例308
12.5 MaxCompute309
12.5.1 MaxCompute简介309
12.5.2 MaxCompute实战案例介绍310
12.5.3 基于MaxCompute的大数据分析实例316
12.5.4 MaxCompute的现状及前景320
小结321
习题321
第13章 流式计算平台322
13.1 流式计算概述322
13.1.1 流式计算的定义322
13.1.2 流式计算的应用322
13.1.3 流式计算平台的发展324
13.2 Storm324
13.2.1 Storm简介324
13.2.2 Storm的结构325
13.2.3 基于Storm的大数据分析实例326
13.3 分布式流处理系统Samza331
13.3.1 Samza简介331
13.3.2 Samza的原理332
13.3.3 基于Samza的大数据分析实例334
13.4 CloudDataflow339
13.4.1 CloudDataflow简介339
13.4.2 CloudDataflow开发模型340
13.4.3 CloudDataflow的应用实例340
13.5 阿里云StreamCompute341
13.5.1 阿里云StreamCompute的原理341
13.5.2 基于StreamCompute的实时数据统计342
13.5 3订单统计实例347
小结348
习题349
第14章 大图计算平台350
14.1 大图计算框架概述350
14.2 GraphLab350
14.2.1 GraphLab的计算模型350
14.2.2 基于GraphLab的大图分析实例351
14.3 Giraph353
14.3.1 Giraph简介353
14.3.2 Giraph的原理353
14.3.3 Giraph的应用354
14.3.4 基于Giraph的大图分析实例354
14.4 Neo4j358
14.4.1 Neo4j简介358
14.4.2 基于Noe4j的大图分析实例359
14.5 ApacheHama360
14.5.1 ApacheHama简介360
14.5.2 Apache Hama的结构361
14.5 3 Apache Hama的工作原理362
14.6 MaxCompute Graph363
14.6.1 MaxComputeGraph的原理363
14.6.2 MaxComputeGraph的使用与配置方法364
14.5.3 基于MaxCompute Graph的大图分析实例371
小结376
习题377
第15章 社交网络378
15.1 为社交网络建模378
15.1.1 社交网络概述378
15.1.2 社交图378
15.2 社交网络的结构379
15.2.1 社交网络的统计学构成379
15.2.2 社交网络的群体形成381
15.3 基于社交网络语义分析的利益冲突发现382
15.4 社交网络中的社区发现384
15.4.1 动态社交网络中的社区识别框架384
15.4.2 基于经验比对算法的网络社区检测387
15.5 社交网络中的关联分析388
15.5.1 社交网络中的关系强度模型388
15.5.2 社交网络中“正向链接”与“负向链接”的预测391
15.6 社交网络中的影响力预测393
15.7 基于阿里云的社团发现实例396
小结403
习题403
第16章 推荐系统405
16.1 推荐系统概述405
16.2 协同过滤408
16.2.1 协同过滤简介408
16.2.2 面向物品的协同过滤算法408
16.2.3 改进的最近邻法410
16.2.4 集成协同过滤方法412
16.3 基于用户评价的推荐413
16.4 基于人的推荐415
16.4.1 基于用户偏好学习的在线推荐415
16.4.2 混合推荐系统418
16.5 基于标记的推荐422
16.6 社交网络中的推荐423
16.6.1 基于信号的社交网络推荐423
16.6.2 基于在线主题的社交网络推荐425
16.7 基于阿里云的个性推荐系统搭建427
小结439
习题439
参考文献441
热门推荐
- 219625.html
- 3038794.html
- 3296027.html
- 1447121.html
- 1462773.html
- 1453699.html
- 3598679.html
- 3009486.html
- 475297.html
- 3265451.html
- http://www.ickdjs.cc/book_588358.html
- http://www.ickdjs.cc/book_1251912.html
- http://www.ickdjs.cc/book_1133772.html
- http://www.ickdjs.cc/book_1498668.html
- http://www.ickdjs.cc/book_3745264.html
- http://www.ickdjs.cc/book_2720801.html
- http://www.ickdjs.cc/book_3556813.html
- http://www.ickdjs.cc/book_3179252.html
- http://www.ickdjs.cc/book_850331.html
- http://www.ickdjs.cc/book_2313588.html