图书介绍

大数据分析原理与实践2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

王宏志编著著
出版社：北京：机械工业出版社
ISBN：9787111569435
出版时间：2017
标注页数：443页
文件大小：66MB
文件页数：461页
主题词：数据处理

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：38c7700d90bd73264a8ce099d03eae94

下载说明

大数据分析原理与实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章绪论1

1.1 什么是大数据1

1.2 哪里有大数据3

1.3 什么是大数据分析4

1.4 大数据分析的过程、技术与难点5

1.5 全书概览8

小结10

习题10

第2章大数据分析模型11

2.1 大数据分析模型建立方法11

2.2 基本统计量13

2.2.1 全表统计量14

2.2.2 皮尔森相关系数15

2.3 推断统计16

2.3.1 参数估计16

2.3.2 假设检验20

2.3.3 假设检验的阿里云实现23

小结28

习题28

第3章关联分析模型30

3.1 回归分析31

3.1.1 回归分析概述31

3.1.2 回归模型的拓展35

3.1.3 回归的阿里云实现43

3.2 关联规则分析52

3.3 相关分析54

小结57

习题58

第4章分类分析模型60

4.1 分类分析的定义60

4.2 判别分析的原理和方法61

4.2.1 距离判别法61

4.2.2 Fisher判别法64

4.2.3 贝叶斯判别法67

4.3 基于机器学习分类的模型71

4.3.1 支持向量机72

4.3.2 逻辑回归74

4.3.3 决策树与回归树75

4.3.4 k近邻78

4.3.5 随机森林78

4.3.6 朴素贝叶斯81

4.4 分类分析实例82

4.4.1 二分类实例82

4.4.2 多分类实例94

小结101

习题102

第5章聚类分析模型105

5.1 聚类分析的定义105

5.1.1 基于距离的亲疏关系度量105

5.1.2 基于相似系数的相似性度量108

5.1.3 个体与类以及类间的亲疏关系度量110

5.1.4 变量的选择与处理111

5.2 聚类分析的分类111

5.3 聚类有效性的评价112

5.4 聚类分析方法概述112

5.5 聚类分析的应用113

5.6 聚类分析的阿里云实现114

小结119

习题119

第6章结构分析模型122

6.1 最短路径122

6.2 链接排名123

6.3 结构计数125

6.4 结构聚类126

6.5 社团发现128

6.5.1 社团的定义128

6.5.2 社团的分类128

6.5.3 社团的用途128

6.5.4 社团的数学定义128

6.5.5 基于阿里云的社团发现130

小结132

习题133

第7章文本分析模型135

7.1 文本分析模型概述135

7.2 文本分析方法概述136

7.2.1 SplitWord136

7.2.2 词频统计137

7.2.3 TF-IDF138

7.2.4 PLDA140

7.2.5 Word2Vec147

小结148

习题149

第8章大数据分析的数据预处理150

8.1 数据抽样和过滤150

8.1.1 数据抽样150

8.1.2 数据过滤154

8.1.3 基于阿里云的抽样和过滤实现154

8.2 数据标准化与归一化157

8.3 数据清洗159

8.3.1 数据质量概述159

8.3.2 缺失值填充160

8.3.3 实体识别与真值发现162

8.3.4 错误发现与修复169

小结171

习题171

第9章降维173

9.1 特征工程173

9.1.1 特征工程概述173

9.1.2 特征变换175

9.1.3 特征选择178

9.1.4 特征重要性评估183

9.2 主成分分析191

9.2.1 什么是主成分分析191

9.2.2 主成分分析的计算过程192

9.2.3 基于阿里云的主成分分析194

9.2.4 主成分的表现度量195

9.3 因子分析196

9.3.1 因子分析概述196

9.3.2 因子分析的主要分析指标196

9.3.3 因子分析的计算方法197

9.4 压缩感知203

9.4.1 什么是压缩感知203

9.4.2 压缩感知的具体模型204

9.5 面向神经网络的降维205

9.5.1 面向神经网络的降维方法概述205

9.5.2 如何利用神经网络降维206

9.6 基于特征散列的维度缩减207

9.6.1 特征散列方法概述207

9.6.2 特征散列算法207

9.7 基于Lasso算法的降维208

9.7.1 Lasso方法简介208

9.7.2 Lasso方法209

9.7.3 Lasso算法的适用情景211

小结211

习题212

第10章面向大数据的数据仓库系统214

10.1 数据仓库概述214

10.1.1 数据仓库的基本概念214

10.1.2 数据仓库的内涵215

10.1.3 数据仓库的基本组成215

10.1.4 数据仓库系统的体系结构216

10.1.5 数据仓库的建立217

10.2 分布式数据仓库系统221

10.2.1 基于Hadoop的数据仓库系统221

10.2.2 Shark：基于Spark的数据仓库系统227

10.2.3 Mesa228

10.3 内存数据仓库系统231

10.3.1 SAPHANA231

10.3.2 HyPer234

10.4 阿里云数据仓库简介236

小结238

习题239

第11章大数据分析算法240

11.1 大数据分析算法概述240

11.2 回归算法242

11.3 关联规则挖掘算法248

11.4 分类算法255

11.4.1 二分类算法256

11.4.2 多分类算法273

11.5 聚类算法283

11.5.1 k-means算法283

11.5.2 CLARANS算法291

小结293

习题293

第12章大数据计算平台295

12.1 Spark295

12.1.1 Spark简介295

12.1.2 基于Spark的大数据分析实例296

12.2 Hyracks299

12.2.1 Hyracks简介299

12.2.2 基于Hyracks的大数据分析实例299

12.3 DPark305

12.3.1 DPark简介305

12.3.2 基于DPark的大数据分析实例306

12.4 HaLoop308

12.4.1 HaLoop简介308

12.4.2 基于HaLoop的大数据分析实例308

12.5 MaxCompute309

12.5.1 MaxCompute简介309

12.5.2 MaxCompute实战案例介绍310

12.5.3 基于MaxCompute的大数据分析实例316

12.5.4 MaxCompute的现状及前景320

小结321

习题321

第13章流式计算平台322

13.1 流式计算概述322

13.1.1 流式计算的定义322

13.1.2 流式计算的应用322

13.1.3 流式计算平台的发展324

13.2 Storm324

13.2.1 Storm简介324

13.2.2 Storm的结构325

13.2.3 基于Storm的大数据分析实例326

13.3 分布式流处理系统Samza331

13.3.1 Samza简介331

13.3.2 Samza的原理332

13.3.3 基于Samza的大数据分析实例334

13.4 CloudDataflow339

13.4.1 CloudDataflow简介339

13.4.2 CloudDataflow开发模型340

13.4.3 CloudDataflow的应用实例340

13.5 阿里云StreamCompute341

13.5.1 阿里云StreamCompute的原理341

13.5.2 基于StreamCompute的实时数据统计342

13.5 3订单统计实例347

小结348

习题349

第14章大图计算平台350

14.1 大图计算框架概述350

14.2 GraphLab350

14.2.1 GraphLab的计算模型350

14.2.2 基于GraphLab的大图分析实例351

14.3 Giraph353

14.3.1 Giraph简介353

14.3.2 Giraph的原理353

14.3.3 Giraph的应用354

14.3.4 基于Giraph的大图分析实例354

14.4 Neo4j358

14.4.1 Neo4j简介358

14.4.2 基于Noe4j的大图分析实例359

14.5 ApacheHama360

14.5.1 ApacheHama简介360

14.5.2 Apache Hama的结构361

14.5 3 Apache Hama的工作原理362

14.6 MaxCompute Graph363

14.6.1 MaxComputeGraph的原理363

14.6.2 MaxComputeGraph的使用与配置方法364

14.5.3 基于MaxCompute Graph的大图分析实例371

小结376

习题377

第15章社交网络378

15.1 为社交网络建模378

15.1.1 社交网络概述378

15.1.2 社交图378

15.2 社交网络的结构379

15.2.1 社交网络的统计学构成379

15.2.2 社交网络的群体形成381

15.3 基于社交网络语义分析的利益冲突发现382

15.4 社交网络中的社区发现384

15.4.1 动态社交网络中的社区识别框架384

15.4.2 基于经验比对算法的网络社区检测387

15.5 社交网络中的关联分析388

15.5.1 社交网络中的关系强度模型388

15.5.2 社交网络中“正向链接”与“负向链接”的预测391

15.6 社交网络中的影响力预测393

15.7 基于阿里云的社团发现实例396

小结403

习题403

第16章推荐系统405

16.1 推荐系统概述405

16.2 协同过滤408

16.2.1 协同过滤简介408

16.2.2 面向物品的协同过滤算法408

16.2.3 改进的最近邻法410

16.2.4 集成协同过滤方法412

16.3 基于用户评价的推荐413

16.4 基于人的推荐415

16.4.1 基于用户偏好学习的在线推荐415

16.4.2 混合推荐系统418

16.5 基于标记的推荐422

16.6 社交网络中的推荐423

16.6.1 基于信号的社交网络推荐423

16.6.2 基于在线主题的社交网络推荐425

16.7 基于阿里云的个性推荐系统搭建427

小结439

习题439

参考文献441