图书介绍

Hadoop海量数据处理 技术详解与项目实战2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

Hadoop海量数据处理 技术详解与项目实战
  • 范东来著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115380999
  • 出版时间:2015
  • 标注页数:318页
  • 文件大小:47MB
  • 文件页数:332页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop海量数据处理 技术详解与项目实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

基础篇:Hadoop基础2

第1章 绪论2

1.1 Hadoop和云计算2

1.1.1 Hadoop的电梯演讲2

1.1.2 Hadoop生态圈3

1.1.3 云计算的定义5

1.1.4 云计算的类型7

1.1.5 Hadoop和云计算8

1.2 Hadoop和大数据9

1.2.1 大数据的定义9

1.2.2 大数据的结构类型11

1.2.3 大数据行业应用实例12

1.2.4 Hadoop和大数据13

1.2.5 其他大数据处理平台15

1.3 数据挖掘和商业智能16

1.3.1 数据挖掘的定义16

1.3.2 数据仓库18

1.3.3 操作数据库系统和数据仓库系统的区别19

1.3.4 为什么需要分离的数据仓库19

1.3.5 商业智能20

1.3.6 大数据时代的商业智能21

第2章 环境准备23

2.1 Hadoop的发行版本选择23

2.1.1 Apache Hadoop23

2.1.2 CDH23

2.1.3 Hadoop的版本24

2.1.4 如何选择Hadoop的版本26

2.2 Hadoop架构27

2.2.1 Hadoop HDFS架构27

2.2.2 Hadoop MapReduce架构28

2.2.3 Hadoop架构29

2.3 安装Hadoop31

2.3.1 安装运行环境32

2.3.2 修改主机名和用户名37

2.3.3 配置静态IP地址38

2.3.4 配置SSH无密码连接39

2.3.5 安装JDK40

2.3.6 配置Hadoop41

2.3.7 格式化HDFS44

2.3.8 启动Hadoop并验证安装44

2.4 安装Hive46

2.4.1 安装元数据库46

2.4.2 修改Hive配置文件47

2.4.3 验证安装48

2.5 安装Sqoop48

2.6 Eclipse Hadoop插件的安装和使用49

2.6.1 安装并配置Eclipse Hadoop插件49

2.6.2 Eclipse插件的使用51

第3章 Hadoop的基石:HDFS53

3.1 认识HDFS53

3.1.1 HDFS的设计理念55

3.1.2 HDFS的架构55

3.1.3 HDFS容错59

3.2 HDFS读取文件和写入文件60

3.2.1 块的分布60

3.2.2 数据读取61

3.2.3 写入数据62

3.2.4 数据完整性64

3.3 如何访问HDFS65

3.3.1 命令行接口65

3.3.2 Java API68

3.3.3 其他常用的接口78

3.3.4 Web UI78

第4章 分而治之的智慧:MapReduce80

4.1 认识MapReduce80

4.1.1 MapReduce的编程思想80

4.1.2 MapReduce运行环境83

4.1.3 MapReduce作业和任务85

4.1.4 MapReduce的计算资源划分86

4.1.5 MapReduce的局限性87

4.2 Hello WordCount87

4.2.1 WordCount的设计思路87

4.2.2 编写WordCount88

4.2.3 运行程序91

4.2.4 还能更快吗92

4.3 MapReduce的过程93

4.3.1 从输入到输出94

4.3.2 input94

4.3.3 map及中间结果的输出96

4.3.4 shuffle98

4.3.5 reduce及最后结果的输出99

4.3.6 sort99

4.3.7 作业的进度组成100

4.4 MapReduce的工作机制101

4.4.1 作业提交101

4.4.2 作业初始化102

4.4.3 任务分配102

4.4.4 任务执行103

4.4.5 任务完成103

4.4.6 推测执行103

4.4.7 MapReduce容错104

4.5 MapReduce编程105

4.5.1 Writable类105

4.5.2 编写Writable类108

4.5.3 编写Mapper类109

4.5.4 编写Reducer类111

4.5.5 控制shuffle112

4.5.6 控制sort113

4.5.7 编写main函数115

4.6 MapReduce编程实例:连接116

4.6.1 设计思路116

4.6.2 编写Mapper类117

4.6.3 编写Reducer类118

4.6.4 编写main函数119

4.7 MapReduce编程实例:二次排序120

4.7.1 设计思路120

4.7.2 编写Mapper类121

4.7.3 编写Partitioner类121

4.7.4 编写SortComparator类122

4.7.5 编写Reducer类123

4.7.6 编写main函数123

4.8 MapReduce编程实例:全排序125

4.8.1 设计思路125

4.8.2 编写代码127

第5章 SQL on Hadoop:Hive129

5.1 认识Hive129

5.1.1 从MapReduce到SQL130

5.1.2 Hive架构132

5.1.3 Hive与关系型数据库的区别134

5.1.4 Hive命令的使用135

5.2 数据类型和存储格式137

5.2.1 基本数据类型137

5.2.2 复杂数据类型137

5.2.3 存储格式138

5.2.4 数据格式139

5.3 HQL:数据定义140

5.3.1 Hive中的数据库140

5.3.2 Hive中的表142

5.3.3 创建表142

5.3.4 管理表144

5.3.5 外部表144

5.3.6 分区表145

5.3.7 删除表147

5.3.8 修改表147

5.4 HQL:数据操作148

5.4.1 装载数据148

5.4.2 通过查询语句向表中插入数据149

5.4.3 利用动态分区向表中插入数据149

5.4.4 通过CTAS加载数据150

5.4.5 导出数据150

5.5 HQL:数据查询150

5.5.1 SELECT...FROM语句151

5.5.2 WHERE语句152

5.5.3 GROUP BY和HAVING语句153

5.5.4 JOIN语句153

5.5.5 ORDERBY和SORTBY语句156

5.5.6 DISTRIBUTE BY和SORT BY语句157

5.5.7 CLUSTER BY157

5.5.8 分桶和抽样157

5.5.9 UNION ALL158

5.6 Hive函数158

5.6.1 标准函数158

5.6.2 聚合函数158

5.6.3 表生成函数158

5.7 Hive用户自定义函数159

5.7.1 UDF159

5.7.2 UDAF159

5.7.3 UDTF161

5.7.4 运行163

第6章 SQL to Hadoop:Sqoop164

6.1 一个Sqoop示例164

6.2 导入过程166

6.3 导出过程168

6.4 Sqoop的使用169

6.4.1 codegen170

6.4.2 create-hive-table170

6.4.3 eval171

6.4.4 export171

6.4.5 help172

6.4.6 import172

6.4.7 import-all-tables173

6.4.8 iob174

6.4.9 list-databases174

6.4.10 list-tables175

6.4.11 merge175

6.4.12 metastore176

6.4.13 version176

第7章 Hadoop性能调优和运维177

7.1 Hadoop客户端177

7.2 Hadoop性能调优178

7.2.1 选择合适的硬件178

7.2.2 操作系统调优180

7.2.3 JVM调优181

7.2.4 Hadoop参数调优181

7.3 Hive性能调优187

7.3.1 JOIN优化187

7.3.2 Reducer的数量187

7.3.3 列裁剪187

7.3.4 分区裁剪188

7.3.5 GROUP BY优化188

7.3.6 合并小文件189

7.3.7 MULTI-GROUP BY和MULTI-INSERT189

7.3.8 利用UNION ALL特性190

7.3.9 并行执行190

7.3.10 全排序190

7.3.11 TopN191

7.4 Hadoop运维191

7.4.1 基础运维191

7.4.2 集群节点动态扩容和卸载192

7.4.3 利用SecondaryNameNode恢复NameNode193

7.4.4 常见的运维技巧194

7.4.5 常见的异常处理195

应用篇:商业智能系统项目实战198

第8章 在线图书销售商业智能系统198

8.1 项目背景198

8.2 功能需求199

8.2.1 并行数据导入199

8.2.2 数据清洗199

8.2.3 购书转化率分析200

8.2.4 购书用户聚类分析200

8.2.5 其他分析需求200

8.2.6 并行数据导出200

8.2.7 报表系统200

8.3 非功能需求200

8.3.1 性能需求200

8.3.2 可靠性需求和可用性需求201

8.3.3 容错性需求201

8.3.4 硬件需求201

8.3.5 扩展性需求201

第9章 系统结构设计202

9.1 系统架构202

9.1.1 数据源202

9.1.2 数据导入层202

9.1.3 数据存储层203

9.1.4 数据获取层203

9.1.5 数据管理层203

9.1.6 数据服务层204

9.1.7 数据应用层204

9.1.8 数据访问层204

9.2 功能设计204

9.3 数据仓库结构205

9.4 系统网络拓扑与硬件选型209

9.4.1 系统网络拓扑209

9.4.2 系统硬件选型210

9.5 技术选型211

9.5.1 平台选型211

9.5.2 系统开发语言选型212

第10章 在开发之前213

10.1 新建一个工程213

10.1.1 安装Python213

10.1.2 安装PyDev插件214

10.1.3 新建PyDev项目216

10.2 代码目录结构216

10.3 项目的环境变量217

10.4 如何调试218

第11章 实现数据导入导出模块219

11.1 处理流程219

11.2 导入方式220

11.2.1 全量导入220

11.2.2 增量导入221

11.3 读取配置文件221

11.4 SqoopUtil225

11.5 整合226

11.6 导入说明226

11.6 导入说明226

11.7 导出模块227

第12章 实现数据分析工具模块230

12.1 处理流程230

12.2 读取配置文件231

12.3 HiveUtil232

12.4 整合233

12.5 数据分析和报表233

12.5.1 OLAP和Hive233

12.5.2 OLAP和多维模型234

第13章 实现业务数据的数据清洗模块237

13.1 ETL237

13.1.1 数据抽取237

13.1.2 数据转换237

13.1.3 数据清洗工具238

13.2 处理流程238

13.3 数据去重239

13.3.1 产生原因239

13.3.2 去重方法240

13.3.3 一个很有用的UDF:RowNum240

13.3.4 第二种去重方法242

13.3.5 进行去重242

第14章 实现点击流日志的数据清洗模块246

14.1 数据仓库和Web246

14.2 处理流程248

14.3 字段的获取248

14.4 编写MapReduce作业250

14.4.1 编写IP地址解析器250

14.4.2 编写Mapper类254

14.4.3 编写Partitioner类257

14.4.4 编写SortComparator类258

14.4.5 编写Reducer类260

14.4.6 编写main函数261

14.4.7 通过Python调用jar文件262

14.5 还能做什么263

14.5.1 网站分析的指标263

14.5.2 网站分析的决策支持264

第15章 实现购书转化率分析模块265

15.1 漏斗模型265

15.2 处理流程266

15.3 读取配置文件268

15.4 提取所需数据269

15.5 编写转化率分析MapReduce作业269

15.5.1 编写Mapper类270

15.5.2 编写Partitioner类272

15.5.3 编写SortComparator类273

15.5.4 编写Reducer类274

15.5.5 编写Driver类276

15.5.6 通过Python模块调用jar文件278

15.6 对中间结果进行汇总得到最终结果279

15.7 整合280

第16章 实现购书用户聚类模块281

16.1 物以类聚281

16.2 聚类算法282

16.2.1 k-means算法283

16.2.2 Canopy算法284

16.2.3 数据向量化285

16.2.4 数据归一化286

16.2.5 相似性度量286

16.3 用MapReduce实现聚类算法288

16.3.1 Canopy算法与MapReduce288

16.3.2 k-means算法与MapReduce288

16.3.3 Apache Mahout289

16.4 处理流程289

16.5 提取数据并做归一化290

16.6 维度相关性292

16.6.1 维度的选取292

16.6.2 相关系数与相关系数矩阵293

16.6.3 计算相关系数矩阵294

16.7 使用Mahout完成聚类294

16.7.1 使用Mahout294

16.7.2 解析Mahout的输出297

16.7.3 得到聚类结果300

16.8 得到最终结果301

16.9 评估聚类结果302

16.9.1 一份不适合聚类的数据302

16.9.2 簇间距离和簇内距离303

16.9.3 计算平均簇间距离303

第17章 实现调度模块306

17.1 工作流306

17.2 编写代码307

17.3 crontab308

17.4 让数据说话308

结束篇:总结和展望312

第18章 总结和展望312

18.1 总结312

18.2 YARN和CDH5313

18.3 Apache Spark315

18.4 NoSQL和NewSQL316

18.4.1 NoSQL316

18.4.2 NewSQL317

参考文献318

热门推荐