图书介绍
大数据开发者权威教程 大数据技术与编程基础2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- Wrox国际IT认证项目组编;顾晨译 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115493507
- 出版时间:2018
- 标注页数:499页
- 文件大小:235MB
- 文件页数:521页
- 主题词:数据处理-教材
PDF下载
下载说明
大数据开发者权威教程 大数据技术与编程基础PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
模块1 大数据入门3
第1讲 大数据简介3
1.1 什么是大数据4
1.1.1 大数据的优势5
1.1.2 挖掘各种大数据源6
1.2 数据管理的历史——大数据的演化7
1.3 大数据的结构化9
1.4 大数据要素13
1.4.1 数据量13
1.4.2 速度14
1.4.3 多样性14
1.5 大数据在商务环境中的应用14
1.6 大数据行业中的职业机会16
1.6.1 职业机会17
1.6.2 所需技能17
1.6.3 大数据的未来19
练习20
备忘单22
第2讲 大数据在商业上的应用23
2.1 社交网络数据的重要性24
2.2 金融欺诈和大数据30
2.3 保险业的欺诈检测32
2.4 在零售业中应用大数据36
练习40
备忘单42
第3讲 处理大数据的技术43
3.1 大数据的分布式和并行计算44
3.1.1 并行计算技术46
3.1.2 虚拟化及其对大数据的重要性47
3.2 Hadoop简介47
3.3 云计算和大数据50
3.3.1 大数据计算的特性50
3.3.2 云部署模型51
3.3.3 云交付模型52
3.3.4 大数据云52
3.3.5 大数据云市场中的供应商53
3.3.6 使用云服务所存在的问题54
3.4 大数据内存计算技术54
练习56
备忘单58
第4讲 了解Hadoop生态系统59
4.1 Hadoop生态系统60
4.2 用HDFS存储数据61
4.2.1 HDFS架构62
4.2.2 HDFS的一些特殊功能65
4.3 利用Hadoop MapReduce处理数据65
4.3.1 MapReduce是如何工作的66
4.3.2 MapReduce的优点和缺点66
4.3.3 利用Hadoop YARN管理资源和应用67
4.4 利用HBase存储数据68
4.5 使用Hive查询大型数据库69
4.6 与Hadoop生态系统的交互70
4.6.1 Pig和Pig Latin70
4.6.2 Sqoop71
4.6.3 Zookeeper72
4.6.4 Flume72
4.6.5 Oozie73
练习74
备忘单76
第5讲 MapReduce基础77
5.1 MapReduce的起源78
5.2 MapReduce是如何工作的79
5.3 MapReduce作业的优化技术85
5.3.1 硬件/网络拓扑85
5.3.2 同步86
5.3.3 文件系统86
5.4 MapReduce的应用86
5.5 HBase在大数据处理中的角色87
5.6 利用Hive挖掘大数据89
练习91
备忘单94
模块2 管理大数据生态系统97
第1讲 大数据技术基础97
1.1 探索大数据栈98
1.2 冗余物理基础设施层99
1.2.1 物理冗余网络100
1.2.2 管理硬件:存储和服务器101
1.2.3 基础设施的操作101
1.3 安全基础设施层101
1.4 接口层以及与应用程序和互联网的双向反馈102
1.5 可操作数据库层103
1.6 组织数据服务层及工具104
1.7 分析数据仓库层105
1.8 分析层105
1.9 大数据应用层106
1.10 虚拟化和大数据107
1.11 虚拟化方法108
1.11.1 服务器虚拟化109
1.11.2 应用程序虚拟化109
1.11.3 网络虚拟化110
1.11.4 处理器和内存虚拟化110
1.11.5 数据和存储虚拟化111
1.11.6 用管理程序进行虚拟化管理111
1.11.7 抽象与虚拟化112
1.11.8 实施虚拟化来处理大数据112
练习114
备忘单116
第2讲 大数据管理系统——数据库和数据仓库117
2.1 RDBMS和大数据环境118
2.2 非关系型数据库119
2.2.1 键值数据库120
2.2.2 文档数据库122
2.2.3 列式数据库124
2.2.4 图数据库125
2.2.5 空间数据库127
2.3 混合持久化129
2.4 将大数据与传统数据仓库相集成130
2.4.1 优化数据仓库130
2.4.2 大数据结构与数据仓库的区别130
2.5 大数据分析和数据仓库132
2.6 改变大数据时代的部署模式134
2.6.1 设备模型134
2.6.2 云模型135
练习136
备忘单138
第3讲 分析与大数据139
3.1 使用大数据以获取结果140
3.1.1 基本分析142
3.1.2 高级分析143
3.1.3 可操作性分析144
3.1.4 货币化分析145
3.2 是什么构成了大数据145
3.2.1 构成大数据的数据145
3.2.2 大数据分析算法146
3.2.3 大数据基础设施支持146
3.3 探索非结构化数据148
3.4 理解文本分析149
3.4.1 分析和提取技术150
3.4.2 理解提取的信息151
3.4.3 分类法152
3.4.4 将结果与结构化数据放在一起153
3.5 建立新的模式和方法以支持大数据156
3.5.1 大数据分析的特征156
3.5.2 大数据分析的应用157
3.5.3 大数据分析框架的特性161
练习163
备忘单165
第4讲 整合数据、实时数据和实施大数据168
4.1 大数据分析的各个阶段169
4.1.1 探索阶段170
4.1.2 编纂阶段171
4.1.3 整合和合并阶段171
4.2 大数据集成的基础173
4.2.1 传统ETL174
4.2.2 ELT——提取、加载和转换175
4.2.3 优先处理大数据质量175
4.2.4 数据性能分析工具176
4.2.5 将Hadoop用作ETL177
4.3 流数据和复杂的事件处理177
4.3.1 流数据178
4.3.2 复杂事件处理181
4.3.3 区分CEP和流182
4.3.4 流数据和CEP对业务的影响183
4.4 使大数据成为运营流程的一部分183
4.5 了解大数据的工作流186
4.6 确保大数据有效性、准确性和时效性187
4.6.1 数据的有效性和准确性187
4.6.2 数据的时效性187
练习189
备忘单191
第5讲 大数据解决方案和动态数据192
5.1 大数据作为企业战略工具193
5.1.1 阶段1:利用数据做计划193
5.1.2 阶段2:执行分析194
5.1.3 阶段3:检查结果194
5.1.4 阶段4:根据计划行事194
5.2 实时分析:把新的维度添加到周期194
5.2.1 阶段5:实时监控195
5.2.2 阶段6:调整影响195
5.2.3 阶段7:实验195
5.3 对动态数据的需求196
5.4 案例1:针对环境影响使用流数据198
5.4.1 这是怎么做到的198
5.4.2 利用传感器提供实时信息198
5.4.3 利用实时数据进行研究199
5.5 案例2:为了公共政策使用大数据199
5.5.1 问题200
5.5.2 使用流数据200
5.6 案例3:在医疗保健行业使用流数据200
5.6.1 问题201
5.6.2 使用流数据201
5.7 案例4:在能源行业使用流数据201
5.7.1 利用流数据提高能源效率201
5.7.2 流数据的使用推进了可替代能源的生产202
5.8 案例5:用实时文本分析提高客户体验202
5.9 案例6:在金融业使用实时数据203
5.9.1 保险204
5.9.2 银行204
5.9.3 信用卡公司204
5.10 案例7:使用实时数据防止保险欺诈205
练习207
备忘单210
模块3 存储和处理数据:HDFS和MapReduce213
第1讲 在Hadoop中存储数据213
1.1 HDFS214
1.1.1 HDFS的架构214
1.1.2 使用HDFS文件218
1.1.3 Hadoop特有的文件类型220
1.1.4 HDFS联盟和高可用性224
1.2 HBase226
1.2.1 HBase的架构226
1.2.2 HBase模式设计准则231
1.3 HBase编程232
1.4 为有效的数据存储结合HDFS和HBase237
1.5 为应用程序选择恰当的Hadoop数据组织237
1.5.1 数据被MapReduce独占访问时237
1.5.2 创建新数据时238
1.5.3 数据尺寸太大时238
1.5.4 数据用于实时访问时238
练习239
备忘单241
第2讲 利用MapReduce 处理数据242
2.1 开始了解MapReduce243
2.1.1 MapReduce框架243
2.1.2 MapReduce执行管道244
2.1.3 MapReduce的运行协调和任务管理247
2.2 第一个MapReduce应用程序249
2.3 设计MapReduce的实现257
2.3.1 使用MapReduce作为并行处理的框架258
2.3.2 MapReduce的简单数据处理259
2.3.3 构建与MapReduce的连接260
2.3.4 构建迭代的MapReduce应用程序264
2.3.5 用还是不用MapReduce268
2.3.6 常见的MapReduce设计提示269
练习271
备忘单274
第3讲 自定义MapReduce执行275
3.1 用InputFormat控制MapReduce的执行276
3.1.1 为计算密集型应用程序实施InputFormat277
3.1.2 实现InputFormat控制map的数量282
3.1.3 为多HBase表实现InputFormat287
3.2 用你自定义RecordReader的方式读取数据290
3.3 用自定义OutputFormat组织输出数据292
3.4 自定义Record Writer以你的方式写数据293
3.5 利用结合器优化MapReduce执行295
3.6 用分区器来控制reducer的执行298
练习299
备忘单302
第4讲 测试和调试MapReduce应用程序303
4.1 MapReduce应用程序的单元测试304
4.1.1 测试mapper306
4.1.2 测试reducer307
4.1.3 集成测试308
4.2 用Eclipse进行本地程序测试310
4.3 利用日志文件做Hadoop测试312
4.4 利用工作计数器进行报表度量316
4.5 在MapReduce中的防御式编程318
练习320
备忘单322
第5讲 实现MapReduce WordCount程序——案例学习323
5.1 背景324
5.1.1 句子层级的情感分析325
5.1.2 情感词法采集325
5.1.3 文档级别的情感分析325
5.1.4 比较情感分析325
5.1.5 基于外观的情感分析326
5.2 场景326
5.3 数据解释326
5.4 方法论326
5.5 方法327
模块4 利用Hadoop工具Hive、Pig和Oozie提升效率343
第1讲 探索Hive343
1.1 介绍Hive344
1.1.1 Hive数据单元345
1.1.2 Hive架构346
1.1.3 Hive元数据存储347
1.2 启动Hive347
1.2.1 Hive命令行界面348
1.2.2 Hive变量349
1.2.3 Hive属性349
1.2.4 Hive一次性命令349
1.3 执行来自文件的Hive查询350
1.3.1 shell执行350
1.3.2 Hadoop dfs命令350
1.3.3 Hive中的注释351
1.4 数据类型351
1.4.1 基本数据类型352
1.4.2 复杂数据类型354
1.4.3 Hive内置运算符355
1.5 Hive内置函数356
1.6 压缩的数据存储358
1.7 Hive数据定义语言359
1.7.1 管理Hive中的数据库359
1.7.2 管理Hive中的表360
1.8 Hive中的数据操作364
1.8.1 将数据载入Hive表364
1.8.2 将数据插入表365
1.8.3 插入至本地文件367
练习368
备忘单370
第2讲 高级Hive查询371
2.1 HiveQL查询372
2.1.1 SELECT查询372
2.1.2 LIMIT子句373
2.1.3 嵌入查询373
2.1.4 CASE...WHEN...THEN373
2.1.5 LIKE和RLIKE373
2.1.6 GROUP BY374
2.1.7 HAVING374
2.2 使用函数操作列值374
2.2.1 内置函数374
2.2.2 用户定义函数375
2.3 Hive中的连接376
2.3.1 内连接376
2.3.2 外连接377
2.3.3 笛卡儿积连接378
2.3.4 Map侧的连接379
2.3.5 ORDER BY379
2.3.6 UNION ALL379
2.4 Hive的最佳实践380
2.4.1 使用分区380
2.4.2 规范化381
2.4.3 有效使用单次扫描381
2.4.4 桶的使用381
2.5 性能调优和查询优化382
2.5.1 EXPLAIN命令383
2.5.2 LIMIT调优387
2.6 各种执行类型387
2.6.1 本地执行387
2.6.2 并行执行387
2.6.3 索引388
2.6.4 预测执行388
2.7 Hive文件和记录格式388
2.7.1 文本文件388
2.7.2 序列文件389
2.7.3 RCFile389
2.7.4 记录格式(SerDe)390
2.7.5 Regex SerDe390
2.7.6 Avro SerDe391
2.7.7 JSON SerDe392
2.8 HiveThrift服务393
2.8.1 启动HiveThrift服务器393
2.8.2 使用JDBC的样例HiveThri客户端393
2.9 Hive中的安全395
2.9.1 认证395
2.9.2 授权395
练习397
备忘单400
第3讲 用Pig分析数据402
3.1 介绍Pig403
3.1.1 Pig架构403
3.1.2 Pig Latin的优势404
3.2 安装Pig405
3.2.1 安装Pig所需条件405
3.2.2 下载Pig405
3.2.3 构建Pig库406
3.3 Pig的属性406
3.4 运行Pig407
3.5 Pig Latin应用程序流408
3.6 开始利用Pig Latin409
3.6.1 Pig Latin结构410
3.6.2 Pig数据类型411
3.6.3 Pig语法412
3.7 Pig脚本接口413
3.8 Pig Latin的脚本415
3.8.1 用户定义函数415
3.8.2 参数替代418
3.9 Pig中的关系型操作419
3.9.1 FOREACH419
3.9.2 FILTER420
3.9.3 GROUP421
3.9.4 ORDER BY422
3.9.5 DISTINCT423
3.9.6 JOIN424
3.9.7 LIMIT425
3.9.8 SAMPLE426
练习427
备忘单430
第4讲 Oozie 对数据处理进行自动化431
4.1 开始了解Oozie432
4.2 Oozie工作流433
4.2.1 在Oozie工作流中执行异步活动436
4.2.2 实现Oozie工作流437
4.3 Oozie协调器443
4.4 Oozie套件448
4.5 利用EL的Oozie参数化451
4.5.1 工作流函数451
4.5.2 协调器函数452
4.5.3 套件函数452
4.5.4 其他EL函数452
4.6 Oozie作业执行模型452
4.7 访问Oozie455
4.8 Oozie SLA456
练习460
备忘单462
第5讲 使用Oozie464
5.1 业务场景:使用探测包验证关于位置的信息465
5.2 根据探测包设计位置验证466
5.3 设计Oozie工作流467
5.4 实现Oozie工作流应用程序469
5.4.1 实现数据准备工作流469
5.4.2 实现考勤指数和集群簇的工作流477
5.5 实现工作流的活动479
5.5.1 从java行为中填充执行上下文479
5.5.2 在Oozie工作流中使用MapReduce作业480
5.6 实现Oozie协调器应用程序483
5.7 实现Oozie套件应用程序488
5.8 部署、测试和执行Oozie应用程序489
5.8.1 使用Oozie CLI执行Oozie应用程序490
5.8.2 将参数传递给Oozie作业493
5.8.3 决定如何将参数传递给Oozie作业495
练习497
备忘单499
热门推荐
- 3139009.html
- 3503293.html
- 1569464.html
- 314634.html
- 1348345.html
- 3548014.html
- 2720028.html
- 1315032.html
- 355203.html
- 3151722.html
- http://www.ickdjs.cc/book_3870617.html
- http://www.ickdjs.cc/book_1951632.html
- http://www.ickdjs.cc/book_1859464.html
- http://www.ickdjs.cc/book_3069554.html
- http://www.ickdjs.cc/book_3777921.html
- http://www.ickdjs.cc/book_1310586.html
- http://www.ickdjs.cc/book_1703322.html
- http://www.ickdjs.cc/book_215874.html
- http://www.ickdjs.cc/book_2738336.html
- http://www.ickdjs.cc/book_3855457.html