图书介绍

大数据实时计算与应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

大数据实时计算与应用
  • 吴斌主编 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302503217
  • 出版时间:2018
  • 标注页数:180页
  • 文件大小:27MB
  • 文件页数:192页
  • 主题词:数据处理软件-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据实时计算与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 分布式实时计算系统1

1.1 分布式的概念1

1.1.1 分布式系统1

1.1.2 分布式计算1

1.2 分布式通信1

1.2.1 分布式通信基础1

1.2.2 消息队列2

1.2.3 Storm计算模型3

1.3 分布式实时计算系统架构4

1.3.1 数据获取——Kafka4

1.3.2 数据处理——Storm4

1.3.3 数据存储——HBase5

1.4 系统架构5

本章小结6

习题6

第2章 初识Kafka7

2.1 什么是Kafka7

2.1.1 Kafka概述7

2.1.2 使用场景7

2.1.3 Kafka基本特性8

2.1.4 性能8

2.1.5 总结9

2.1.6 Kafka在LinkedIn中的应用9

2.2 Topics和logs10

2.3 分布式——consumers和producers11

本章小结12

习题12

第3章 Kafka环境搭建13

3.1 服务器搭建13

3.2 开发环境搭建15

本章小结19

习题19

第4章 Kafka消息传送20

4.1 消息传输的事务定义20

4.2 性能优化21

4.2.1 消息集21

4.2.2 数据压缩22

4.3 生产者和消费者22

4.3.1 Kafka生产者的消息发送22

4.3.2 Kafka consumer22

4.4 主从同步24

4.5 客户端API25

4.5.1 Kafka producer API25

4.5.2 Kafka consumer API26

4.6 消息和日志27

本章小结30

习题30

第5章 Zookeeper开发31

5.1 Zookeeper的来源31

5.2 Zookeeper基础33

5.2.1 基本概念33

5.2.2 Zookeeper架构34

5.3 Zookeeper的API35

5.3.1 建立会话35

5.3.2 管理权36

5.3.3 节点注册39

5.3.4 任务队列化40

5.4 状态变化处理43

5.5 故障处理44

5.6 Zookeeper集群管理46

5.6.1 集群配置46

5.6.2 集群管理47

本章小结48

习题48

第6章 初识HBase50

6.1 什么是HBase50

6.1.1 大数据的背景50

6.1.2 HBase架构50

6.1.3 HBase存储API52

6.2 HBase部署53

6.2.1 HBase配置及安装53

6.2.2 运行模式56

6.2.3 集群操作56

本章小结58

习题58

第7章 HBase基础操作59

7.1 CRUD操作59

7.1.1 Put操作59

7.1.2 Get操作62

7.1.3 Delete操作64

7.2 批处理操作67

7.3 行锁69

7.4 扫描70

7.5 其他操作73

7.5.1 HTable方法73

7.5.2 Bytes方法73

本章小结74

习题74

第8章 HBase高阶特性75

8.1 过滤器75

8.1.1 什么是过滤器75

8.1.2 比较过滤器76

8.1.3 专用过滤器78

8.1.4 附加过滤器81

8.2 计数器85

8.2.1 什么是计数器85

8.2.2 单计数器及多计数器86

8.3 协处理器88

8.3.1 什么是协处理器88

8.3.2 协处理器API应用88

本章小结90

习题90

第9章 管理HBase92

9.1 HBase数据描述92

9.1.1 表92

9.1.2 列簇92

9.1.3 属性93

9.2 表管理API94

9.2.1 基础操作94

9.2.2 集群管理97

本章小结102

习题102

第10章 初识Storm103

10.1 什么是Storm103

10.1.1 Storm能做什么103

10.1.2 Storm的特性103

10.1.3 Storm分布式计算结构105

10.2 构建topology105

10.2.1 Storm的基本概念105

10.2.2 构建topology106

10.2.3 示例:单词计数106

10.3 Storm并发机制111

10.3.1 topology并发机制112

10.3.2 给topology增加Worker112

10.3.3 配置Executor和task112

10.4 数据流分组的理解115

10.5 消息的可靠处理117

10.5.1 消息被处理后会发生什么118

10.5.2 Storm可靠性的实现方法123

10.5.3 调整可靠性125

本章小结125

习题126

第11章 配置 Storm集群127

11.1 Storm集群框架介绍127

11.1.1 理解nimbus守护进程127

11.1.2 supervisor守护进程的工作方式128

11.1.3 DRPC服务工作机制128

11.1.4 Storm的UI简介129

11.2 在Linux上安装Storm129

11.2.1 搭建Zookeeper集群130

11.2.2 安装Storm依赖库130

11.2.3 下载并解压Storm发布版本131

11.2.4 修改storm.yaml配置文件131

11.2.5 启动Storm后台进程132

11.3 将topology提交到集群上132

本章小结133

习题133

第12章 Trident和Trident-ML134

12.1 Trident topology134

12.1.1 Trident综述134

12.1.2 Reach137

12.1.3 字段和元组139

12.1.4 状态140

12.1.5 Trident topology的执行140

12.2 Trident接口141

12.2.1 综述141

12.2.2 本地分区操作142

12.2.3 重新分区操作146

12.2.4 群聚操作146

12.2.5 流分组操作146

12.2.6 合并和连接147

12.3 Trident状态148

12.3.1 事务spouts149

12.3.2 透明事务spouts150

12.3.3 非事务spouts151

12.3.4 Spout和State总结151

12.3.5 State应用接口151

12.3.6 MapState的更新154

12.3.7 执行MapState155

12.4 Trident-ML:基于storm的实时在线机器学习库155

本章小结160

习题160

第13章 DRPC模式161

13.1 DRPC概述161

13.2 DRPC自动化组件162

13.3 本地模式DRPC163

13.4 远程模式DRPC163

13.5 一个更复杂的例子164

本章小结165

习题165

第14章 Storm实战166

14.1 网站页面浏览量计算166

14.1.1 背景介绍166

14.1.2 体系结构166

14.1.3 项目相关介绍166

14.1.4 Storm编码实现167

14.1.5 运行topology174

14.2 网站用户访问量计算175

14.2.1 背景介绍175

14.2.2 Storm代码实现175

14.2.3 运行topology179

本章小结179

习题179

参考文献180

热门推荐