图书介绍

大数据技术基础2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

大数据技术基础
  • 薛志东主编;吕泽华,陈长清,黄浩副主编 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115483072
  • 出版时间:2018
  • 标注页数:304页
  • 文件大小:48MB
  • 文件页数:319页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据技术基础PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据概述1

1.1 大数据的相关概念2

1.2 大数据处理的基础技术4

1.2.1 大数据处理流程4

1.2.2 分布式计算5

1.2.3 分布式文件系统6

1.2.4 分布式数据库7

1.2.5 数据库与数据仓库8

1.2.6 云计算与虚拟化技术8

1.2.7 虚拟化产品介绍9

1.3 流行的大数据技术12

1.4 大数据解决方案17

1.5 大数据发展现状和趋势19

1.5.1 大数据现状分析19

1.5.2 大数据发展趋势21

1.6 教学建议及教辅资料22

习题23

第2章 大数据软件基础24

2.1 Linux基础25

2.1.1 Linux简介25

2.1.2 Linux基本操作25

2.1.3 网络配置管理29

2.1.4 其他常用网络命令32

2.2 Java基础34

2.2.1 面向对象与泛型34

2.2.2 集合类36

2.2.3 内部类与匿名类37

2.2.4 反射38

2.3 SQL语言基础39

2.4 在VirtualBox上安装Linux集群41

2.4.1 master节点的安装41

2.4.2 配置Virtualbox网络及虚拟机网卡49

2.4.3 slave节点的安装与配置51

2.4.4 Java环境的安装51

2.4.5 MySQL服务52

2.4.6 SSH免密钥登录53

2.4.7 配置时钟同步55

习题56

第3章 大数据存储技术57

3.1 理解HDFS分布式文件系统58

3.1.1 HDFS简介58

3.1.2 HDFS的体系结构59

3.1.3 HDFS中的数据流62

3.2 NoSQL数据库66

3.2.1 键值数据库Redis66

3.2.2 列存储数据库HBase68

3.2.3 文档数据库MongoDB71

3.2.4 图数据库Neo4j73

3.3 Hadoop的安装与配置74

3.3.1 Hadoop的配置部署75

3.3.2 启动Hadoop集群79

3.4 HDFS文件管理82

3.4.1 命令行访问HDFS82

3.4.2 使用Java API访问HDFS84

3.5 HBase的安装与配置88

3.5.1 解压并安装HBase88

3.5.2 配置HBase88

3.6 HBase的使用91

3.6.1 HBase-shell91

3.6.2 Java API94

习题96

第4章 MapReduce分布式编程97

4.1 MapReduce编程概述98

4.2 MapReduce编程示例98

4.2.1 词频统计程序示例99

4.2.2 MapReduce编译与运行101

4.3 深入理解MapReduce程序的运行过程102

4.4 MapReduce任务调度框架104

4.4.1 经典MapReduce任务调度模型104

4.4.2 YARN框架原理及运行机制105

4.5 MapReduce的数据类型与输入/输出格式107

4.5.1 MapReduce的数据类型107

4.5.2 MapReduce的文件输入/输出格式107

4.6 MapReduce编程实例111

4.6.1 视频类型统计111

4.6.2 查询TOP10用户上传的视频列表113

习题118

第5章 数据采集与预处理119

5.1 流数据采集工具Flume120

5.1.1 Flume的安装121

5.1.2 Flume的配置与运行122

5.1.3 Flume源124

5.1.4 Flume槽127

5.1.5 通道、拦截器与处理器129

5.2 数据传输工具Sqoop130

5.2.1 Sqoop的安装131

5.2.2 Sqoop的配置与运行131

5.2.3 Sqoop实例132

5.2.4 Sqoop导入过程135

5.2.5 Sqoop导出过程136

5.3 数据接入工具Kafka136

5.3.1 Kafka的安装与配置138

5.3.2 Kafka消息生产者140

5.3.3 Kafka消息消费者140

5.3.4 Kafka核心特性141

习题142

第6章 数据仓库与联机分析处理143

6.1 数据仓库144

6.1.1 数据仓库的概念144

6.1.2 数据仓库与操作性数据库的区别144

6.1.3 数据仓库的体系结构145

6.2 多维数据模型146

6.2.1 数据立方体146

6.2.2 数据模型147

6.2.3 多维数据模型中的OLAP操作150

6.3 Hive153

6.3.1 Hive简介153

6.3.2 Hive的安装与配置154

6.3.3 Hive使用156

6.3.4 Hive导入数据实例161

6.4 Kylin164

6.4.1 Kylin简介164

6.4.2 Kylin的安装与配置165

6.4.3 Kylin的使用168

6.5 Superset175

6.5.1 Superset简介175

6.5.2 Superset的安装与配置175

6.5.3 Superset的使用177

习题186

第7章 大数据分析与挖掘技术187

7.1 概述188

7.1.1 数据挖掘简介188

7.1.2 Mahout的安装与配置189

7.2 推荐192

7.2.1 推荐的定义与评估192

7.2.2 Mahout中的常见推荐算法194

7.2.3 对GroupLens数据集进行推荐与评价196

7.3 聚类198

7.3.1 聚类的基本概念198

7.3.2 常见的Mahout数据结构199

7.3.3 几种聚类算法200

7.3.4 聚类应用实例202

7.4 分类206

7.4.1 分类的基本概念206

7.4.2 Mahout中一些常见的训练分类器算法208

7.4.3 应用实例:使用SGD训练分类器对新闻分类210

习题213

第8章 Spark分布式内存计算框架214

8.1 Spark简介215

8.2 Spark的编程模型216

8.2.1 核心数据结构RDD216

8.2.2 RDD上的操作216

8.2.3 RDD的持久化218

8.2.4 RDD计算工作流218

8.3 Spark的调度机制219

8.3.1 Spark分布式架构219

8.3.2 Spark应用执行流程220

8.3.3 Spark调度与任务分配222

8.4 Spark应用案例225

8.4.1 Spark Shell225

8.4.2 单词计数227

8.4.3 统计用户的视频上传数229

8.4.4 查询Top100用户的上传视频列表230

8.5 Spark生态圈其他技术233

8.5.1 Spark SQL233

8.5.2 Spark Streaming235

8.5.3 MLlib236

8.5.4 GraphX242

8.6 Zeppelin:交互式分析Spark数据243

8.6.1 Zeppelin简介243

8.6.2 安装和启动244

8.6.3 在Zeppelin中处理YouTube数据244

习题246

第9章 数据可视化技术247

9.1 数据可视化概述248

9.2 数据可视化工具249

9.2.1 桌面可视化技术249

9.2.2 OLAP可视化工具251

9.2.3 Web可视化技术251

9.3 可视化组件与ECharts示例253

9.3.1 ECharts使用准备253

9.3.2 ECharts示例254

9.4 与大数据平台集成268

9.4.1 获取对Hive数据库的连接268

9.4.2 通过Java调用Hive提供的API操作数据269

9.4.3 将数据提交到Web页面进行数据可视化271

习题272

第10章 大数据安全273

10.1 大数据安全的挑战与对策274

10.1.1 大数据安全与隐私的挑战274

10.1.2 数据加密技术275

10.1.3 大数据安全保障体系275

10.1.4 华为大数据安全解决方案276

10.2 基础设施安全277

10.2.1 认证技术278

10.2.2 访问控制279

10.2.3 公钥基础设施281

10.2.4 华为大数据平台281

10.3 数据管理安全285

10.3.1 数据溯源285

10.3.2 数字水印285

10.3.3 策略管理287

10.3.4 完整性保护287

10.3.5 数据脱敏288

10.4 安全分析290

10.4.1 大数据安全分析架构290

10.4.2 大数据防DDoS攻击292

10.4.3 攻击可视化与安全业务定制297

10.5 隐私保护298

10.5.1 隐私保护面临的挑战298

10.5.2 内容关联密钥298

10.5.3 华为大数据隐私保护方案300

习题302

附录 《大数据技术基础》配套实验课程方案简介303

参考文献304

热门推荐