图书介绍

并行编程方法与优化实践2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

刘文志著著
出版社：北京：机械工业出版社
ISBN：9787111501947
出版时间：2015
标注页数：216页
文件大小：92MB
文件页数：230页
主题词：并行算法－算法设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：dc73a80fb3129456e4acbf42cacdff31

下载说明

并行编程方法与优化实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章 X86SSE/AVX指令集1

1.1 SSE内置函数2

1.1.1 算术运算2

1.1.2 逻辑运算5

1.1.3 比较5

1.1.4 加载和存储6

1.2 AVX内置函数8

1.2.1 算术运算8

1.2.2 逻辑运算10

1.2.3 比较10

1.2.4 加载和存储10

1.3 优化实例及分析11

1.3.1 如何测得CPU的浮点峰值性能11

1.3.2 积分计算圆周率π14

1.3.3 稀疏矩阵向量乘法16

1.3.4 二维单通道图像离散卷积19

1.4 本章小结22

第2章 ARMNEONSIMD指令优化23

2.1 NEON指令集综述23

2.2 ARMA15处理器性能25

2.3 NEON支持的操作25

2.3.1 基本算术运算26

2.3.2 基本比较运算28

2.3.3 基本数据类型转换及舍入运算29

2.3.4 基本位运算30

2.3.5 基本逻辑运算30

2.3.6 基本设置加载存储操作31

2.3.7 特殊操作32

2.4 应用实例33

2.4.1 彩色图像转灰度图像33

2.4.2 矩阵转置37

2.4.3 矩阵乘39

2.5 本章小结42

第3章 OpenMP程序设计43

3.1 OpenMP编程模型44

3.1.1 OpenMP执行模型44

3.1.2 OpenMP存储器模型45

3.2 环境变量46

3.3 函数46

3.3.1 普通函数47

3.3.2 锁函数48

3.4 OpenMP编译制导语句49

3.4.1 常用的OpenMP构造49

3.4.2 常用的OpenMP子句59

3.5 OpenMP异构并行计算65

3.6 OpenMP程序优化66

3.6.1 OpenMP程序优化准则66

3.6.2 OpenMP并行优化实例67

3.7 本章小结71

第4章基于GPU的异构并行计算环境：CUDA与OpenCL72

4.1 GPU计算概述73

4.1.1 GPU计算历史75

4.1.2 CUDA概述76

4.1.3 OpenCL概述77

4.2 异构并行计算模型78

4.2.1 平台模型79

4.2.2 执行模型80

4.2.3 存储器模型83

4.2.4 编程模型85

4.3 C语言接口86

4.3.1 OpenCL C语言86

4.3.2 CUDA C语言108

4.4 基于GPU的异构并行计算性能优化122

4.4.1 总体优化准则123

4.4.2 全局存储器优化125

4.4.3 合并访问125

4.4.4 局部存储器127

4.4.5 存储体冲突127

4.4.6 常量存储器优化128

4.4.7 CUDA纹理存储器优化129

4.4.8 寄存器及私有存储器优化130

4.4.9 工作组数目及大小131

4.4.10 占用率132

4.4.11 指令优化133

4.4.12 分支优化133

4.4.13 数据传输优化134

4.5 GPU与CPU精度差别136

4.6 矩阵转置137

4.6.1 初次实现137

4.6.2 满足合并访问的实现137

4.6.3 没有存储体冲突的实现138

4.7 矩阵乘法139

4.7.1 初次实现140

4.7.2 矩阵分块实现140

4.8 本章小结141

第5章 OpenACC143

5.1 OpenACC编程模型143

5.1.1 执行模型144

5.1.2 存储器模型145

5.2 编译制导语句146

5.2.1 kernels构造147

5.2.2 parallel构造147

5.2.3 线程配置相关子句148

5.2.4 data构造148

5.2.5 loop构造150

5.2.6 atomic构造151

5.2.7 dtype子句151

5.2.8 reduction子句152

5.2.9 变量可见性子句152

5.2.10 if子句152

5.2.11 async和wait153

5.3 OpenACC和CUDA协作153

5.3.1 CUDA使用OpenACC生产的数据153

5.3.2 OpenACC使用CUDA生产的数据155

5.4 两小时性能提升10倍156

5.5 本章小结158

第6章多核向量处理器架构及OpenCL程序映射159

6.1 多核向量处理器架构159

6.1.1 Intel Haswell CPU架构160

6.1.2 ARMA15多核向量处理器架构163

6.1.3 AMDGCNGPU架构164

6.1.4 NVIDIAKepler和MaxwellGPU架构166

6.2 OpenCL程序在多核向量处理器上的映射170

6.2.1 OpenCL程序在多核向量CPU上的映射170

6.2.2 OpenCL程序在NVIDIA GPU上的映射171

6.2.3 OpenCL程序在AMD GCN上的映射174

6.3 本章小结177

第7章利用多种技术优化图像处理中的算法性能178

7.1 图像滤波178

7.1.1 均值滤波178

7.1.2 中值滤波184

7.2 图像直方图189

7.2.1 OpenMP实现189

7.2.2 CUDA实现190

7.3 曼德勃罗集195

7.3.1 串行算法195

7.3.2 不适合进行向量化196

7.3.3 OpenMP实现196

7.3.4 CUDA实现197

7.4 本章小结197

第8章利用多种技术优化线性代数中的算法性能198

8.1 两向量距离198

8.1.1 串行代码198

8.1.2 循环展开代码199

8.1.3 AVX指令加速200

8.1.4 NEON实现201

8.1.5 CUDA实现203

8.2 稠密矩阵与向量乘法205

8.2.1 串行算法205

8.2.2 AVX指令加速205

8.2.3 NEON实现207

8.2.4 CUDA实现208

8.2.5 OpenMP实现214

8.3 本章小结216