图书介绍

Python强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

Python强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习
  • (印度)苏达桑·拉维尚迪兰(SUDHARSANRAVICHANDIRAN)著;连晓峰等译 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111612889
  • 出版时间:2019
  • 标注页数:203页
  • 文件大小:72MB
  • 文件页数:216页
  • 主题词:软件工具-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Python强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 强化学习简介1

1.1什么是强化学习1

1.2强化学习算法2

1.3强化学习与其他机器学习范式的不同3

1.4强化学习的要素3

1.4.1智能体3

1.4.2策略函数3

1.4.3值函数4

1.4.4模型4

1.5智能体环境接口4

1.6强化学习的环境类型5

1.6.1确定性环境5

1.6.2随机性环境5

1.6.3完全可观测环境5

1.6.4部分可观测环境5

1.6.5离散环境5

1.6.6连续环境5

1.6.7情景和非情景环境5

1.6.8单智能体和多智能体环境6

1.7强化学习平台6

1.7.1 OpenAI Gym和Universe6

1.7.2 DeepMind Lab6

1.7.3 RL-Glue6

1.7.4 Project Malmo6

1.7.5 VizDoom6

1.8强化学习的应用7

1.8.1教育7

1.8.2医疗和健康7

1.8.3制造业7

1.8.4库存管理7

1.8.5金融7

1.8.6自然语言处理和计算机视觉7

1.9小结8

1.10问题8

1.11扩展阅读8

第2章从OpenAl和TensorFlow入门9

2.1计算机设置9

2.1.1安装Anaconda9

2.1.2安装Docker10

2.1.3安装OpenAI Gym和Universe11

2.2 OpenAl Gym13

2.2.1基本模拟13

2.2.2训练机器人行走14

2.3 OpenAl Universe16

2.3.1构建一个视频游戏机器人16

2.4 TensorFlow20

2.4.1变量、常量和占位符20

2.4.2计算图21

2.4.3会话21

2.4.4 TensorBoard22

2.5小结25

2.6问题25

2.7扩展阅读25

第3章 马尔可夫决策过程和动态规划26

3.1马尔可夫链和马尔可夫过程26

3.2 MDP27

3.2.1奖励和回报28

3.2.2情景和连续任务28

3.2.3折扣因数28

3.2.4策略函数29

3.2.5状态值函数29

3.2.6状态一行为值函数(Q函数)30

3.3 Bellman方程和最优性30

3.3.1推导值函数和Q函数的Bellman方程31

3.4求解Bellman方程32

3.4.1动态规划32

3.5求解冰冻湖问题38

3.5.1值迭代39

3.5.2策略迭代43

3.6小结45

3.7问题45

3.8扩展阅读46

第4章 基于蒙特卡罗方法的博弈游戏47

4.1蒙特卡罗方法47

4.1.1利用蒙特卡罗方法估计π值47

4.2蒙特卡罗预测50

4.2.1首次访问蒙特卡罗51

4.2.2每次访问蒙特卡罗52

4.2.3利用蒙特卡罗方法玩二十一点游戏52

4.3蒙特卡罗控制58

4.3.1蒙特卡罗探索开始58

4.3.2在线策略的蒙特卡罗控制59

4.3.3离线策略的蒙特卡罗控制61

4.4小结62

4.5问题62

4.6扩展阅读63

第5章 时间差分学习64

5.1时间差分学习64

5.2时间差分预测64

5.3时间差分控制66

5.3.1 Q学习66

5.3.2 SARSA72

5.4 Q学习和SARSA之间的区别77

5.5小结77

5.6问题78

5.7扩展阅读78

第6章MAB问题79

6.1 MAB问题79

6.1.1ε贪婪策略80

6.1.2 Softmax探索算法82

6.1.3 UCB算法83

6.1.4 Thompson采样算法85

6.2 MAB的应用86

6.3利用MAB识别正确的广告标识87

6.4上下文赌博机89

6.5小结89

6.6 问题89

6.7扩展阅读89

第7章 深度学习基础90

7.1人工神经元90

7.2 ANN91

7.2.1输入层92

7.2.2隐层92

7.2.3输出层92

7.2.4激活函数92

7.3深入分析ANN93

7.3.1梯度下降95

7.4 TensorFlow中的神经网络99

7.5 RNN101

7.5.1基于时间的反向传播103

7.6 LSTM RNN104

7.6.1利用LSTM RNN生成歌词105

7.7 CNN108

7.7.1卷积层109

7.7.2池化层111

7.7.3全连接层112

7.7.4 CNN架构112

7.8利用CNN对时尚产品进行分类113

7.9小结117

7.10问题117

7.11扩展阅读118

第8章 基于DQN的Atari游戏119

8.1什么是DQN119

8.2 DQN的架构120

8.2.1卷积网络120

8.2.2经验回放121

8.2.3目标网络121

8.2.4奖励裁剪122

8.2.5算法理解122

8.3构建一个智能体来玩Atari游戏122

8.4双DQN129

8.5优先经验回放130

8.6对抗网络体系结构130

8.7小结131

8.8问题132

8.9扩展阅读132

第9章 基于DRQN玩Doom游戏133

9.1 DRQN133

9.1.1 DRQN架构134

9.2训练一个玩Doom游戏的智能体135

9.2.1基本的Doom游戏135

9.2.2基于DRQN的Doom游戏136

9.3 DARQN145

9.3.1 DARQN架构145

9.4小结145

9.5问题146

9.6扩展阅读146

第10章A3C网络147

10.1 A3C147

10.1.1异步优势行为者147

10.1.2 A3C架构148

10.1.3 A3C的工作原理149

10.2基于A3C爬山149

10.2.1 TensorBoard中的可视化155

10.3小结158

10.4问题158

10.5扩展阅读158

第11章 策略梯度和优化159

11.1策略梯度159

11.1.1基于策略梯度的月球着陆器160

11.2 DDPG164

11.2.1倒立摆165

11.3 TRPO170

11.4 PPO173

11.5小结175

11.6问题175

11.7扩展阅读175

第12章Capstone项目——基于DQN的赛车游戏176

12.1环境封装函数176

12.2对抗网络179

12.3回放记忆180

12.4 训练网络181

12.5赛车游戏186

12.6小结189

12.7问题189

12.8扩展阅读189

第13章 最新进展和未来发展190

13.1 I2A190

13.2基于人类偏好的学习193

13.3 DQfd194

13.4 HER195

13.5 HRL196

13.5.1 MAXQ值函数分解196

13.6逆向强化学习198

13.7小结199

13.8问题199

13.9扩展阅读199

附录 知识点200

热门推荐