图书介绍

马尔可夫决策过程理论与应用2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

刘克，曹平编著著
出版社：北京：科学出版社
ISBN：9787030431233
出版时间：2015
标注页数：277页
文件大小：39MB
文件页数：291页
主题词：马尔柯夫决策

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：5581d1b2a5c3cf8918cf087c845d0d49

下载说明

马尔可夫决策过程理论与应用PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章引论1

1.1 序列决策模型1

1.2 马氏决策过程的例子3

1.3 马氏决策过程的定义与记号7

1.3.1 决策时刻与周期7

1.3.2 状态与行动集8

1.3.3 转移概率和报酬8

1.3.4 历史、决策规则与策略9

1.3.5 诱导过程、效用准则与马氏策略优势10

1.4 马氏决策过程的起源和发展14

1.5 问题16

第2章有限阶段模型17

2.1 最优准则17

2.2 有限阶段的策略迭代和最优方程18

2.3 最优策略的存在性和算法20

2.4 两个例子23

2.4.1 序贯分配问题23

2.4.2 秘书问题26

2.5 单调策略的最优性29

2.6 部分可观察的马氏决策过程33

2.6.1 有限状态和行动空间的部分可观察马氏决策过程34

2.6.2 算法42

2.7 问题44

第3章无限阶段折扣模型47

3.1 最优准则47

3.2 最优方程48

3.3 最优策略的存在性50

3.4 策略迭代算法54

3.5 值迭代算法57

3.6 改进的策略迭代算法63

3.7 线性规划算法64

3.8 可数状态与行动的模型67

3.8.1 无界报酬的情形67

3.8.2 有限状态逼近无限状态的情形70

3.8.3 设备维修的例子74

3.8.4 有限状态可数行动的情形78

3.9 最优单调策略80

3.10 最优策略的结构82

3.11 多臂赌博机问题83

3.12 问题88

第4章无限阶段平均模型91

4.1 最优准则91

4.2 最优平稳策略的存在性93

4.3 平稳策略一些特征94

4.4 最优方程与策略迭代算法103

4.5 单链时的情形107

4.5.1 最优方程解存在的条件108

4.5.2 值迭代算法109

4.5.3 单链MDPs的策略迭代算法及其改进114

4.5.4 单链MDPs的线性规划算法116

4.5.5 带约束模型和方差准则模型118

4.5.6 可数状态模型124

4.5.7 结构化最优策略127

4.6 多链时的情形130

4.6.1 线性规划算法131

4.6.2 平均准则下的Bellman最优原则133

4.7 问题136

第5章权重准则模型与概率准则模型138

5.1 折扣权重模型138

5.2 折扣与平均权重模型145

5.3 MDP的百分比与目标水平149

5.4 风险概率准则模型154

5.4.1 终达目标最小风险模型156

5.4.2 首达目标最小风险模型163

5.5 问题164

第6章连续时间与半马氏模型165

6.1 连续时间折扣MDP165

6.1.1 模型和策略的定义165

6.1.2 连续时间MDP的决策过程与折扣准则166

6.1.3 最优策略的存在性与结构168

6.1.4 转化为离散时间模型170

6.1.5 适用范围的推广171

6.2 连续时间平均MDP172

6.3 折扣半马氏模型175

6.4 平均半马氏模型180

6.5 服务率受控的一个排队模型182

6.6 问题184

第7章空集装箱调配问题185

7.1 单港口的问题与建模185

7.2 无限阶段折扣准则189

7.3 无限阶段平均准则191

7.4 数值例子193

7.5 多港口空集装箱的调配问题194

第8章人力资源模型199

8.1 问题199

8.2 数学模型200

8.2.1 状态空间201

8.2.2 决策时刻与行动集202

8.2.3 转移速率与转移概率202

8.2.4 费用与准则204

8.3 相关参数分析204

8.4 数例207

第9章软件测试的最优发布问题209

9.1 模型210

9.2 结构性质212

9.2.1 最优函数V＊（n，t）的性质212

9.2.2 最优策略的阈值结构215

9.3 数值仿真研究217

9.3.1 连续时间模型的离散逼近218

9.3.2 数值例子218

9.4 基本模型的一般化219

第10章大规模问题的近似算法220

10.1 大规模问题的挑战220

10.2 向前动态规划方法222

10.2.1 近似最优决策行为的选择222

10.2.2 随时间向前递推过程223

10.2.3 随机变量的抽样223

10.2.4 向前动态规划算法224

10.3 Q-learning和SARSA方法225

10.3.1 Q-learning方法225

10.3.2 SARSA方法227

10.4 实时动态规划方法227

10.5 逼近值迭代方法228

10.6 决策后状态方法230

10.6.1 寻找决策后状态变量230

10.6.2 决策后状态变量的例子231

10.6.3 决策后状态变量的最优方程235

10.6.4 决策后状态方程的逼近算法236

10.6.5 决策后状态与Q-learning237

10.7 探索和利用的问题238

10.8 近似线性规划方法240

10.9 策略近似算法243

10.10 总结245

参考文献248

索引260

习题解答263

《运筹与管理科学丛书》已出版书目277