图书介绍

随机学习与优化基于灵敏度的方法第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

（美）曹希仁著著
出版社：北京：清华大学出版社
ISBN：9787302242925
出版时间：2011
标注页数：433页
文件大小：89MB
文件页数：456页
主题词：自动控制理论－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：b73903f90a345e1d0b9cffaac29b2c3b

下载说明

随机学习与优化基于灵敏度的方法第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

1引言1

1.1学习和优化概述1

1.1.1问题描述1

1.1.2最优策略4

1.1.3学习和优化的基本局限9

1.1.4学习和优化的基于灵敏度的观点12

1.2不同学科中问题的描述14

1.2.1摄动分析（PA）15

1.2.2马尔可夫决策过程19

1.2.3强化学习22

1.2.4辨识和自适应控制24

1.2.5基于事件的优化和性能势集结26

1.3学习和优化学科关系图29

1.4术语和符号30

习题31

第1部分学习与优化的四门学科37

2摄动分析37

2.1马尔可夫链的摄动分析37

2.1.1构造摄动样本路径39

2.1.2摄动实现因子和性能势42

2.1.3性能导数公式47

2.1.4折扣报酬准则的梯度49

2.1.5高阶导数和麦克劳林级数54

2.2马尔可夫过程的性能灵敏度61

2.3半马尔可夫过程的性能灵敏度66

2.3.1半马尔可夫过程的基础知识66

2.3.2性能灵敏度公式70

2.4排队系统的摄动分析75

2.4.1构造摄动样本路径78

2.4.2摄动实现85

2.4.3性能导数90

2.4.4相关理论问题的评注92

2.5其他方法96

习题100

3利用摄动分析的学习与优化107

3.1性能势107

3.1.1数值方法108

3.1.2从样本路径学习性能势110

3.1.3耦合115

3.2性能梯度118

3.2.1通过性能势估计118

3.2.2直接学习119

3.3利用摄动分析的优化126

3.3.1梯度方法和随机逼近126

3.3.2利用长样本路径的优化128

3.3.3应用129

习题129

4马尔可夫决策过程134

4.1遍历链135

4.1.1策略迭代136

4.1.2偏差最优性140

4.1.3折扣报酬马尔可夫决策过程147

4.2多链148

4.2.1策略迭代150

4.2.2偏差最优性158

4.2.3折扣报酬马尔可夫决策过程166

4.3 n阶偏差优化问题168

4.3.1 n阶偏差差分公式168

4.3.2最优性方程171

4.3.3策略迭代177

4.3.4 n阶偏差最优策略空间180

习题182

5基于样本路径的策略迭代187

5.1研究动机188

5.2收敛性190

5.2.1性能势估计值的收敛性191

5.2.2再生期数目固定的样本路径192

5.2.3长度增加的样本路径198

5.3“快”算法206

5.3.1有限个周期后终止的算法206

5.3.2采用随机逼近209

习题210

6强化学习213

6.1随机逼近214

6.1.1用迭代寻找函数的零点214

6.1.2估计均值219

6.2瞬时差分方法220

6.2.1估计性能势的瞬时差分方法220

6.2.2 Q-因子和其他扩展228

6.2.3性能导数的瞬时差分方法232

6.3瞬时差分方法和性能优化235

6.3.1基于摄动分析的优化235

6.3.2 Q-学习238

6.3.3乐观的在线策略迭代241

6.3.4值迭代243

6.4学习和优化方法总结244

习题247

7从马尔可夫决策过程到自适应控制252

7.1控制问题与马尔可夫决策过程253

7.1.1建模为马尔可夫决策过程的控制系统253

7.1.2两种方法的比较255

7.2连续状态空间的马尔可夫决策过程261

7.2.1连续空间的算子261

7.2.2性能势和策略迭代265

7.3线性控制系统和Riccati方程268

7.3.1线性二次问题268

7.3.2跳变线性二次问题273

7.4在线优化和自适应控制277

7.4.1离散化和估计278

7.4.2讨论282

习题283

第2部分基于事件的优化——一种新方法289

8基于事件的马尔可夫系统的优化289

8.1概述290

8.1.1前面章节的总结290

8.1.2基于事件的方法概述291

8.2与马尔可夫链相关的事件296

8.2.1事件与事件空间298

8.2.2事件的概率300

8.2.3通过示例说明基本思想303

8.2.4三类事件的分类306

8.3基于事件的优化309

8.3.1问题描述309

8.3.2性能差分公式311

8.3.3性能导数公式314

8.3.4优化318

8.4学习：估计集结性能势320

8.4.1集结性能势320

8.4.2基于事件优化的集结性能势323

8.5应用与示例324

8.5.1制造系统324

8.5.2服务速率控制328

8.5.3一般应用332

习题333

9构造灵敏度公式340

9.1研究动机340

9.2同一个状态空间上的马尔可夫链341

9.3基于事件的系统347

9.3.1样本路径的构造347

9.3.2参数化系统：一个例子349

9.4不同状态空间上的马尔可夫链351

9.4.1一个状态空间是另一个的子空间351

9.4.2更一般的例子358

9.5小结361

习题362

第3部分附录：数学基础367

A概率论与马尔可夫过程367

A.1概率论367

A.2马尔可夫过程372

习题377

B随机矩阵379

B.1规范形379

B.2特征值380

B.3极限矩阵382

习题386

C排队论388

C.1单服务台队列388

C.2排队网络392

C.3一些有用的技巧400

习题402

参考文献405

索引421

译者后记426

专家及读者评论427

图书介绍

随机学习与优化 基于灵敏度的方法 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

PDF下载

下载说明

随机学习与优化 基于灵敏度的方法 第2版PDF格式电子书版下载

图书目录

热门推荐

随机学习与优化基于灵敏度的方法第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

随机学习与优化基于灵敏度的方法第2版PDF格式电子书版下载