图书介绍
随机学习与优化 基于灵敏度的方法 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (美)曹希仁著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302242925
- 出版时间:2011
- 标注页数:433页
- 文件大小:89MB
- 文件页数:456页
- 主题词:自动控制理论-教材
PDF下载
下载说明
随机学习与优化 基于灵敏度的方法 第2版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
1引言1
1.1学习和优化概述1
1.1.1问题描述1
1.1.2最优策略4
1.1.3学习和优化的基本局限9
1.1.4学习和优化的基于灵敏度的观点12
1.2不同学科中问题的描述14
1.2.1摄动分析(PA)15
1.2.2马尔可夫决策过程19
1.2.3强化学习22
1.2.4辨识和自适应控制24
1.2.5基于事件的优化和性能势集结26
1.3学习和优化学科关系图29
1.4术语和符号30
习题31
第1部分 学习与优化的四门学科37
2摄动分析37
2.1马尔可夫链的摄动分析37
2.1.1构造摄动样本路径39
2.1.2摄动实现因子和性能势42
2.1.3性能导数公式47
2.1.4折扣报酬准则的梯度49
2.1.5高阶导数和麦克劳林级数54
2.2马尔可夫过程的性能灵敏度61
2.3半马尔可夫过程的性能灵敏度66
2.3.1半马尔可夫过程的基础知识66
2.3.2性能灵敏度公式70
2.4排队系统的摄动分析75
2.4.1构造摄动样本路径78
2.4.2摄动实现85
2.4.3性能导数90
2.4.4相关理论问题的评注92
2.5其他方法96
习题100
3利用摄动分析的学习与优化107
3.1性能势107
3.1.1数值方法108
3.1.2从样本路径学习性能势110
3.1.3耦合115
3.2性能梯度118
3.2.1通过性能势估计118
3.2.2直接学习119
3.3利用摄动分析的优化126
3.3.1梯度方法和随机逼近126
3.3.2利用长样本路径的优化128
3.3.3应用129
习题129
4马尔可夫决策过程134
4.1遍历链135
4.1.1策略迭代136
4.1.2偏差最优性140
4.1.3折扣报酬马尔可夫决策过程147
4.2多链148
4.2.1策略迭代150
4.2.2偏差最优性158
4.2.3折扣报酬马尔可夫决策过程166
4.3 n阶偏差优化问题168
4.3.1 n阶偏差差分公式168
4.3.2最优性方程171
4.3.3策略迭代177
4.3.4 n阶偏差最优策略空间180
习题182
5基于样本路径的策略迭代187
5.1研究动机188
5.2收敛性190
5.2.1性能势估计值的收敛性191
5.2.2再生期数目固定的样本路径192
5.2.3长度增加的样本路径198
5.3“快”算法206
5.3.1有限个周期后终止的算法206
5.3.2采用随机逼近209
习题210
6强化学习213
6.1随机逼近214
6.1.1用迭代寻找函数的零点214
6.1.2估计均值219
6.2瞬时差分方法220
6.2.1估计性能势的瞬时差分方法220
6.2.2 Q-因子和其他扩展228
6.2.3性能导数的瞬时差分方法232
6.3瞬时差分方法和性能优化235
6.3.1基于摄动分析的优化235
6.3.2 Q-学习238
6.3.3乐观的在线策略迭代241
6.3.4值迭代243
6.4学习和优化方法总结244
习题247
7从马尔可夫决策过程到自适应控制252
7.1控制问题与马尔可夫决策过程253
7.1.1建模为马尔可夫决策过程的控制系统253
7.1.2两种方法的比较255
7.2连续状态空间的马尔可夫决策过程261
7.2.1连续空间的算子261
7.2.2性能势和策略迭代265
7.3线性控制系统和Riccati方程268
7.3.1线性二次问题268
7.3.2跳变线性二次问题273
7.4在线优化和自适应控制277
7.4.1离散化和估计278
7.4.2讨论282
习题283
第2部分 基于事件的优化——一种新方法289
8基于事件的马尔可夫系统的优化289
8.1概述290
8.1.1前面章节的总结290
8.1.2基于事件的方法概述291
8.2与马尔可夫链相关的事件296
8.2.1事件与事件空间298
8.2.2事件的概率300
8.2.3通过示例说明基本思想303
8.2.4三类事件的分类306
8.3基于事件的优化309
8.3.1问题描述309
8.3.2性能差分公式311
8.3.3性能导数公式314
8.3.4优化318
8.4学习:估计集结性能势320
8.4.1集结性能势320
8.4.2基于事件优化的集结性能势323
8.5应用与示例324
8.5.1制造系统324
8.5.2服务速率控制328
8.5.3一般应用332
习题333
9构造灵敏度公式340
9.1研究动机340
9.2同一个状态空间上的马尔可夫链341
9.3基于事件的系统347
9.3.1样本路径的构造347
9.3.2参数化系统:一个例子349
9.4不同状态空间上的马尔可夫链351
9.4.1一个状态空间是另一个的子空间351
9.4.2更一般的例子358
9.5小结361
习题362
第3部分 附录:数学基础367
A概率论与马尔可夫过程367
A.1概率论367
A.2马尔可夫过程372
习题377
B随机矩阵379
B.1规范形379
B.2特征值380
B.3极限矩阵382
习题386
C排队论388
C.1单服务台队列388
C.2排队网络392
C.3一些有用的技巧400
习题402
参考文献405
索引421
译者后记426
专家及读者评论427
热门推荐
- 3070715.html
- 320731.html
- 1900902.html
- 808371.html
- 3229671.html
- 3589086.html
- 3566311.html
- 1912405.html
- 1940428.html
- 74308.html
- http://www.ickdjs.cc/book_58913.html
- http://www.ickdjs.cc/book_744254.html
- http://www.ickdjs.cc/book_1678300.html
- http://www.ickdjs.cc/book_2736727.html
- http://www.ickdjs.cc/book_115897.html
- http://www.ickdjs.cc/book_3350972.html
- http://www.ickdjs.cc/book_2503247.html
- http://www.ickdjs.cc/book_3392826.html
- http://www.ickdjs.cc/book_3224029.html
- http://www.ickdjs.cc/book_1264776.html