Fundraising September 15, 2024 – October 1, 2024 About fundraising

强化学习原理及其应用

  • Main
  • 强化学习原理及其应用

强化学习原理及其应用

Pdg2Pic, 王雪松,朱美强,程玉虎著
How much do you like this book?
What’s the quality of the file?
Download the book for quality assessment
What’s the quality of the downloaded files?
1 (p1): 第1章 强化学习概述
2 (p1-1): 1.1 强化学习模型及其基本要素
2 (p1-1-1): 1.1.1 强化学习模型
3 (p1-1-2): 1.1.2 强化学习基本要素
5 (p1-2): 1.2 强化学习的发展历史
5 (p1-2-1): 1.2.1 试错学习
6 (p1-2-2): 1.2.2 动态规划与最优控制
7 (p1-2-3): 1.2.3 时间差分学习
7 (p1-3): 1.3 强化学习研究概述
8 (p1-3-1): 1.3.1 分层强化学习研究现状
10 (p1-3-2): 1.3.2 近似强化学习研究现状
15 (p1-3-3): 1.3.3 启发式回报函数设计研究现状
16 (p1-3-4): 1.3.4 探索和利用平衡研究现状
17 (p1-3-5): 1.3.5 基于谱图理论的强化学习研究现状
19 (p1-4): 1.4 强化学习方法的应用
19 (p1-4-1): 1.4.1 自适应优化控制中的应用
22 (p1-4-2): 1.4.2 调度管理中的应用
22 (p1-4-3): 1.4.3 人工智能问题求解中的应用
23 (p1-5): 1.5 本书主要内容及安排
25 (p1-6): 参考文献
41 (p2): 第2章 强化学习基础理论
41 (p2-1): 2.1 马尔科夫决策过程概述
41 (p2-1-1): 2.1.1 马尔科夫决策过程
42 (p2-1-2): 2.1.2 策略和值函数
44 (p2-2): 2.2 基于模型的动态规划方法
45 (p2-2-1): 2.2.1 线性规划
45 (p2-2-2): 2.2.2 策略迭代
46 (p2-2-3): 2.2.3 值迭代
47 (p2-2-4): 2.2.4 广义策略迭代
48 (p2-3): 2.3 模型未知的强化学习
48 (p2-3-1): 2.3.1 强化学习基础
49 (p2-3-2): 2.3.2 蒙特卡罗法
54 (p2-3-3): 2.3.3 时间差分TD法
56 (p2-3-4): 2.3.4 Q学习与SARSA学习
57 (p2-3-5): 2.3.5 Dyna学习框架
59 (p2-3-6): 2.3.6 直接策略方法
60 (p2-3-7): 2.3.7 Actor-Critic学习
61 (p2-4): 2.4 近似强化学习
61 (p2-4-1): 2.4.1 带值函数逼近的TD学习
63 (p2-4-2): 2.4.2 近似值迭代
65 (p2-4-3): 2.4.3 近似策略迭代
66 (p2-4-4): 2.4.4 最小二乘策略迭代
68 (p2-5): 2.5 本章小结
68 (p2-6): 参考文献
71 (p3): 第3章 基于支持向量机的强化学习
71 (p3-1): 3.1 支持向量机原理
72 (p3-1-1): 3.1.1 机器学习
73 (p3-1-2): 3.1.2 核学习
74 (p3-1-3): 3.1.3 SVM的思想
74 (p3-1-4): 3.1.4 SVM的重要概念
75 (p3-2): 3.2 基于半参数支持向量机的强化学习
76 (p3-2-1): 3.2.1 基于半参数回归模型的Q学习结构
78 (p3-2-2): 3.2.2 半参数回归模型的学习
79 (p3-2-3): 3.2.3 仿真研究
82 (p3-3): 3.3 基于概率型支持向量机的强化学习
82 (p3-3-1): 3.3.1 基于概率型支持向量机分类机的Q学习
83 (p3-3-2): 3.3.2 概率型支持向量分类机
85 (p3-3-3): 3.3.3 仿真研究
88 (p3-4): 3.4 本章小结
88 (p3-5): 参考文献
90 (p4): 第4章 基于状态-动作图测地高斯基的策略迭代强化学习
90 (p4-1): 4.1 强化学习中的基函数选择
91 (p4-2): 4.2 基于状态-动作图测地高斯基的策略迭代
92 (p4-2-1): 4.2.1 MDP的状态-动作空间图
93 (p4-2-2): 4.2.2 状态-动作图上测地高斯核
94 (p4-2-3): 4.2.3 基于状态-动作图测地高斯基的动作值函数逼近
95 (p4-3): 4.3 算法步骤
96 (p4-4): 4.4 仿真研究
104 (p4-5): 4.5 本章小结
104 (p4-6): 参考文献
106 (p5): 第5章 基于抽象状态的贝叶斯强化学习电梯群组调度
107 (p5-1): 5.1 电梯群组调度强化学习模型
108 (p5-2): 5.2 基于抽象状态的贝叶斯强化学习电梯群组调度
109 (p5-2-1): 5.2.1 状态空间抽象
110…
Year:
2014
Edition:
2014
Publisher:
北京:科学出版社
Language:
Chinese
ISBN 10:
7030406400
ISBN 13:
9787030406408
File:
PDF, 57.71 MB
IPFS:
CID , CID Blake2b
Chinese, 2014
Download (pdf, 57.71 MB)
Conversion to is in progress
Conversion to is failed

Most frequently terms