开题报告提交版_高中生题库网|高考真题|高考试题-「密云二中」

bilingual是什么意思啊-心宽体胖的读音是什么

2020年10月25日发(作者：靳敬一)

摘要
强化学习是机器学习的一个重要分支，它是一种以环境反馈作为输入的，特
殊的、适应环境的学习。它将环境抽象成若干状态，通过不断试错强化而产生状
态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知，
因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢，因此如
何能够优化的建立环境模型，如何提高算法效率就成为强化学习面临的主要问题。
本次课题首先介绍强化学习的概念、建立系统模型，再介绍几种经典的强化学习
算法，接着介绍目前解决若干问题而提出的POMDP模型，PSR 模型、HRL模型，
最后就PSR模型进行算法改进。

关键词：强化学习；蒙特卡诺法；TD算法；Q学习；Sasar学习；POMDP模型；
PSR模型；HRL模型

强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的，在人工智能、机
器学习和自动控制等领域中得到广泛的研究和应用，并被认为是设计智能系统的核心技术之
一。
一．强化学习的理论基础：
1.强化学习问题的框架：
我们将有智能的学习体称为 agent，将系统分成若干个状态，每个状态S可以有不同
的动作选择，对应的每个选择也就有一个值函数Q（s,a）。Agent选择一个动作a作用于
环境，环境接收该动作后状态发生变化(S’)，同时产生一个强化信号r（奖赏）给agent，
agent根据这个奖赏评价刚才的动作的好坏进而修改该动作值，并选择下一动作a’。对于
一个强化学习系统来讲，其目标是学习一个行为策略：π：S- >A，使系统选择的动作能
够获得环境奖赏的累计值Σr最大。当一个动作导致环境给正的奖赏时这种动作的趋势
就被加强，反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射，以便使
奖励信号最大化。【10，11】
强化学习的框架如图：
新状态S’
环境
状态S
奖惩反馈r
强化学习系统
动作a

2.环境的描述：
通常，我们从五个角度对环境进行分析：【4】
角度一：离散状态vs连续状态
角度二：状态完全可感知vs状态部分可感知
角度三：插曲式vs非插曲式
角度四：确定性vs不确定性
角度五：静态vs动态
在强化学习中，我们首先考虑最简单的环境模型随机、离散状态、离散时间对其数
学建模。我们通常用马尔科夫模型：
马尔科夫状态：一个状态信号保留了所有的相关信息，则就是马儿科夫的。
马儿科夫决策过程（MDP）【2】： MDP的本质是：当状态向下一状态转移的概率
和奖赏值只取决于当前状态和选择的动作，而与历史状态和动作无关。强化学习主要研
究在P和R函数未知的情况下系统如何学习最优的行为策略。
用r
t+1
表示t时刻的即时奖赏【7】，用R t表示t时刻的累计奖赏，则Rt为t时刻开
始到最后的所有奖赏和，而越后续的动作对当前影响要比t 时刻奖赏逐渐减小，因此越
往后的奖赏加上了一个折扣γ，这样，t时刻的奖赏总和就是
R< br>t
=r
t+1
+γr
t+2
+γ
2
r
t+3
+…
=r
t+1
+γR
t+1
（1）

t时刻状态s的状态值（表示状态s如何优秀）用V(s)表示，它用t时刻选择各个
动作的奖赏的数学期望来表示。
V(s)=E{R
t
|s
t
=s}
=E{r
t+1
+γV(s
t+1
)|s
t
=s}
=
a
?
π(s,a)
?
P
ss
a
'
[R
ss'
?γ
V(s’)] （2）
as'π
ππ
π
π
注意到这里两式都是一个递推式，称为Bellman等式，写成这种形式非常便于从状
态s转换到s’时计算状态值。
强化学习问题是要寻求一个最优的策略
π
*，在上面的等式中表现为寻求状态值的
最优值，在不断学习强化的过程中对状态s获得一个最优值V*（s），它表示在状态s下
选取最优的那个动作而获得的最大的累计奖赏回报。因此在最优策略
π*
下，状态s的
最优值定义为：
*
V(s) =
max
E {r
t+1
+γV(s
t+1
)|s
t
=s}
a?A(s)
=
max
a?A(s)
a
?
P
ss
a
'
[R
ss'
?γ
V(s’)] （3）
s'
π
各种算法的最终目的便是计算各状态的最优值，并根据最优值去指导动作。

二．经典的强化学习算法回顾：
1. 动态规划算法【1】：
动态规划的思想，根据2式去不断由V(s’)估计V(s)的值,估计完成后下一次可以继
续选择最优的动作，这样迭代到一定程度后算法收敛，每个V(s)都会收敛到一个稳定
值，从而学习到一个最优的策略。

用公式表示为：
V
k+1
(s)=E{R
t
|s
t
=s}
=E{r
t+1
+γV(s
t+1
)|s
t
=s}
=
π
π
?
π(s,a)
?
P
as'
a
ss'
a
[R
ss'
?γ
V
k
(s’)] (4)

2. 蒙特卡诺算法：
在强化学习中，P 和R开始都是未知的，系统无法直接通过(4)式进行值函数的估计，
因此常常是是在完整的学习一次后才将学习中各步的奖赏累计用于计算经过的状态
的值函数估计。称为蒙特卡诺方法。如式（5），保持π 策略不变，在每次学习循环中
重复的使用（5）式，将（5）式逼近于（3）式。
V(s
t
)<-V(s
t
)+α[R
t
-V(s
t
)] (5)

3. TD算法：【13】
结合动态规划和蒙特卡诺算法，Sutton提出基于时间差分的TD算法，它在每一
步的学习中利用下式更新状态值：
V(s
t
)<-V(s
t
)+ α[r
t+1
+γV(s
t+1
)-V(s
t
)] (6)
TD法是一类专门用于预测问题的渐进学习过程，传统的学习预测方法是由预测
值和实际值之间的误差来修正参数的，而TD法是由相继预测间的误差值来完成的，
当随着时间的推移预测有变化时就进行学习。

三．强化学习面临的主要问题
我们上面讨论的强化学习模型是最简单的有限状态、离散状态、离散时间模型，而
实际应用中环境比这种模型复杂得多，尤其在状态数增多后经典的强化学习算法便会面
临维数灾难【12】，另外马尔科夫模型是假设所有状态都已经知道，而实际上在学习过
程中会出现新的未知状态，这时为非马尔科夫模型【6】……这些问题用经典的数学模< br>型状态将无法实现。目前强化学习的主要问题就是如何寻找新的数学模型，来实现环境
状态的未知和维数爆炸等问题。

四．当前强化学习研究动态
目前强化学习的研究主要集中在解决非马尔科夫模型和解决维数爆炸问题等.本文
着重介绍POMDP模型、HRL模型以及由POMDP模型衍生的PSR模型等。
1. 部分感知状态马尔科夫模型（POMDP）——解决非马尔科夫环境问题：
在经典马尔科夫模型上增加状态预测，并对每个状态设置一个信度b，用于表示该状
态的可信度，在决定动作时使用b作为依据，同时根据观察值进行状态预测，这样
很好的解决一些非马尔科夫模型。

环环o环环S环环a
环环环环
环环b
环环π

环环

2. 分层强化学习模型（HRL）——解决维数爆炸问题：
目前解决“维数灾难”问题方法大致有四种：状态聚类法【14】、有限策略空间
搜索法【15】、值函数近似法【16】、和分层强化学习【12】
分层强化学习是通过在强化学习的基础上增加“抽象”机制，把整体任务分解
为不同层次上的子任务，使每个子任务在规模较小的子空间中求解，并且求得的子
任务策略可以复用，从而加快问题的求解速度。

五．我的观点
无论是传统的马尔科夫模型还是最新的POMDP、HRL理论，并没有哪一个算法可
以适用于所有场合，它们都只是在某个特定的环境中有其特长。为此，我们的工作就是
分析每个算法的优缺点，通过比较了解各个算法的使用场合。

六．参考文献：
【1】 and . Reinforcement Learning[M]. London:MIT press
,1998.
【2】Kaelbling L P,Littman M L,Moore A W. Reinforcement Learning: A survey.
Journal of Artificial Intelligence Research,1996,4:237~285
【3】Sutton R S,Barto A G. Reinforcement Learning, Cambridge,MA:The MIT
Press,1998
【4】Gerhard Weiss. Multiagent Systems: A Modern Approach to
Distributed Artificial Intelligence. Cambridge,MA:The MIT Press,1999
【5】Tsitsiklis J N . Asynchronous stochastic approximation and Q-learning .
Machine Learning , 1994,16(3):185~202
【6】Lovejoy W S . A survey of algotithmic methods for partially observed Markov
decision processs. Annals of Operations Research, 1991,28:47~65
【7】王钰，周志华，周傲英. 机器学习及其应用. 北京：清华大学出版社,2006
【8】McCulloch W,Pitts W. A logical calculus of the ideas immanent in nervous
activity . Bulletin of Mathematical Biophysics,1943,5
【9】洪家荣.机器学习——回顾与展望. 计算机科学，1991，（02）：1-8
【10】张汝波. 强化学习理论及应用. 哈尔滨：哈尔滨工程大学出版社，2001
【11】高阳，陈世福，陆鑫. 强化学习研究综述.自动化学报. 2004,30(1):86-100

【12】Barto A G , Mahadevan S . Recent Advances in Hierarchical Reinforcement
Learning . Discrete Event Dynamic Systems: Theory and
Applications,2003,13(4):41-77
【13】Klopf A H. A neuronal model of classical conditioning. Psychobiology,
1988,16(2):85-125
【14】Singh S P, Jaakola T , Jordan M I . Reinforcement Learning with Soft State
Aggregation . Neural Information Processing System 7 ,Cambridge ,
Massachusetts: MIT Press, 1995:361-368
【15】Moriarty D , Schultz A , Grefenstette J. Evolutionary Algotithms for
Reinforment Learning. Journal of Artificial Intelligence Research,
1999,11(1):241-276
【16】Bertsekas D P, Tsitsiklis J N . Neuro-dynamic Programming Belmont: Athena
Scientific, 1996

本课题要研究或解决的问题和拟采用的研究手段（途径）：

本课题主要有三大任务：
一是学习强化学习的各种经典算法，比较各个算法的特征和使用场合。
二是学习POMDP、PSR、HRL几个新的数学模型。
三是提出创新，对于PSR模型提出算法创新。

对于第一个任务，主要是查阅文献，学习几种经典算法，并编程对算法进行比较。进行算法
比较时，主要考虑以下几方面：
1. 算法的收敛速度
2. 算法收敛后的稳定性
3. 算法在规模扩大后的泛化能力
4. 算法在不同环境下的适应能力
5. 改变算法的参数，考察参数对算法性能的影响。
采用的研究手段主要是进行横向比较和纵向比较
1.纵向比较：对于同一个问题，使用不同的算法，比较各算法的性能
2.横向比较：对于同一个问题同一个算法，改变算法的参数或问题规模或环境特征，
比较参数对算法的影响。

第二个任务，对于POMDP、PSR、HRL的模型学习，主要以阅读文献为主，通过查阅各种
资料总结几种模型的定义、基本框架。最后在论文中加以归纳。

第三个任务着重于创新性要求，本课题主要是针对PSR模型下算法的创新。通过学习PSR
下的各种算法，对算法提出改进点，并能验证改进的算法性能。

同、收回房屋：
转让或转借的;

1.承租人擅自将房屋转租、
租赁期共__年

房屋租赁合同

出租方（甲方）：XXX，男女，XXXX年XX月XX日出生，身份证号码XXXXXXXX

承租方（乙方）：XXX，男女，XXXX年XX月XX日出生，身份证号码XXXXXXXX

甲、乙双方就房屋租赁事宜，达成如下协议：

一、甲方将位于XX市XX街道XX小区X号楼XXXX号的房屋出租给乙方居住使用，租
赁期限自XX年XX月X X日至XX年XX月XX日，计X个月。

二、本房屋月租金为人民币XX元，按月季度年结算。每月月初每季季初每年年初
内，乙方向甲方支付全月季年租金。

三、乙方租赁期间，水费、电费、取暖费、燃气费、电话费、物业费以及其它由乙方居住而
产生的费用由乙方负担。租赁结束时，乙方须交清欠费。

四、乙方不得随意损坏房屋设施，如需装修或改造，需先征得甲方同意，并承担装修改造费
用。租赁结束时，乙方须将房屋设施恢复原状。

七、发生争议，甲、乙双方友好协商解决。协商不成时，提请由当地人民法院仲裁。

八、本合同连一式X份，甲、乙双方各执X份，自双方签字之日起生效。

甲方：

乙方：

日

X

青烟袅袅的意思-逃避英语

嫱怎么读-冰箱的英语怎么读

means怎么读-蓐怎么读

古代的意思-山字成语

熳怎么读-用人不疑疑人不用意思

捻翅虫-淋浴英语

ingest-三国演义读后感

supreme是什么意思-娩字怎么读

本文更新与2020-10-25 05:41，由作者提供，不代表本网站立场，转载请注明出处：https://www.bjmy2z.cn/gaokao/424733.html

返回列表：英语

上一篇：共享停车位项目商业计划书
下一篇：中央空调压缩机电机维修案例分析

当前您在：主页 > 英语 >

开题报告提交版

bilingual是什么意思啊-心宽体胖的读音是什么

青烟袅袅的意思-逃避英语

嫱怎么读-冰箱的英语怎么读

means怎么读-蓐怎么读

古代的意思-山字成语

熳怎么读-用人不疑疑人不用意思

捻翅虫-淋浴英语

ingest-三国演义读后感

supreme是什么意思-娩字怎么读

返回列表：英语

开题报告提交版的相关文章

爱心与尊严的高中作文题库

爱心与尊严高中作文题库

爱心与尊重的作文题库

爱心责任100字作文题库

爱心责任心的作文题库

爱心责任作文题库

爱心长在作文题库

爱心中国感恩励志作文题

爱心助考作文题库

爱心助农作文题库

爱心尊重宽容拒绝作文题

爱心尊重作文题库

爱心作文题库好段

爱心作文题库120字

爱心作文题库读者

爱心作文题库分论点

爱心作文题库简短

爱心作文有哪些题库

爱需要被尊重作文题库

爱需要传递200字作文题库

爱需要公平作文题库

爱需要行动作文800高中作

爱需要行动作文题库

爱需要交流与沟通作文题

当前您在： 主页 > 英语 >

bilingual是什么意思啊-心宽体胖的读音是什么

青烟袅袅的意思-逃避英语

嫱怎么读-冰箱的英语怎么读

means怎么读-蓐怎么读

古代的意思-山字成语

熳怎么读-用人不疑疑人不用意思

捻翅虫-淋浴英语

ingest-三国演义读后感

supreme是什么意思-娩字怎么读

开题报告提交版的相关文章

当前您在：主页 > 英语 >