关键词不能为空

当前您在: 主页 > 英语 >

开题报告提交版

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2020-10-25 05:41
tags:hrl

bilingual是什么意思啊-心宽体胖的读音是什么

2020年10月25日发(作者:靳敬一)





摘要
强化学习是机器学习的一个重要分支,它是一种 以环境反馈作为输入的,特
殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生 状
态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,
因此很难以用 数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如
何能够优化的建立环境模型,如何提高 算法效率就成为强化学习面临的主要问题。
本次课题首先介绍强化学习的概念、建立系统模型,再介绍几 种经典的强化学习
算法,接着介绍目前解决若干问题而提出的POMDP模型,PSR 模型、HRL模型,
最后就PSR模型进行算法改进。

关键词:强化学习;蒙特卡 诺法;TD算法;Q学习;Sasar学习;POMDP模型;
PSR模型 ;HRL模型


强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的,在人工智能、机
器学习和自动控制等领域中得到广泛的研究和应用,并被认为是设计智能系统的核心技术之
一。
一.强化学习的理论基础:
1.强化学习问题的框架:
我们将有智能的学习体称为 agent,将系统分成若干个状态,每个状态S可以有不同
的动作选择,对应的每个选择也就有一个值 函数Q(s,a)。Agent选择一个动作a作用于
环境,环境接收该动作后状态发生变化(S’), 同时产生一个强化信号r(奖赏)给agent,
agent根据这个奖赏评价刚才的动作的好坏进而修 改该动作值,并选择下一动作a’。对于
一个强化学习系统来讲,其目标是学习一个行为策略:π:S- >A,使系统选择的动作能
够获得环境奖赏的累计值Σr最大。当一个动作导致环境给正的奖赏时这种动 作的趋势
就被加强,反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射,以便使
奖励信号最大化。【10,11】
强化学习的框架如图:
新状态S’
环境
状态S
奖惩反馈r
强化学习系统
动作a





2.环境的描述:
通常,我们从五个角度对环境进行分析:【4】
角度一:离散状态vs连续状态
角度二:状态完全可感知vs状态部分可感知
角度三:插曲式vs非插曲式
角度四:确定性vs不确定性
角度五:静态vs动态
在强化学习中,我们首先考虑 最简单的环境模型随机、离散状态、离散时间对其数
学建模。我们通常用马尔科夫模型:
马尔科夫状态:一个状态信号保留了所有的相关信息,则就是马儿科夫的。
马儿科夫决策过程(MDP)【2】: MDP的本质是:当状态向下一状态转移的概率
和奖赏 值只取决于当前状态和选择的动作,而与历史状态和动作无关。强化学习主要研
究在P和R函数未知的情 况下系统如何学习最优的行为策略。
用r
t+1
表示t时刻的即时奖赏【7】,用R t表示t时刻的累计奖赏,则Rt为t时刻开
始到最后的所有奖赏和,而越后续的动作对当前影响要比t 时刻奖赏逐渐减小,因此越
往后的奖赏加上了一个折扣γ,这样,t时刻的奖赏总和就是
R< br>t
=r
t+1
+γr
t+2

2
r
t+3
+…
=r
t+1
+γR
t+1
(1)

t时刻状态s的状态值(表示状态s如何优秀)用V(s)表示,它用t时刻 选择各个
动作的奖赏的数学期望来表示。
V(s)=E{R
t
|s
t
=s}
=E{r
t+1
+γV(s
t+1
)|s
t
=s}
=
a
?
π(s,a)
?
P
ss
a
'
[R
ss'

V(s’)] (2)
as'π
ππ
π
π
注意到这里两式都是一个递推式,称为Bellman等式, 写成这种形式非常便于从状
态s转换到s’时计算状态值。
强化学习问题是要寻求一个最优的 策略
π
*,在上面的等式中表现为寻求状态值的
最优值,在不断学习强化的过程中对状 态s获得一个最优值V*(s),它表示在状态s下
选取最优的那个动作而获得的最大的累计奖赏回报。 因此在最优策略
π*
下,状态s的
最优值定义为:
*
V(s) =
max
E {r
t+1
+γV(s
t+1
)|s
t
=s}
a?A(s)
=
max
a?A(s)
a
?
P
ss
a
'
[R
ss'

V(s’)] (3)
s'
π
各种算法的最终目的便是计算各状态的最优值,并根据最优值去指导动作。

二. 经典的强化学习算法回顾:
1. 动态规划算法【1】:
动态 规划的思想,根据2式去不断由V(s’)估计V(s)的值,估计完成后下一次可以继
续选择最优的动 作,这样迭代到一定程度后算法收敛,每个V(s)都会收敛到一个稳定
值,从而学习到一个最优的策略 。




用公式表示为:
V
k+1
(s)=E{R
t
|s
t
=s}
=E{r
t+1
+γV(s
t+1
)|s
t
=s}
=
π
π
?
π(s,a)
?
P
as'
a
ss'
a
[R
ss'

V
k
(s’)] (4)

2. 蒙特卡诺算法:
在强化学习中,P 和R开始都是未知的,系统无法直接通过(4)式进行值函数的估计,
因此常常是是在完整的学习一次后 才将学习中各步的奖赏累计用于计算经过的状态
的值函数估计。称为蒙特卡诺方法。如式(5),保持π 策略不变,在每次学习循环中
重复的使用(5)式,将(5)式逼近于(3)式。
V(s
t
)<-V(s
t
)+α[R
t
-V(s
t
)] (5)

3. TD算法:【13】
结合动态规划和蒙 特卡诺算法,Sutton提出基于时间差分的TD算法,它在每一
步的学习中利用下式更新状态值:
V(s
t
)<-V(s
t
)+ α[r
t+1
+γV(s
t+1
)-V(s
t
)] (6)
TD法是一类专门用于预测问题的渐进学习过程,传统的学习预测方法是由预测
值和实 际值之间的误差来修正参数的,而TD法是由相继预测间的误差值来完成的,
当随着时间的推移预测有变 化时就进行学习。

三.强化学习面临的主要问题
我们上面讨论的强化学习模型是 最简单的有限状态、离散状态、离散时间模型,而
实际应用中环境比这种模型复杂得多,尤其在状态数增 多后经典的强化学习算法便会面
临维数灾难【12】,另外马尔科夫模型是假设所有状态都已经知道,而 实际上在学习过
程中会出现新的未知状态,这时为非马尔科夫模型【6】……这些问题用经典的数学模< br>型状态将无法实现。目前强化学习的主要问题就是如何寻找新的数学模型,来实现环境
状态的未知 和维数爆炸等问题。

四.当前强化学习研究动态
目前强化学习 的研究主要集中在解决非马尔科夫模型和解决维数爆炸问题等.本文
着重介绍POMDP模型、HRL模 型以及由POMDP模型衍生的PSR模型等。
1. 部分感知状态马尔科夫模型(POMDP)——解决非马尔科夫环境问题:
在经典马尔科夫模型上增加 状态预测,并对每个状态设置一个信度b,用于表示该状
态的可信度,在决定动作时使用b作为依据,同 时根据观察值进行状态预测,这样
很好的解决一些非马尔科夫模型。





环环o环环S环环a
环环环环
环环b
环环π

环环

2. 分层强化学习模型(HRL)——解决维数爆炸问题:
目前 解决“维数灾难”问题方法大致有四种:状态聚类法【14】、有限策略空间
搜索法【15】、值函数近 似法【16】、和分层强化学习【12】
分层强化学习是通过在强化学习的基础上增加“抽象”机制, 把整体任务分解
为不同层次上的子任务,使每个子任务在规模较小的子空间中求解,并且求得的子
任务策略可以复用,从而加快问题的求解速度。

五.我的观点
无论是 传统的马尔科夫模型还是最新的POMDP、HRL理论,并没有哪一个算法可
以适用于所有场合,它们 都只是在某个特定的环境中有其特长。为此,我们的工作就是
分析每个算法的优缺点,通过比较了解各个 算法的使用场合。

六.参考文献:
【1】 and . Reinforcement Learning[M]. London:MIT press
,1998.
【2】Kaelbling L P,Littman M L,Moore A W. Reinforcement Learning: A survey.
Journal of Artificial Intelligence Research,1996,4:237~285
【3】Sutton R S,Barto A G. Reinforcement Learning, Cambridge,MA:The MIT
Press,1998
【4】Gerhard Weiss. Multiagent Systems: A Modern Approach to
Distributed Artificial Intelligence. Cambridge,MA:The MIT Press,1999
【5】Tsitsiklis J N . Asynchronous stochastic approximation and Q-learning .
Machine Learning , 1994,16(3):185~202
【6】Lovejoy W S . A survey of algotithmic methods for partially observed Markov
decision processs. Annals of Operations Research, 1991,28:47~65
【7】王钰,周志华,周傲英. 机器学习及其应用. 北京:清华大学出版社,2006
【8】McCulloch W,Pitts W. A logical calculus of the ideas immanent in nervous
activity . Bulletin of Mathematical Biophysics,1943,5
【9】洪家荣.机器学习——回顾与展望. 计算机科学,1991,(02):1-8
【10】张汝波. 强化学习理论及应用. 哈尔滨:哈尔滨工程大学出版社,2001
【11】高阳,陈世福,陆鑫. 强化学习研究综述.自动化学报. 2004,30(1):86-100




【12】Barto A G , Mahadevan S . Recent Advances in Hierarchical Reinforcement
Learning . Discrete Event Dynamic Systems: Theory and
Applications,2003,13(4):41-77
【13】Klopf A H. A neuronal model of classical conditioning. Psychobiology,
1988,16(2):85-125
【14】Singh S P, Jaakola T , Jordan M I . Reinforcement Learning with Soft State
Aggregation . Neural Information Processing System 7 ,Cambridge ,
Massachusetts: MIT Press, 1995:361-368
【15】Moriarty D , Schultz A , Grefenstette J. Evolutionary Algotithms for
Reinforment Learning. Journal of Artificial Intelligence Research,
1999,11(1):241-276
【16】Bertsekas D P, Tsitsiklis J N . Neuro-dynamic Programming Belmont: Athena
Scientific, 1996






本课题要研究或解决的问题和拟采用的研究手段(途径):

本课题主要有三大任务:
一是学习强化学习的各种经典算法,比较各个算法的特征和使用场合。
二是学习POMDP、PSR、HRL几个新的数学模型。
三是提出创新,对于PSR模型提出算法创新。

对于第一个任务,主要是查阅文献 ,学习几种经典算法,并编程对算法进行比较。进行算法
比较时,主要考虑以下几方面:
1. 算法的收敛速度
2. 算法收敛后的稳定性
3. 算法在规模扩大后的泛化能力
4. 算法在不同环境下的适应能力
5. 改变算法的参数,考察参数对算法性能的影响。
采用的研究手段主要是进行横向比较和纵向比较
1.纵向比较:对于同一个问题,使用不同的算法,比较各算法的性能
2.横向比较 :对于同一个问题同一个算法,改变算法的参数或问题规模或环境特征,
比较参数对算法的影响。

第二个任务,对于POMDP、PSR、HRL的模型学习,主要以阅读文献为主,通过查阅 各种
资料总结几种模型的定义、基本框架。最后在论文中加以归纳。

第三个任务着 重于创新性要求,本课题主要是针对PSR模型下算法的创新。通过学习PSR
下的各种算法,对算法提 出改进点,并能验证改进的算法性能。



同、收回房屋:
转让或转借的;

1.承租人擅自将房屋转租、
租赁期共__年

房屋租赁合同

出租方(甲方):XXX,男女,XXXX年XX月XX日出生,身份证号码XXXXXXXX

承租方(乙方):XXX,男女,XXXX年XX月XX日出生,身份证号码XXXXXXXX


甲、乙双方就房屋租赁事宜,达成如下协议:

一、甲方将 位于XX市XX街道XX小区X号楼XXXX号的房屋出租给乙方居住使用,租
赁期限自XX年XX月X X日至XX年XX月XX日,计X个月。

二、本房屋月租金为人民币XX元,按月季度年结 算。每月月初每季季初每年年初
内,乙方向甲方支付全月季年租金。

三、乙方租赁 期间,水费、电费、取暖费、燃气费、电话费、物业费以及其它由乙方居住而
产生的费用由乙方负担。租 赁结束时,乙方须交清欠费。

四、乙方不得随意损坏房屋设施,如需装修或改造,需先征得 甲方同意,并承担装修改造费
用。租赁结束时,乙方须将房屋设施恢复原状。



七、发生争议,甲、乙双方友好协商解决。协商不成时,提请由当地人民法院仲裁。

八、本合同连一式X份,甲、乙双方各执X份,自双方签字之日起生效。


甲方:

乙方:






X

青烟袅袅的意思-逃避英语


嫱怎么读-冰箱的英语怎么读


means怎么读-蓐怎么读


古代的意思-山字成语


熳怎么读-用人不疑疑人不用意思


捻翅虫-淋浴英语


ingest-三国演义读后感


supreme是什么意思-娩字怎么读



本文更新与2020-10-25 05:41,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/424733.html

开题报告提交版的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文