基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法

收藏 | 设为首页 | 通信世界网（CWW.NET.CN）

当前位置：首页 >> 通信学报 >> 2013年1月 >> 学术论文 >> 正文

基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法

通信世界网-通信学报

2013/2/18 10:26

强化学习 Sarsa(λ) 梯度下降势函数塑造奖赏

[本文摘要]

针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题，提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器，可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题，提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性，并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。

本文属于通信世界网付费阅读文章，请您先登陆（注册）通信世界网，并交纳相关费用之后，您将获得阅读此文的权力，详情请阅读通信世界网付费项目说明。
特别提示：请在您的电脑上安装 Adobe Acrobat Reader 阅读器，以保证您的正常浏览。
如有问题，请咨询：010-81055499

编辑：刘冰

相关阅读

热门文章

中国联通算力网络实践案例（2021年版）

2021年12月6日

中国电信2016年前三季度营收2638亿

2016年10月28日

华为陈金助：打造超宽带云骨干网 IT集群路由..

2016年10月24日

爱立信彭俊江：5G已逐步走出“实验室”开始落地

2016年9月28日

蓝戈沙龙

蓝戈沙龙第十一期:安全是智能手机的下一轮..

蓝戈沙龙第十期：如何增强智能路由器的用户..

人民邮电出版社
工业和信息化部
人民邮电出版社图书专营店
中国通信企业协会
中国通信学会
中国互联网协会
无线电频谱管理中心
工业和信息化部电信研究院

中国通信标准化协会
中国移动通信联合会
中国邮电器材公司
中国电信
中国移动
中国联通
中国信息协会信息服务网络委员会
爱购服务器之家

新浪科技
搜狐IT
腾讯科技
凤凰网科技
人民网无线频道
中国通信网
移动Labs
中华电子网
通信产业网
企业网

In-Stat
IT价值联盟
中国软件资讯网
通信人才网
慧聪通信网
CTI论坛
北极星电力网
CTO技术网
美通社
赛立信竞争情报网

CRS通信学社
钉科技
和讯科技
博趣·兴趣门户
呼叫中心频道
运营与增值
信天下企业短信
新电子
OFweek光通讯网
中云网

关于我们 | 广告服务 | 在线阅读 | 企业专区 | 企业黄页 | 在线订阅 | 工作机会 | 联系我们 | 友情链接 | 本站导航
Copyright ©1999-2012 By cww.net.cn. ICP许可证号：[京 09082226号-10号] 电信与信息服务业务经营许可证101190号