当前位置:首页 >> 通信学报 >> 2013年11月 >> 学术论文 >> 正文
基于优先级扫描Dyna结构的贝叶斯Q学习方法
通信世界网-通信学报
2013/12/31 19:03
强化学习  马尔科夫决策过程  优先级扫描  Dyna结构  贝叶斯Q学习  
[本文摘要]
贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。
本文属于通信世界网付费阅读文章,请您先登陆注册)通信世界网,并交纳相关费用之后,您将获得阅读此文的权力,详情请阅读通信世界网付费项目说明
特别提示:请在您的电脑上安装 Adobe Acrobat Reader 阅读器,以保证您的正常浏览。
如有问题,请咨询:010-81055499
相关阅读
 
新浪微博 腾讯微博 微信 rss
人民邮电出版社
工业和信息化部
人民邮电出版社图书专营店
中国通信企业协会
中国通信学会
中国互联网协会
无线电频谱管理中心
工业和信息化部电信研究院
中国通信标准化协会
中国移动通信联合会
中国邮电器材公司
中国电信
中国移动
中国联通
中国信息协会信息服务网络委员会
爱购服务器之家
新浪科技
搜狐IT
腾讯科技
凤凰网科技
人民网无线频道
中国通信网
移动Labs
中华电子网
通信产业网
企业网
In-Stat
IT价值联盟
中国软件资讯网
通信人才网
慧聪通信网
CTI论坛
北极星电力网
CTO技术网
美通社
赛立信竞争情报网
CRS通信学社
钉科技
和讯科技
博趣·兴趣门户
呼叫中心频道
运营与增值
信天下企业短信
新电子
OFweek光通讯网
中云网
关于我们 | 广告服务 | 在线阅读 | 企业专区 | 企业黄页 | 在线订阅 | 工作机会 | 联系我们 | 友情链接 | 本站导航
Copyright ©1999-2012 By cww.net.cn. ICP许可证号:[京 09082226号-10号] 电信与信息服务业务经营许可证101190号