基于优先级扫描Dyna结构的贝叶斯Q学习方法

当前位置：首页 >> 通信学报 >> 2013年11月 >> 学术论文 >> 正文

通信世界网-通信学报

2013/12/31 19:03

强化学习马尔科夫决策过程优先级扫描 Dyna结构贝叶斯Q学习

[本文摘要]

贝叶斯Q学习方法使用概率分布来描述Q值的不确定性，并结合Q值分布来选择动作，以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题，提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分：在学习部分，对环境的状态迁移函数及奖赏函数建模，并使用贝叶斯Q学习更新动作值函数的参数；在规划部分，基于建立的模型，使用优先级扫描方法和动态规划方法对动作值函数进行规划更新，以提高对历史经验信息的利用，从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题，实验结果表明，该方法能较好地平衡探索与利用，且具有较优的收敛速度及收敛精度。

本文属于通信世界网付费阅读文章，请您先登陆（注册）通信世界网，并交纳相关费用之后，您将获得阅读此文的权力，详情请阅读通信世界网付费项目说明。
特别提示：请在您的电脑上安装 Adobe Acrobat Reader 阅读器，以保证您的正常浏览。
如有问题，请咨询：010-81055499

编辑：刘冰