相关推荐

浏览器版本过低,请升级浏览器
收藏

莫烦 #18 PPO/DPPO Proximal Policy Optimization 强化学习原创

莫烦Python
1.9万 粉丝
详情
2017-08-28 18:52:55上传
根据 OpenAI 的官方博客, PPO 已经成为他们在强化学习上的默认算法. 如果一句话概括 PPO: OpenAI 提出的一种解决 Policy Gradient 不好确定 Learning rate (或者 Step size) 的问题. 因为如果 step size 过大, 学出来的 Policy 会一直乱动, 不会收敛, 但如果 Step Size 太小, 对于完成训练, 我们会等到绝望. PPO 利用 New Policy 和 Old Policy 的比例, 限制了 New Policy 的更新幅度, 让 Policy Gradient 对稍微大点的 Step size 不那么敏感.

评论区