相关推荐

浏览器版本过低,请升级浏览器
收藏

莫烦 #15 Actor Critic 演员评论家 (强化学习 Reinforcement Learning 教学)原创

莫烦Python
1.9万 粉丝
详情
2017-04-03 16:02:16上传
结合了 Policy Gradient (Actor) 和 Function Approximation (Critic) 的方法. Actor 基于概率选行为, Critic 基于 Actor 的行为评判行为的得分, Actor 根据 Critic 的评分修改选行为的概率. 详细的文字教程: https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ Code in Github: https://github.com/MorvanZhou/tutorials/tree/master/Reinforcement_learning_TUT

评论区