相关推荐

浏览器版本过低,请升级浏览器
收藏

莫烦 #16 DDPG (强化学习 Reinforcement Learning 教学)原创

莫烦Python
1.9万 粉丝
详情
2017-04-22 14:03:44上传
Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测. DDPG 结合了之前获得成功的 DQN 结构, 提高了 Actor Critic 的稳定性和收敛性. 详细的文字教程: https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/ Code in Github: https://github.com/MorvanZhou/tutorials/tree/master/Reinforcement_learning_TUT

评论区