强化学习导论——Temporal-Difference Lear

强化学习导论——Temporal-Difference Lear

作者: 初七123 | 来源:发表于2018-09-25 20:10 被阅读143次

强化学习导论——Temporal-Difference Lear
强化学习(Reinforcement Learning)中的Q-
AlphaGo背后的强化学习
强化学习基础篇（三十三）Dyna算法
11.25 统计学习方法
强化学习导论——Eligibility Traces
强化学习导论——Dynamic Programming
强化学习导论（Reinforcement Learning：An
AI学习笔记之——强化学习(Reinforcement Lear
AI学习笔记之——强化学习(Reinforcement Lear

毫无疑问TD是强化学习中一个最新奇的算法，它结合了MC和DP的思想

constant a-MC可以表示为

那么简单的TD可以表示为

可以看出TD仅需要一步动作就能更新价值函数

他们的区别在于MC以6.3式为目标，而TD以6.4式为目标

而且蒙特卡洛error可以拆分成很多TD error

TD相对于DP来说不需要知道环境模型，相对于MC来说可以尽可能早的学习，实验发现TD比constant a-MC的收敛要快一些。

如果数据集为

batch TD（0）预测V(A)=3/4，而batch Monte Carlo预测V(A)=0，显然batch TD（0）的预测更符合我们的常理。因为如果给定MDP模型，显然容易得到。batch TD(0)收敛于certainty-equivalence estimate

batch TD（0）和batch Monte Carlo方法找到的估计值之间的一般差异。 batch蒙特卡罗方法总是找到最小化训练集上的均方误差的估计，而batch TD（0）总是找到对于马尔可夫过程的最大似然模型而言非常正确的估计。

对于策略的学习(即预测Q(s, a))

on-policy的方法行为策略和目标策略是一致的

off-policy的行为策略和目标策略不一致，Q-Learning被证明以概率1收敛到q*

他们的区别在于：Although Q-learning actually learns the values of the optimal policy, its on-line performance is worse than that of Sarsa, which learns the roundabout policy.

修改一下策略迭代公式，可以得到基于期望的Sarsa，通常可以减小方差

无论是Q-Learning还是Sarsa都涉及到max操作，这会产生一种过估计的现象，假设有一种情况，所有的q(s,a)都是0，实际上预测是在0上下浮动，max操作便会使得最终的预测结果倾向于更大的值，这就是Double Learning中的过估计问题。

一种解决过估计的方法：过估计产生的原因是使用相同的样本选择最大价值动作和预估其值，Double Learning使用一个额外的策略选择最大价值动作，并且预估当前策略的值。

算法描述如下

实际效果

相关文章

强化学习导论——Temporal-Difference Lear
毫无疑问TD是强化学习中一个最新奇的算法，它结合了MC和DP的思想 constant a-MC可以表示为那么简单...
强化学习(Reinforcement Learning)中的Q-
1. 什么是强化学习其他许多机器学习算法中学习器都是学得怎样做，而强化学习（Reinforcement Lear...
AlphaGo背后的强化学习
学号：16040520018 姓名：米芃 [嵌牛导读]本文是强化学习名作——“Reinforcement Lear...
强化学习基础篇（三十三）Dyna算法
强化学习基础篇（三十三）Dyna算法 1、使用模型进行规划基于模型的强化学习算法的主要成分可以分为学习（Lear...
11.25 统计学习方法
1.2监督学习统计学习包括监督学习，非监督学习，半监督学习及强化学习。监督学习（supervised lear...
强化学习导论——Eligibility Traces
资格迹是增强学习的一个基本的机制。比如在流行的TD(k)算法中，k涉及到资格迹的使用。几乎所有的时间差分算法如Q-...
强化学习导论——Dynamic Programming
这里的DP是强化学习中用于求解MDP问题的一种方法，本章用DP找到满足最优贝尔曼方程的策略首先我们考虑如何评估状...
强化学习导论（Reinforcement Learning：An
https://blog.csdn.net/Tryantking/article/details/79953734
AI学习笔记之——强化学习(Reinforcement Lear
诚如在之前文章提到的，机器学习按照从那里学的角度可以分为：监督学习，无监督学习和强化学习三大类。之前的文章大多数都...
AI学习笔记之——强化学习(Reinforcement Lear
姓名：张庆庆学号：19021211151 嵌牛导读：机器学习第三类强化学习嵌牛鼻子：机器学习强化学习嵌牛提...

网友评论

本文标题：强化学习导论——Temporal-Difference Lear

本文链接：https://www.haomeiwen.com/subject/axflnftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|强化学习导论——Temporal-Difference Lear|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！