当前位置：移动技术网 > 互联网>游戏 > 4.蒙特卡洛（Monte-Carlo, MC）+时序差分（Temporal Difference, TD）

4.蒙特卡洛（Monte-Carlo, MC）+时序差分（Temporal Difference, TD）

2020年07月15日 | 移动技术网互联网 | 我要评论

简介

之前讲的PG算法和PPO算法，都是Policy-based的方法，接下来我们要讲Value-based的方法。之前说过了，P-B方法和V-B方法的区别在于前者训练的是策略本身（actor），而后者训练的是一种评判标准（critic）。critic能根据你输入的状态/动作，凭借策略 $\pi$ 来输出对应的值函数。值函数有两种，一种是V（状态-值函数），一种是Q（状态-动作值函数），我们要讲的MC算法和TD算法是用来估计V值函数的。

符号

$\tau$ ：一轮游戏中的具体过程（trajectory）， $\tau=\{s_1,a_1,r_1,s_2,a_2,r_2,\ldots,s_T,a_T,r_T\}$ ，是状态-行为-奖赏的时间序列。
$G_t$ ：时间从t到结束的累积奖赏，由于t时刻的奖励是采取行动后t+1时刻才拥有的，所以 $G_t$ 满足： $G_t={r_{t+1}+r_{t+2}+\ldots}$
$V_\pi(s)$ ：策略为 $\pi$ 的状态-值函数，即状态s下预计累计回报的期望值，满足： $V_\pi(s)=\mathbb{E}[G_t\vert S_t=s]$
$Q_\pi(s,a)$ ：策略为 $\pi$ 的状态-动作值函数，即状态s下采取动作a预计累计回报的期望值，满足： $Q_\pi(s,a)=\mathbb{E}[G_t\vert S_t=s,A_t=a]$

蒙特卡洛（Monte-Carlo, MC）算法

MC算法就是通过采样来估计分布的一种算法。在一场游戏中，先让策略 $\pi$ 去和环境进行交互获取数据，看到状态 $s$ 后计算整场游戏的累积奖赏 $G$ ，记录下这些数据后训练一个回归问题来拟合 $V_\pi(s)$ 。如下图所示：
来自B站李宏毅深度学习
公式逼近为： $V_\pi(s)\leftarrow V_\pi(s)+\alpha(G_t-V_\pi(s))$

其中 $\alpha$ 为学习率，越接近1学的越快。
显而易见，这样的训练需要大量的采样，并且每次update都需要一整轮的累积奖赏 $G_t$ ，因此实际情况下我们用TD算法会比较多。

时序差分（Temporal Difference, TD）算法

在MC算法中，我们每次都要算整场游戏的总和 $G$ 。有的游戏很长，每次都要玩完游戏会花费很多时间。而TD算法只需要有 $\ldots s_t,a_t,r_t,s_{t+1},\ldots$ 这样的序列，就可以应用。
这是基于一个显见的递推公式： $V_\pi(s_t)=V_\pi(s_{t+1})+r_t$

有了这样一个递推公式，我们只需要记录每一步的即时奖励 $r_t$ ，通过神经网络直接训练 $V_\pi$ 函数，分别输入 $s_t$ 和 $s_{t+1}$ ，将两个结果相减，再将减后的结果与 $r_t$ 进行回归拟合就行了。如下图所示：
来源b站李宏毅深度学习
公式逼近为： $V_\pi(s)\leftarrow V_\pi(s)+\alpha(r_{t+1}+ V_\pi(s')-V_\pi(s))$

其中 $s'$ 是下一步的状态。

MC v.s. TD

MC的问题在于其方差过大。我们用MC算法回归估计的是累积奖赏 $G$ ，而累积奖赏是许多step的和，而游戏的每一步step的奖赏 $r$ 都有随机性，这份随机性也通过方差积累下来了。
而TD中的即时奖赏 $r$ 同样具有随机性，但是方差会小很多。TD的问题在于V的估计可能不准，那递归调用就会放大这份估计的误差。

例子

假设通过一个策略 $\pi$ 玩游戏，获得了以下8轮的 $\tau$ ：

$s_a,r_a=0,s_b,r_b=0,End$
$s_b,r=1,End$
$s_b,r=1,End$
$s_b,r=1,End$
$s_b,r=1,End$
$s_b,r=1,End$
$s_b,r=1,End$
$s_b,r=0,End$

我们通过MC和TD算法分别估测a和b的状态值函数。
Monte-Carlo: $V_\pi(s_a)=0\\V_\pi(s_b)=\frac{3}{4}$
Temporal Difference: $V_\pi(s_a)=V_\pi(s_b)=\frac{3}{4}$
如之前所说，MC算法就是采样状态s，然后计算其V值。我们发现在这8轮游戏中，a在第一轮出现一次，且一整轮的累积奖赏 $G_1=r_a+r_b=0$ ，所以 $V_\pi(s_a)=\mathbb{E}[G_a]=G_1=0$ ；而b在8轮中都出现过了，其中有六轮中累积奖赏 $G_{1,2,3,4,5,6}=1$ ，两轮中累积奖赏 $G_{0,7}=0$ ，所以 $V_\pi(s_b)=\mathbb{E}[G_b]=\frac{1}{8}\sum_{i=0}^7 G_i=\frac{3}{4}$ 。
TD算法则是根据动作的即时奖赏来估计V值。在8轮中，状态 $s_b$ 都是最后一个状态，所以对于每一轮都有 $V_\pi(s_b)=V_\pi(End)+r$ 。而由定义易得 $V_\pi(End)=0$ ，所以 $V_\pi(s_b)=\frac{3}{4}$ 。对于 $V_\pi(s_a)$ ，在第一轮中有 $V_\pi(s_a)=V_\pi(s_b)+r_a$ ，且 $r_a=0$ ，所以 $V_\pi(s_a)=V_\pi(s_b)=\frac{3}{4}$ 。

其他的critic

如果不估计 $V_\pi$ 而是用动作-状态值函数 $Q_\pi$ ，也是可以用MC和TD方法的，过程基本一致，不过Q函数接收的参数除了状态还有动作，因此需要更改一下公式。

总结

实际运用中用TD算法比较多。接下来讲Q-learning。

本文地址：https://blog.csdn.net/qq_39160779/article/details/107309495

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

vim-移动和定位

我们平时在编辑文本的过程中少不了移动和定位操作，能快速而准确的定位到我们想要的地方可以提高编辑的效率。（当然，也... [阅读全文]
石子游戏

一、题目描述题目链接：https://leetcode-cn.com/problems/stone-game/二... [阅读全文]
字符串哈希

大雪菜的课（笔记）数据结构（三）1.哈希(1).字符串哈希模板(字符串哈希 —— 模板题 AcWing 841.... [阅读全文]
大一ACM选拔总结【此后无良辰】

为以后学弟学妹问起来做做准备吧第一题无脑字符串模拟 4.09通过第二题杨辉三角+组合数的排列组合因为杨辉三角的... [阅读全文]
关于“次世代”游戏建模，你知道多少

次世代”这个词对于已经接触过“次世代”的小伙伴一点也不陌生，但是可能也有没有接触过和想了解“次世代”的小伙伴会疑... [阅读全文]
百度超级链公开课|如何编写赢得万元奖金的智能合约

历时3个月的区块链服务网络BSN第二次开发者大赛圆满落幕。本期邀请三位使用百度超级链XuperChain作为底层... [阅读全文]
大一实训----C语言编写俄罗斯方块游戏

一、代码main.c#include <stdio.h>#include <stdlib.h&... [阅读全文]
乙方背后的男人——丙方经理如何瞒天过海完成任务？

本文包含大量实战经验，一定要看完哦！！！某知名综艺有个小游戏：你画我猜，游戏的主要流程是给队伍最前面那个人一个词... [阅读全文]
Markdown整理备忘（二）-- 字母字体及颜色

常见字体数字字体标记字体名词LaTex代码例子效果rm或mathrm罗马体$\rm{0123456789}$或$... [阅读全文]
棋盘游戏 51Nod - 1327

题解：在放置棋子时仅仅要求左右满足条件与n的顺序无关，考虑一个二维dp数组,dp[i][j]代表放到了第i列还有... [阅读全文]

网友评论


验证码：