当前位置：移动技术网 > IT编程>开发语言>C/C++ > 荐强化学习笔记（四）无模型控制（Model-Free Control）

荐强化学习笔记（四）无模型控制（Model-Free Control）

2020年07月15日 | 移动技术网IT编程 | 我要评论

强化学习笔记（四）无模型控制（Model-Free Control）

Q1： On-Policy和Off-Policy的区别？
Q2：Windy GridWorld代码学习
Q3：Q-Learning和SARSA的区别？
总结

UCL课程第五讲主要内容是On-Policy MC, On-Policy TD(SARSA), Off-Policy TD(Q-Learning). 首先回顾策略迭代方法，讲解 $\epsilon-greedy$ 的函数意义，之后讲了这三种控制方法。

Q1： On-Policy和Off-Policy的区别？

On-Policy一直使用一个策略来更新价值函数和选择新的动作。Off-Policy会使用两个控制策略，一个策略用于选择新的动作，另一个策略用于更新价值函数。
在这里插入图片描述
David从另一个视角去解释，On-Policy是“Learn on the job”，即解决当下任务的情况下学习。Off-Policy是"Look over someone’s shoulder"，即更新价值时使用的别人的经验。比方说学习打篮球，有的人直接上场打，从场上自己的动作得失来摸索经验。还有的人会先观察别人打球，或者看教学资料，再将别人的经验应用到自己的实战中。
Sarsa就是一种On-Policy的控制，Q-learning则是Off-Policy的。在初始状态，二者都采用 $\epsilon-greedy$ 方法，这是为了保证探索率的存在。而在transition的价值估计方面，Q-learning使用了贪婪选择。

Q2：Windy GridWorld代码学习

Windy GridWorld代码在刘老师的Github页面：https://github.com/ljpzzz/machinelearning/blob/master/reinforcement-learning/sarsa_windy_world.py
代码不长，由于版权原因，我就不Po上来了。程序结构分为四块：定义游戏规则和超参数、定义状态-动作转换过程（def step(state, action)），定义执行一轮的过程（从起点走到终点停止 def episode(q_value) ）, 定义整个训练过程（也就是反复执行第三块，跟深度学习的迭代一样，跑epoch轮）。所有的强化学习问题都可以这么定义，只是不同问题规模大小、复杂程度不一样。
def step(state, action) 定义了从某一状态执行某一动作后下一状态是什么样子。这里的状态很简单，游戏是7*10的方格，状态可以用二维坐标表示。动作则是上下左右四个变量，可以用0-3的数字表示。在return的时候需要考虑边界情况。
def episode(q_value)定义了执行一轮的过程，也就是从初始位置走到终点的过程。根据下图可以看到，曲线斜率越来越大，也就是说随着迭代，每轮走的步数是越来越少的，Agent选择了更短的步数到达终点。
在这里插入图片描述
整个训练过程跟神经网络的迭代基本一样，只是NN训练的是网络权重，而强化学习TD法训练的是q函数。

Q3：Q-Learning和SARSA的区别？

Q1里说到了Q-Learning是离线策略（Off-Policy），而SARSA是在线策略（On-Policy）. SARSA一直使用同一套策略进行动作选择和价值更新，因此在Transition的第二个动作A‘可以作为下一个迭代步的动作。但是Q-Learning采用了两套策略，所以我们只能保存状态S’，而A‘并不会真正地执行。在Q2代码中可以很清楚地看到区别。这么说还是挺抽象的，为了下次自己看还能看懂，我画了一个图。
在这里插入图片描述
用白色圈圈表示状态，黑色圈圈表示动作。首先我们在状态S，即初始状态，以 $\epsilon-greedy$ 策略选择动作，即绿色的 $Act1$ ，这时候到达状态S’，然后用TD法的贝尔曼方程更新价值函数，注意这里是SARSA法和Q-Learning法最大的区别：

SARSA的紫色 $Update1$ 使用 $\epsilon-greedy$ 策略选择动作A’，基于新的状态和动作更新价值函数，由于它的Act和Update是同一个策略，所以 $Act2 = Update1$ ，即A‘可以保留为下一轮的动作。
Q-Learning的紫色 $Update1$ 使用 $greedy$ 策略选择动作A’，基于新的状态和动作更新价值函数。但是新的动作并不会执行，因为这个动作是 $greedy$ 策略产生的，与第一步 $\epsilon-greedy$ 策略不一样。所以之后还得由 $\epsilon-greedy$ 重新选择A’(true)，而A’的作用只用于更新价值函数，之后可以抛弃。

总结

学到这里其实挺感慨的，SARSA和Q-Learning真的就是把贝尔曼方程和MDP用到了极致。我们在寻优的过程中同时更新着价值判断，这巧妙的过程，像极了人类思维的演变。我想到一个比喻：古时候的人不吃螃蟹，他们认为这东西有毒，这个价值判断一直传了下来。因此吃螃蟹这个动作价值 $q(S_{古时候}, A_{吃螃蟹})$ 会相当的低，比方说是负数，那么人们在做决策的时候往往会避开它，这个动作不会被执行，那么价值函数就不会被更新。但是，由于好奇心的存在，即 $\epsilon-greedy$ 中的 $\epsilon$ 探索率的存在，某天有个人执行了吃螃蟹的动作，发现它没有毒，也相当鲜美，这时候人们的价值观念变化了。螃蟹不再是不能吃的东西， $q(S_{新时期}, A_{吃螃蟹})$ 就会更新成很高，这便是人类思维的进化。如今吃大闸蟹已成为人们享受和小小奢侈的象征。

本文地址：https://blog.csdn.net/qq_34003876/article/details/107321391

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Stm32cube入门2

1.按键的原理图按键按下连接的是VCC那么是上拉输入按键按下连接的是GND那么是上拉输入1.输入模式，通过检测低... [阅读全文]
Qml和C++混合编程

Qml和C++运行环境不同，是两个平行的世界，但Qml和C++支持混合编程。Qml使用C++类和对象C++中的类... [阅读全文]
MQTT.fx客户端使用方法

MQTT.fx是调试MQTT协议一个必备的工具软件，这里归纳粗略介绍下客户端使用方法。1）下载安装。下载安装这... [阅读全文]
二、MQTT协议的了解

二、MQTT [阅读全文]
PyQt5快速上手基础篇7-弹出dialog

前言本节我们学习QDialog的使用，在主页面点击按钮弹出一个新的Dialog。一、基础知识1. dialog简... [阅读全文]
c语言绝对定位

C语言中的关键字__attribute_____attribute__( at(绝对地址) )的作用分两个，一个... [阅读全文]
C语言实现定时器

目录timer.htimer.ctimer.h#ifndef __TIMER_H#define __TIMER_... [阅读全文]
QT网络编程开发客户端

上一篇： QT网络编程开发服务端.文章目录基于Qt网络编程客户端QTcpSocket配置Publiccon... [阅读全文]
Ubuntu18.04下解决Qt出现qt.qpa.plugin:Could not load the Qt platform plugin “xcb“问题

问题描述安装qt5.15.0后，在运行测试用例时弹出错误：qt.qpa.plugin: could not load the qt platform plugi... [阅读全文]
c++字符串分割的方法

c++ 中经常需要对字符串按照分隔符进行分割以获得子串序列，子串的顺序与其在原字符串中出现的顺序一致。一般有两种需求场景：（1）给定一个分隔符（单个字符或子串）... [阅读全文]