深度强化学习相关总结

数学推导、伪代码及pytorch实现（更新中）

资源推荐

动作函数$\pi(a_t \mid s_t) = \operatorname{argmax}_{a_t}(Q(s_t,a_t))$

On-Policy算法，使用离散的数组储存Q值，并用TD估测Return。

适用于离散状态、离散动作模型的价值学习。单步采集的数据有$\{s_t, a_t, r_t, s_{t+1}, a_{t+1}\}$，这也是其名称的由来。

Q-learning

核心公式为

$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \cdot \hat \delta_t$

其中

$\begin{aligned} \hat u_t(TD \ target) & = r_t+\gamma \max_a Q(s_{t+1}, a) \\ \hat \delta_t(TD \ error) & = \hat u_t - Q(s_t, a_t) \end{aligned}$

Off-Policy算法，SARSA的变体。单步采集的数据有$\{s_t, a_t, r_t, s_{t+1}\}$。

DQN

使用神经网络替代$Q$函数的Q-learning算法。

对于网络$Q_\pi(s_t, a_t; \boldsymbol \omega)$，损失函数为

$L^{DQN}(\boldsymbol \omega)=\hat \delta_t$

其中

$\begin{aligned} \hat u_t(TD \ target) & = r_t+\gamma \max_a Q(s_{t+1}, a) \\ \hat \delta_t(TD \ error) & = \hat u_t - Q(s_t, a_t) \end{aligned}$

该网络及下文所述所有网络，更新方式均为：

$\boldsymbol \omega \leftarrow \boldsymbol \omega - \alpha \cdot \frac{\partial L(\boldsymbol \omega)}{\partial \boldsymbol \omega}$

DQN使用神经网络$Q_\pi(s_t, a_t; \boldsymbol \omega)$拟合函数$Q_\pi(s_t, a_t)$，解决了连续状态下强化学习的问题。

基于策略的学习 (Policy-based learning)

基础理论推导

基于策略的学习中，需要训练的函数为$\pi(a_t\mid s_t;\boldsymbol \theta)$。其结构与DQN类似，但输出需要增加一层softmax，保证各个策略的概率和为1。

Softmax函数的定义：$Softmax(\boldsymbol{x_i})=e^{\boldsymbol{x_i}} \div \sum_j{e^{\boldsymbol{x_j}}}$

为了使策略在调整时变好，需要使$V_\pi(s_t)$接近$V^\star(s_t)$，所以需要做梯度上升：

$\boldsymbol \theta \leftarrow \boldsymbol \theta + \alpha \frac{\partial V\pi}{\partial \boldsymbol \theta}$

关于梯度上升的正确性，可以有个直观理解：根据$V^\star(s_t)$的定义，使用随机初始化的策略函数$\pi$得到的$V_\pi(s_t)$一定小于等于$V^\star(s_t)$，仅需其不断上升即可不断逼近$V^\star(s_t)$

根据定义，可以推导出

$V_\pi(s_t)=\mathbb E_{a_t \sim \pi}\left[Q_\pi(s_t, a_t)\right] = \left \{ \begin{aligned} \sum_{a} & { \pi(a\mid s_t;\boldsymbol \theta) Q_\pi(s_t, a)}, & & (a离散) \\ \int_a & \pi(a\mid s_t;\boldsymbol \theta) Q_\pi(s_t, a) \, da, & & (a连续) \end{aligned} \right .$

假设$Q_\pi$不依赖于$\boldsymbol \theta$，则$a$连续时，有

$\begin{aligned} \frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta} & = \int_a \frac{\pi(a\mid s_t;\boldsymbol \theta)}{\pi(a\mid s_t;\boldsymbol \theta)} \frac{\partial \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} Q_\pi(s_t, a) \, da\\ & = \int_a \pi(a\mid s_t;\boldsymbol \theta) \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} Q_\pi(s_t, a) \, da\\ & = \mathbb E_{a \sim \pi}\left [ \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} Q_\pi(s_t, a) \right ] \end{aligned}$

离散时结论相同。故做梯度上升时，仅需求出此期望即可。

为便于后续推导，定义

$g(a)=\frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} Q_\pi(s_t, a)$

则有

$\frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta}=\mathbb E_{a \sim \pi}\left [ g(a) \right]$

以下按时间顺序介绍几个经典的PG算法。

REINFORCE

损失函数为：

$\pi(a_t\mid s_t;\boldsymbol \theta): \ L(\boldsymbol \theta)= - V_\pi(s_t) =-u_t \cdot \ln \pi(a_t\mid s_t;\boldsymbol \theta)$

参考：https://paperexplained.cn/aplayground/iarticle/detail/0454c3b5-be1a-4aff-a146-9c5adaf76600/

朴素的策略学习算法。

使用蒙特卡罗方法，有

由t时刻获取的$s_t$, $a_t$算得的$g(a_t)$是$\frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta}$的无偏估计
由一个回合求得轨迹计算而得的$u_t$是$Q_\pi(s_t, a_t)$的无偏估计

故有

$\begin{aligned} \frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta}&= \mathbb E_{a \sim \pi}\left [ g(a) \right] \\ & \approx \frac{\partial \ln \pi(a_t\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} Q_\pi(s_t, a_t) \\ & \approx \frac{\partial \ln \pi(a_t\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} u_t \end{aligned}$

REINFORCE with Baseline

损失函数为：

$\begin{aligned} \pi(a_t\mid s_t; \boldsymbol \theta):& &L(\boldsymbol \theta) & = -\hat A_t(s_t, a_t) \\ V^\star(s_t; \boldsymbol \omega):& &L(\boldsymbol \omega) & = \frac{1}{2} \delta_t ^ 2 \end{aligned}$

其中：

$\delta_t = V^\star(s_t; \boldsymbol \omega) - u_t = -\hat A_t(s_t, a_t)$

注：策略网络更新时使用的是梯度下降，但与without baseline的方法比较可见含$u_t$的一项仍为正号

式中的$\hat A_t(s_t, a_t)$表示在t时刻的优势函数$A_t(s_t, a_t)$的无偏估计量。

首先证明引理：对于与$\pi$无关的任意变量$b$，均有

$\mathbb E_{a \sim \pi}\left [ b\cdot \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} \right ] = 0$

证明如下：

$\begin{aligned} \mathbb E_{a \sim \pi}\left [ b\cdot \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} \right ]&= \int_a b\cdot \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} \cdot \pi(a\mid s_t;\boldsymbol \theta) \, da \\ & = \int_a b \cdot \frac{\partial \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} \, da \\ & = b \cdot \frac{\partial}{\partial \boldsymbol \theta}\int_a \pi(a\mid s_t;\boldsymbol \theta) \, da \\ & = b \cdot \frac{\partial}{\partial \boldsymbol \theta}1 \\ & = b \cdot 0 \\ & = 0 \\ \end{aligned}$

证毕。

故可以在求解$\frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta}$时，人为添加一项$b$，使其变为如下形式而不影响其正确性：

$\begin{aligned} \frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta} &= \mathbb E_{a \sim \pi}\left [ \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} Q_\pi(s_t, a) \right ] \\ &= \mathbb E_{a \sim \pi}\left [ \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} [Q_\pi(s_t, a) - b] \right ] \end{aligned}$

在选取合适的$b$时，不但不会影响其正确性，还可以有效减小蒙特卡罗方法引入的方差，降低训练时的波动（TODO:证明）

$b$的选取有多种方式，一种比较好的选取方式为，使用神经网络拟合优势函数：$b=V^\star(s_t; \boldsymbol \omega)$，并使用训练DQN的方法训练此网络。本节核心公式中即使用了此方法。带入上式，则有：

$\frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta} = \mathbb E_{a \sim \pi}\left [ \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} [Q_\pi(s_t, a) - V^\star(s_t; \boldsymbol \omega)] \right ]$

由于梯度上升最终结果为$V_\pi=V^\star $, $Q_\pi=Q^\star $ ，故部分论文中未严格区分最优策略函数与当前策略下的函数，统一用$V$和$Q$分别代替两者，故上式改写为

$\frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta} = \mathbb E_{a \sim \pi}\left [ \frac{\partial \ln \pi(a\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} [A_\pi(s_t, a)] \right ]$

带入REINFORCE一节的推导，则有：

$\begin{aligned} \frac{\partial V_\pi(s_t)}{\partial \boldsymbol \theta} & \approx \frac{\partial \ln \pi(a_t\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} [Q_\pi(s_t, a_t) - V_\pi(s_t)] \\ & \approx \frac{\partial \ln \pi(a_t\mid s_t;\boldsymbol \theta)}{\partial \boldsymbol \theta} [u_t - V_\pi(s_t)] \end{aligned}$

Advantage Actor-Critic(A2C)

损失函数为：

$\begin{aligned} \pi(a_t\mid s_t; \boldsymbol \theta):& & L^{A2C}(\boldsymbol \theta) & = - \hat A_t(s_t, a_t)\\ V^\star(s_t; \boldsymbol \omega):& & L^{A2C}(\boldsymbol \omega) & = \delta_t \cdot V^\star(s_t; \boldsymbol \omega) \end{aligned}$

其中：

$\begin{aligned} \delta_t = - \hat A_t(s_t, a_t) & = \left \{ \begin{aligned} V^\star(s_t; \boldsymbol \omega) - (r_t + \gamma \cdot V^\star(s_{t+1}; \boldsymbol \omega)), & & (\operatorname{TD}(1)) \\ V^\star(s_t; \boldsymbol \omega) - \left[ \left( \sum_{i=t}^{t+n-1}\gamma^{i-t} r_i \right) + \gamma^n \cdot V^\star(s_{t+n}; \boldsymbol \omega)\right], & & (\operatorname{TD}(n)) \end {aligned} \right. \\ & = V^\star(s_t; \boldsymbol \omega) - R - \gamma_{discount}*V^\star(s_{next};\boldsymbol \omega) \end {aligned}$

使用TD target代替上一节公式中的$u_t$即为A2C：

优化方法

训练时优化方法

通过在训练时增设环节以达到比简单训练方式收敛速度更快、或实现更容易的优化方法。大部分方法都可混合使用。

经验回放 Replay buffer

Off-Policy使用的优化方式。由于Off-Policy的数据生成与训练使用的不同的agent,

咕

Target network

缓解DQN的高估问题

咕

Multi-step TD target

在使用TD target的算法中，将$TD(1)$更换为$TD(n)$，以更多地使用与环境交互获得的奖励，降低更新时网络本身的权重。由此可使算法更快地收敛。

Double DQN

另一种方式缓解高估问题。

咕

Target network

进一步缓解高估问题。

咕

TRPO

参考：arXiv:1502.05477

Off-Policy。

使用Target network改进REINFORCE。

原理较为复杂，并且lr难以选取。

下一节的PPO是其简化版本。

PPO

参考：arXiv:1707.06347

使用不同的网络进行数据生成和训练，并定时将训练网络的参数同步至数据生成网络。

文章中提出了两种损失函数的设计方式，均已列在下方。

训练伪代码如下：

损失函数为：

$\begin{aligned} & & L_t^{CLIP}(\boldsymbol \theta)&=\mathbb E_{a\sim\pi}\left[ \min\left( r_t(\boldsymbol\theta)\hat A_t, \operatorname{clip}\left(r_t(\boldsymbol\theta), 1-\epsilon, 1+\epsilon\right)\hat A_t\right ) \right] \\ or & & L^{KLPEN}(\boldsymbol \theta)&=\mathbb E_{a\sim \pi}\left[ r_t(\boldsymbol \theta)\hat A_t-\beta\operatorname{KL}[\pi_{\theta_{old}}(\cdot \mid s_t), \pi_\theta(\cdot \mid s_t)] \right] \end{aligned}$

式中有概率比函数$r_t(\boldsymbol \theta)$、裁剪函数$\operatorname{clip}(x,B,C)$以及KL散度$KL(p(x), q(x))$：

$\begin{aligned} r_t(\boldsymbol \theta)&=\frac{\pi_{\theta_{old}}(a_t \mid s_t)}{\pi_\theta(a_t \mid s_t)}, \\ \operatorname{clip}(x,B,C) \ (B<C) &=\left \{ \begin{aligned} B, & & x < B \\ x, & & B < x < C \\ C, & & x > C \end {aligned} \right. \\ KL(p(x), q(x)) & = \left \{ \begin{aligned} \int_x p(x)\ln{\frac{p(x)}{q(x)}}\, dx & & \text{for continuous x} \\ \sum_x p(x)\ln{\frac{p(x)}{q(x)}} & & \text{for discrete x} \\ \end{aligned} \right . \end{aligned}$

以及超参数$\epsilon$、$\beta$。

若使用$L^{KLPEN}(\boldsymbol \theta)$作为参数，则需引入额外超参数$d_{targ}$，并在进行梯度下降时按如下规则更新$\beta$:

计算 $d=\mathbb E_{a\sim \pi}\left[\operatorname{KL}[\pi_{\theta_{old}}(\cdot \mid s_t), \pi_\theta(\cdot \mid s_t)]\right]$
做如下判断：
- 如果$d < d_{targ} / 1.5$, $\beta \leftarrow \beta / 2$
- 如果$d > d_{targ} \times 1.5$, $\beta \leftarrow \beta \times 2$

根据原文所述，1.5和2是启发性地选取的，但算法对它们并不敏感。$\beta$的初始值虽然也需要设置，但其并不重要，因为在更新时$\beta$的值会迅速调整。

结构优化方法

Dueling Network

适用于DQN的强化学习。

为方便叙述，定义动作总数为$n$。

使用优势函数，将DQN的输出层的$n$维向量$Y$调整为$n+1$维（新增一个代表$V(s_t)$的数据），并额外增设一层$Y \rightarrow X$，满足如下规则：

$\begin{aligned} X = Y[n-1] + Y[0:n-1] - \operatorname{mean}(Y[0:n-1]) & & or \\ X = Y[n-1] + Y[0:n-1] - \operatorname{max}(Y[0:n-1]) \end{aligned}$

虽然按照理论推导，使用$\max$函数才具有实际意义，但实践中使用$\operatorname{mean}$得到的效果更好。

理论推导如下：

咕。

H1's Blog

深度强化学习相关总结

资源推荐

相关定义与定理

术语

符号及函数

相关定理

时序差分(Temporal-Difference)

基于价值的学习 (Value-based learning)

学习算法

Sarsa

Q-learning

DQN

基于策略的学习 (Policy-based learning)

基础理论推导

REINFORCE

REINFORCE with Baseline

Advantage Actor-Critic(A2C)

优化方法

训练时优化方法

经验回放 Replay buffer

Target network

Multi-step TD target

Double DQN

Target network

TRPO

PPO

结构优化方法

Dueling Network